Domande e risposte per i professionisti della scienza dei dati, gli specialisti di Machine Learning e coloro che sono interessati a saperne di più sul campo
Come potrei dividere casualmente una matrice di dati e il corrispondente vettore di etichetta in X_train, X_test, X_val, y_train, y_test, y_val con Sklearn? Per quanto ne so, sklearn.cross_validation.train_test_splitè solo in grado di dividersi in due, non in tre ...
Questa domanda è in risposta a un commento che ho visto su un'altra domanda. Il commento riguardava il programma del corso di Machine Learning su Coursera e sulla falsariga di "SVM non sono usati così tanto al giorno d'oggi". Ho appena terminato da solo le lezioni pertinenti e la mia …
La logica spesso afferma che aumentando la sua capacità di generalizzare, si riduce la sua capacità di generalizzare. Detto questo, chiaramente a un certo punto il sottofondo di un modello fa sì che i modelli peggiorino indipendentemente dalla complessità dei dati. Come fai a sapere quando il tuo modello ha …
Di recente ho letto il commento di Yan LeCuns su convoluzioni 1x1 : Nelle reti convoluzionali non esistono "livelli completamente connessi". Esistono solo livelli di convoluzione con kernel convoluzione 1x1 e una tabella di connessione completa. È un fatto troppo raro che ConvNets non abbia bisogno di un input di …
Ho pensato alle reti neuronali ricorrenti (RNN) e alle loro varietà e alle reti neurali convoluzionali (CNN) e alle loro varietà. Sarebbe giusto dire questi due punti: Utilizzare le CNN per suddividere un componente (come un'immagine) in sottocomponenti (come un oggetto in un'immagine, come il contorno dell'oggetto nell'immagine, ecc.) Utilizzare …
Vedo molte volte nella descrizione del lavoro uno scienziato di dati che chiede esperienza in Python / Java e ignora R. Di seguito è un'e-mail personale che ho ricevuto dal capo scienziato di dati di una società per la quale ho fatto domanda tramite linkedin. X, grazie per esserti connesso …
Sapevo che Residual Network (ResNet) rendeva popolare la normale inizializzazione. In ResNet viene utilizzata l'inizializzazione normale He , mentre il primo livello utilizza l'inizializzazione uniforme He. Ho esaminato il documento ResNet e il documento "Delving Deep into Rectifiers" (He, documento di inizializzazione), ma non ho trovato alcuna menzione sul normale …
Qual è il giusto approccio e algoritmo di clustering per il clustering di geolocalizzazione? Sto usando il seguente codice per raggruppare le coordinate di geolocalizzazione: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y …
Sto lavorando a un progetto di data science usando Python. Il progetto prevede diverse fasi. Ogni fase comprende l'acquisizione di un set di dati, l'utilizzo di script Python, dati ausiliari, configurazione e parametri e la creazione di un altro set di dati. Conservo il codice in git, quindi quella parte …
Quando ho iniziato con le reti neurali artificiali (NN), ho pensato che avrei dovuto combattere il sovraprezzo come problema principale. Ma in pratica non riesco nemmeno a far superare la barriera del tasso di errore del mio NN al 20%. Non riesco nemmeno a battere il mio punteggio sulla foresta …
Latent Dirichlet Allocation (LDA) e Hierarchical Dirichlet Process (HDP) sono entrambi processi di modellazione degli argomenti. La differenza principale è che LDA richiede la specifica del numero di argomenti e HDP no. Perchè è così? E quali sono le differenze, i pro ei contro di entrambi i metodi di modellazione …
La logica spesso afferma che, sovradimensionando un modello, la sua capacità di generalizzazione è limitata, sebbene ciò possa significare solo che il sovradimensionamento impedisce a un modello di migliorare dopo una certa complessità. Il sovradimensionamento fa sì che i modelli peggiorino indipendentemente dalla complessità dei dati e, in tal caso, …
Sto usando TensorFlow per esperimenti principalmente con reti neurali. Anche se ho fatto alcuni esperimenti (XOR-Problem, MNIST, alcune cose di regressione, ...) ora, faccio fatica a scegliere la funzione di costo "corretta" per problemi specifici perché nel complesso potrei essere considerato un principiante. Prima di arrivare a TensorFlow ho codificato …
Le reti neurali ottengono migliori risultati in compiti di visione artificiale (vedi MNIST , ILSVRC , Kaggle Galaxy Sfida ). Sembrano sovraperformare ogni altro approccio in Computer Vision. Ma ci sono anche altri compiti: Sfida di attività molecolare di Kaggle Regressione: previsione Kaggle Rain , anche il 2 ° posto …
R ha molte librerie che si rivolgono all'analisi dei dati (ad esempio JAGS, BUGS, ARULES ecc.), Ed è menzionata in libri di testo popolari come: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "Apprendimento automatico con R". Ho visto una linea guida di 5 TB per un set di dati da considerare …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.