Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Dal libro di previsione: principi e pratica di Rob J Hyndman e George Athanasopoulos , in particolare la sezione sulla misurazione della precisione : Un metodo di previsione che minimizza il MAE porterà a previsioni della mediana, mentre minimizzare il RMSE porterà a previsioni della media Qualcuno può dare una …
Ho dedicato molto tempo allo sviluppo di metodi e software per la validazione di modelli predittivi nel tradizionale dominio statistico frequentista. Nel mettere in pratica più idee bayesiane e nell'insegnamento vedo alcune differenze chiave da abbracciare. In primo luogo, la modellazione predittiva bayesiana chiede all'analista di riflettere attentamente sulle distribuzioni …
Recentemente ho imparato che uno dei modi per trovare soluzioni migliori per i problemi di ML è attraverso la creazione di funzionalità. Si può fare per esempio sommando due funzionalità. Ad esempio, possediamo due caratteristiche: "attacco" e "difesa" di un qualche tipo di eroe. Creiamo quindi funzionalità aggiuntive chiamate "totale" …
Quali sono le principali differenze tra dati sparsi e dati mancanti? E come influenza l'apprendimento automatico? Più specificamente, quale effetto hanno i dati sparsi e quelli mancanti sugli algoritmi di classificazione e sul tipo di algoritmo di regressione (numeri predittivi). Sto parlando di una situazione in cui la percentuale di …
Recentemente ho scoperto che nella letteratura di econometria applicata, quando si affrontano i problemi di selezione delle caratteristiche, non è raro eseguire LASSO seguito da una regressione OLS usando le variabili selezionate. Mi chiedevo come possiamo qualificare la validità di tale procedura. Causerà problemi come le variabili omesse? Qualche prova …
Ho sentito l'idea che Jaynes afferma che i frequentatori operano con un "precedente implicito". Che cosa sono o sono questi priori impliciti? Questo significa che i modelli frequentisti sono tutti casi speciali di modelli bayesiani che aspettano di essere trovati?
Ho un modello di rete neurale profondo e ho bisogno di addestrarlo sul mio set di dati che comprende circa 100.000 esempi, i miei dati di validazione contengono circa 1000 esempi. Poiché ci vuole tempo per addestrare ogni esempio (circa 0,5 secondi per ogni esempio) e per evitare un eccesso …
Questa è probabilmente una domanda banale, ma la mia ricerca è stata infruttuosa finora, tra cui questo articolo di Wikipedia , e il "Compendio della Distribuzioni" del documento . Se XXX ha una distribuzione uniforme, significa che segue una distribuzione esponenziale?eXeXe^X Allo stesso modo, se segue una distribuzione esponenziale, significaYYYln(Y)ln(Y)ln(Y) …
Sto cercando di comprendere diverse architetture di reti neurali ricorrenti (RNN) da applicare ai dati delle serie temporali e mi sto confondendo un po 'con i diversi nomi che vengono frequentemente utilizzati nella descrizione di RNN. La struttura della memoria a breve termine (LSTM) e della Gated Recurrent Unit (GRU) …
Intuitivamente, la media è solo la media delle osservazioni. La varianza è quanto queste osservazioni variano dalla media. Vorrei sapere perché l'inverso della varianza è conosciuta come precisione. Quale intuizione possiamo fare da questo? E perché la matrice di precisione è utile quanto la matrice di covarianza nella distribuzione multivariata …
Nell'addestramento di reti neurali profonde e superficiali, perché sono comunemente usati i metodi a gradiente (ad es. Discesa a gradiente, Nesterov, Newton-Raphson) rispetto ad altre metaeuristiche? Per metaeuristica intendo metodi come ricottura simulata, ottimizzazione delle colonie di formiche, ecc., Che sono stati sviluppati per evitare di rimanere bloccati in un …
In questo articolo , l'autore collega l'analisi discriminante lineare (LDA) all'analisi dei componenti principali (PCA). Con le mie conoscenze limitate, non sono in grado di seguire come LDA possa essere in qualche modo simile alla PCA. Ho sempre pensato che la LDA fosse una forma di algoritmo di classificazione, simile …
Ho usato theano per sperimentare LSTM e mi chiedevo quali metodi di ottimizzazione (SGD, Adagrad, Adadelta, RMSprop, Adam, ecc.) Funzionino meglio per gli LSTM? Ci sono articoli di ricerca su questo argomento? Inoltre, la risposta dipende dal tipo di applicazione per cui sto usando LSTM? In tal caso, sto usando …
Sto leggendo il capitolo del compromesso di bias varianza di Gli elementi dell'apprendimento statistico e ho dei dubbi nella formula a pagina 29. Lascia che i dati derivino da un modello tale che Y=f(x)+ϵY=f(x)+ϵ Y = f(x)+\epsilon dove ϵϵ\epsilon è un numero casuale con valore atteso ε = e [ …
Nel contesto della regressione OLS, capisco che un diagramma residuo (rispetto ai valori adattati) è convenzionalmente considerato per verificare la varianza costante e valutare le specifiche del modello. Perché i residui vengono tracciati rispetto agli accoppiamenti e non ai valori ? In che modo le informazioni differiscono da queste due …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.