Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Dopo aver addestrato i vettori di parole con word2vec, è meglio normalizzarli prima di usarli per alcune applicazioni a valle? Vale a dire quali sono i pro / contro di normalizzarli?
TL, DR: sembra che, contrariamente ai consigli spesso ripetuti, convalida incrociata una tantum (LOO-CV) - cioèKKK -piega CV conKKK (il numero di pieghe) uguale aNNN (il numero di osservazioni di addestramento) - fornisce stime dell'errore di generalizzazione che sono le meno variabili per qualsiasiKKK , non la più variabile, assumendo …
Sono uno studente di economia con una certa esperienza in econometria e R. Vorrei sapere se c'è mai una situazione in cui dovremmo includere una variabile in una regressione nonostante non sia statisticamente significativa?
Questa è una domanda derivante da una situazione di vita reale, per la quale sono stato sinceramente perplesso sulla sua risposta. Mio figlio dovrebbe iniziare la scuola elementare a Londra. Dato che siamo italiani, ero curioso di sapere quanti bambini italiani stavano già frequentando la scuola. Ho chiesto questo al …
Voglio ottenere un intervallo di previsione attorno a una previsione da un modello lmer (). Ho trovato alcune discussioni su questo: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq ma sembrano non tenere conto dell'incertezza degli effetti casuali. Ecco un esempio specifico. Sto correndo pesce d'oro. Ho dei dati sulle ultime 100 gare. Voglio prevedere il …
Ho tre gruppi di dati, ognuno con una distribuzione binomiale (cioè ogni gruppo ha elementi che hanno successo o fallimento). Non ho una probabilità prevista di successo, ma invece posso solo fare affidamento sul tasso di successo di ciascuno come approssimazione per il vero tasso di successo. Ho trovato solo …
Derivare numericamente gli MLE di GLMM è difficile e, in pratica, lo so, non dovremmo usare l'ottimizzazione della forza bruta (ad esempio, usando optimin modo semplice). Ma per il mio scopo educativo, voglio provarlo per assicurarmi di capire correttamente il modello (vedi il codice qui sotto). Ho scoperto che ottengo …
Qualcuno può darmi qualche intuizione su quando scegliere SVM o LR? Voglio capire l'intuizione dietro qual è la differenza tra i criteri di ottimizzazione dell'apprendimento dell'iperpiano dei due, in cui i rispettivi obiettivi sono i seguenti: SVM: prova a massimizzare il margine tra i vettori di supporto più vicini LR: …
Sto lavorando a un set di dati con oltre 200.000 campioni e circa 50 funzioni per campione: 10 variabili continue e le altre ~ 40 sono variabili categoriali (paesi, lingue, campi scientifici ecc.). Per queste variabili categoriche, hai ad esempio 150 paesi diversi, 50 lingue, 50 campi scientifici ecc ... …
Ecco una citazione dal libro di "Pattern Recognition and Machine Learning" di Bishop, sezione 12.2.4 "Analisi dei fattori": Secondo la parte evidenziata, l'analisi fattoriale cattura la covarianza tra variabili nella matrice WWW . Mi chiedo come ? Ecco come lo capisco. Supponiamo che xxx sia la variabile ppp dimensionale osservata …
Sto organizzando il mio matrimonio. Vorrei stimare quante persone verranno al mio matrimonio. Ho creato un elenco di persone e la possibilità che parteciperanno in percentuale. Per esempio Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% Ho un elenco di circa 230 persone con percentuali. Come …
Voglio presumere che la temperatura della superficie del mare del Mar Baltico sia la stessa anno dopo anno, e quindi descriverlo con un modello funzione / lineare. L'idea che ho avuto è stata quella di inserire solo l'anno come un numero decimale (o num_months / 12) e capire quale dovrebbe …
Sto iniziando a voler far avanzare le mie competenze e sono sempre stato affascinato dall'apprendimento automatico. Tuttavia, sei anni fa, invece di perseguire questo, ho deciso di prendere una laurea completamente indipendente dall'informatica. Sto sviluppando software e applicazioni da circa 8-10 anni, quindi ho una buona padronanza ma non riesco …
Per la trama 1, posso testare l'associazione tra xey facendo una semplice correlazione. Per la trama 2, dove la relazione non è lineare ma esiste una chiara relazione tra xey, come posso testare l'associazione ed etichettarne la natura?
Il mio set di dati è piccolo (120 campioni), tuttavia il numero di funzionalità è grande varia da (1000-200.000). Anche se sto facendo la selezione delle funzionalità per scegliere un sottoinsieme di funzionalità, potrebbe comunque essere troppo adatto. La mia prima domanda è: in che modo SVM gestisce l'overfitting, se …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.