Statistiche e Big Data

1

Devo normalizzare i vettori di parole di word2vec prima di usarli?

Dopo aver addestrato i vettori di parole con word2vec, è meglio normalizzarli prima di usarli per alcune applicazioni a valle? Vale a dire quali sono i pro / contro di normalizzarli?

38 natural-language word2vec word-embeddings

3

Varianza delle stime di convalida incrociata di

TL, DR: sembra che, contrariamente ai consigli spesso ripetuti, convalida incrociata una tantum (LOO-CV) - cioèKKK -piega CV conKKK (il numero di pieghe) uguale aNNN (il numero di osservazioni di addestramento) - fornisce stime dell'errore di generalizzazione che sono le meno variabili per qualsiasiKKK , non la più variabile, assumendo …

37 regression machine-learning variance cross-validation predictive-models

8

Quando si dovrebbe includere una variabile in una regressione nonostante non sia statisticamente significativa?

Sono uno studente di economia con una certa esperienza in econometria e R. Vorrei sapere se c'è mai una situazione in cui dovremmo includere una variabile in una regressione nonostante non sia statisticamente significativa?

37 statistical-significance feature-selection

5

Il fatto che mio figlio italiano frequenterà una scuola elementare cambierà il numero previsto di bambini italiani presenti nella sua classe?

Questa è una domanda derivante da una situazione di vita reale, per la quale sono stato sinceramente perplesso sulla sua risposta. Mio figlio dovrebbe iniziare la scuola elementare a Londra. Dato che siamo italiani, ero curioso di sapere quanti bambini italiani stavano già frequentando la scuola. Ho chiesto questo al …

37 probability self-study average

2

Intervallo di predizione per il modello di effetti misti lmer () in R

Voglio ottenere un intervallo di previsione attorno a una previsione da un modello lmer (). Ho trovato alcune discussioni su questo: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq ma sembrano non tenere conto dell'incertezza degli effetti casuali. Ecco un esempio specifico. Sto correndo pesce d'oro. Ho dei dati sulle ultime 100 gare. Voglio prevedere il …

37 r mixed-model prediction prediction-interval lme4-nlme

6

Verifica se due distribuzioni binomiali sono statisticamente diverse l'una dall'altra

Ho tre gruppi di dati, ognuno con una distribuzione binomiale (cioè ogni gruppo ha elementi che hanno successo o fallimento). Non ho una probabilità prevista di successo, ma invece posso solo fare affidamento sul tasso di successo di ciascuno come approssimazione per il vero tasso di successo. Ho trovato solo …

37 statistical-significance binomial bernoulli-distribution

1

Perché glmer non raggiunge la massima probabilità (come verificato applicando un'ulteriore ottimizzazione generica)?

Derivare numericamente gli MLE di GLMM è difficile e, in pratica, lo so, non dovremmo usare l'ottimizzazione della forza bruta (ad esempio, usando optimin modo semplice). Ma per il mio scopo educativo, voglio provarlo per assicurarmi di capire correttamente il modello (vedi il codice qui sotto). Ho scoperto che ottengo …

37 r maximum-likelihood optimization lme4-nlme

3

Confronto tra SVM e regressione logistica

Qualcuno può darmi qualche intuizione su quando scegliere SVM o LR? Voglio capire l'intuizione dietro qual è la differenza tra i criteri di ottimizzazione dell'apprendimento dell'iperpiano dei due, in cui i rispettivi obiettivi sono i seguenti: SVM: prova a massimizzare il margine tra i vettori di supporto più vicini LR: …

37 regression logistic svm optimization

6

Migliora la classificazione con molte variabili categoriali

Sto lavorando a un set di dati con oltre 200.000 campioni e circa 50 funzioni per campione: 10 variabili continue e le altre ~ 40 sono variabili categoriali (paesi, lingue, campi scientifici ecc.). Per queste variabili categoriche, hai ad esempio 150 paesi diversi, 50 lingue, 50 campi scientifici ecc ... …

37 machine-learning classification categorical-data random-forest many-categories

2

In che modo l'analisi fattoriale spiega la covarianza mentre la PCA spiega la varianza?

Ecco una citazione dal libro di "Pattern Recognition and Machine Learning" di Bishop, sezione 12.2.4 "Analisi dei fattori": Secondo la parte evidenziata, l'analisi fattoriale cattura la covarianza tra variabili nella matrice WWW . Mi chiedo come ? Ecco come lo capisco. Supponiamo che xxx sia la variabile ppp dimensionale osservata …

37 pca factor-analysis geometry

8

Aiutami a calcolare quante persone verranno al mio matrimonio! Posso attribuire una percentuale a ciascuna persona e aggiungerla?

Sto organizzando il mio matrimonio. Vorrei stimare quante persone verranno al mio matrimonio. Ho creato un elenco di persone e la possibilità che parteciperanno in percentuale. Per esempio Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% Ho un elenco di circa 230 persone con percentuali. Come …

37 probability

2

Come trovare una buona misura per il modello semi-sinusoidale in R?

Voglio presumere che la temperatura della superficie del mare del Mar Baltico sia la stessa anno dopo anno, e quindi descriverlo con un modello funzione / lineare. L'idea che ho avuto è stata quella di inserire solo l'anno come un numero decimale (o num_months / 12) e capire quale dovrebbe …

37 r regression time-series lm

4

Un solido background in matematica è un requisito totale per ML?

Sto iniziando a voler far avanzare le mie competenze e sono sempre stato affascinato dall'apprendimento automatico. Tuttavia, sei anni fa, invece di perseguire questo, ho deciso di prendere una laurea completamente indipendente dall'informatica. Sto sviluppando software e applicazioni da circa 8-10 anni, quindi ho una buona padronanza ma non riesco …

37 machine-learning references mathematical-statistics

5

Come testare un'associazione non lineare?

Per la trama 1, posso testare l'associazione tra xey facendo una semplice correlazione. Per la trama 2, dove la relazione non è lineare ma esiste una chiara relazione tra xey, come posso testare l'associazione ed etichettarne la natura?

37 nonlinear-regression non-independent association-measure

3

SVM, Overfitting, maledizione della dimensionalità

Il mio set di dati è piccolo (120 campioni), tuttavia il numero di funzionalità è grande varia da (1000-200.000). Anche se sto facendo la selezione delle funzionalità per scegliere un sottoinsieme di funzionalità, potrebbe comunque essere troppo adatto. La mia prima domanda è: in che modo SVM gestisce l'overfitting, se …

37 classification svm