Statistiche e Big Data

6

Foresta casuale - Come gestire l'overfitting

Ho una preparazione informatica ma sto cercando di insegnarmi la scienza dei dati risolvendo problemi su Internet. Ho lavorato su questo problema per le ultime due settimane (circa 900 righe e 10 funzioni). Inizialmente stavo usando la regressione logistica, ma ora sono passato a foreste casuali. Quando eseguo il mio …

41 random-forest overfitting

4

Regressione logistica in R (Odds Ratio)

Sto cercando di intraprendere un'analisi della regressione logistica in R. Ho frequentato corsi su questo materiale usando STATA. Sto trovando molto difficile replicare la funzionalità in R. È maturo in questa zona? Sembra che ci sia poca documentazione o guida disponibile. La produzione di output odds ratio sembra richiedere l'installazione …

41 r logistic odds-ratio

3

Indipendenza statistica significa mancanza di causalità?

Due variabili casuali A e B sono statisticamente indipendenti. Ciò significa che nel DAG del processo: e ovviamente . Ma questo significa anche che non c'è porta d'ingresso dalla B alla A?P ( A | B ) = P ( A )( A ⊥⊥ B)(A⊥⊥B)(A {\perp\!\!\!\perp} B)P( A | B …

40 independence causality bayesian-network dag

4

Perché la funzione sigmoid invece di qualsiasi altra cosa?

Perché la funzione sigmoide standard di fatto, 11+e−x11+e−x\frac{1}{1+e^{-x}} , è così popolare nelle reti neuronali (non profonde) e nella regressione logistica? Perché non usiamo molte delle altre funzioni derivabili, con tempi di calcolo più rapidi o decadimento più lento (quindi il gradiente di scomparsa si verifica meno). Alcuni esempi sono …

40 logistic neural-networks least-squares

5

Avvertenza in R - L'approssimazione Chi-quadrata potrebbe essere errata

Ho dei dati che mostrano i risultati degli esami di ammissione dei vigili del fuoco. Sto testando l'ipotesi che i risultati degli esami e l'etnia non si escludano a vicenda. Per provare questo, ho eseguito un test chi-quadrato di Pearson in R. I risultati mostrano ciò che mi aspettavo, ma …

40 r categorical-data chi-squared small-sample error-message

6

Quando utilizzare le simulazioni?

Quindi questa è una domanda molto semplice e stupida. Tuttavia, quando ero a scuola, ho prestato pochissima attenzione all'intero concetto di simulazioni in classe e questo mi ha lasciato un po 'terrorizzato da quel processo. Puoi spiegare il processo di simulazione in termini di laici? (potrebbe essere per la generazione …

40 simulation

3

Come presentare i risultati di un Lazo usando glmnet?

Vorrei trovare predittori per una variabile dipendente continua tra un set di 30 variabili indipendenti. Sto usando la regressione di Lasso come implementato nel pacchetto glmnet in R. Ecco un codice fittizio: # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # …

40 r multiple-regression lasso glmnet communication

4

Richiamo e precisione nella classificazione

Ho letto alcune definizioni di richiamo e precisione, anche se è sempre nel contesto del recupero delle informazioni. Mi chiedevo se qualcuno potesse spiegarlo un po 'di più in un contesto di classificazione e forse illustrare alcuni esempi. Ad esempio, ho un classificatore binario che mi dà una precisione del …

40 machine-learning metric

2

Come leggere le trame della distanza di Cook?

Qualcuno sa come capire se i punti 7, 16 e 29 sono punti influenti o no? Ho letto da qualche parte che, poiché la distanza di Cook è inferiore a 1, non lo sono. Ho ragione?

40 r regression residuals diagnostic cooks-distance

3

Quali sono le differenze tra i modelli di Markov nascosti e le reti neurali?

Mi sto solo bagnando i piedi nelle statistiche, quindi mi dispiace se questa domanda non ha senso. Ho usato i modelli Markov per prevedere stati nascosti (casinò ingiusti, lancio di dadi, ecc.) E reti neurali per studiare i clic degli utenti su un motore di ricerca. Entrambi avevano stati nascosti …

40 data-mining algorithms neural-networks markov-process

1

Come determinare componenti principali significativi usando il bootstrap o l'approccio Monte Carlo?

Sono interessato a determinare il numero di modelli significativi che emergono da un'analisi della componente principale (PCA) o dell'analisi della funzione ortogonale empirica (EOF). Sono particolarmente interessato ad applicare questo metodo ai dati climatici. Il campo dati è una matrice MxN con M come dimensione temporale (ad esempio giorni) e …

40 r pca bootstrap monte-carlo

15

Quali migliori pratiche dovrei seguire quando preparo le trame?

Di solito faccio le mie scelte idiosincratiche quando preparo le trame. Tuttavia, mi chiedo se ci siano delle migliori pratiche per la generazione di grafici. Nota: il commento di Rob a una risposta a questa domanda è molto rilevante qui.

40 data-visualization references

3

Considera la somma di distribuzioni uniformi su o . Perché la cuspide nel PDF di scompare per ?

Mi sono chiesto questo per un po '; Lo trovo un po 'strano quanto bruscamente succede. Fondamentalmente, perché abbiamo bisogno di solo tre uniformi per per appianare come fa? E perché il livellamento avviene in modo relativamente rapido?ZnZnZ_n Z2Z2Z_2 : Z3Z3Z_3 : (immagini rubate senza vergogna dal blog di John …

40 normal-distribution mathematical-statistics uniform central-limit-theorem

13

Il problema di Monty Hall: dove fallisce la nostra intuizione?

Da Wikipedia: Supponiamo che tu sia in uno spettacolo di gioco e ti venga data la scelta di tre porte: dietro una porta c'è una macchina; dietro gli altri, le capre. Scegli una porta, dì n. 1, e l'host, che sa cosa c'è dietro le porte, apre un'altra porta, dì …

40 probability intuition puzzle

3

Cosa ci dice la deviazione standard nella distribuzione non normale

In una distribuzione normale, la regola 68-95-99.7 conferisce molto significato alla deviazione standard, ma cosa significherebbe la deviazione standard in una distribuzione non normale (multimodale o obliqua)? Tutti i valori dei dati rientrerebbero comunque entro 3 deviazioni standard? Abbiamo regole come quella 68-95-99.7 per le distribuzioni non normali?

40 normal-distribution standard-deviation skewness