Statistiche e Big Data

3

Eseguire la normalizzazione delle funzioni prima o all'interno della convalida del modello?

Una buona pratica comune in Machine Learning è quella di caratterizzare la normalizzazione o la standardizzazione dei dati delle variabili del predittore, tutto qui, centrare i dati sottraendo la media e normalizzarli dividendoli per la varianza (o anche la deviazione standard). Per l'autocontenimento e per la mia comprensione facciamo questo …

52 machine-learning normalization standardization multidimensional-scaling

3

Perché ci preoccupiamo così tanto dei termini di errore normalmente distribuiti (e dell'omoschedasticità) nella regressione lineare quando non è necessario?

Suppongo di sentirmi frustrato ogni volta che sento qualcuno dire che la non normalità dei residui e / o l'eteroschedasticità violano le ipotesi OLS. Per stimare i parametri in un modello OLS nessuna di queste assunzioni è necessaria dal teorema di Gauss-Markov. Vedo come questo conta nei test di ipotesi …

52 regression assumptions normality-assumption robust teaching

4

Cumming (2008) afferma che la distribuzione dei valori p ottenuti nelle repliche dipende solo dal valore p originale. Come può essere vero?

Ho letto la replica dipppppp p p Geoff Cumming del 2008 e Intervalli di : i valori di predicono solo vagamente il futuro, ma gli intervalli di confidenza fanno molto meglio [~ 200 citazioni in Google Scholar] - e sono confuso da una delle sue affermazioni centrali. Questo è uno …

52 hypothesis-testing p-value power replicability

8

Moderno successore dell'analisi dei dati esplorativi di Tukey?

Ho letto il libro di Tukey "Exploratory Data Analysis". Scritto nel 1977, il libro sottolinea i metodi di carta / matita. Esiste un successore più "moderno" che tenga conto del fatto che ora possiamo tracciare istantaneamente grandi insiemi di dati?

52 data-visualization references descriptive-statistics eda

5

Reti neurali vs macchine vettoriali di supporto: il secondo è decisamente superiore?

Molti autori di articoli che leggo affermano che le SVM sono tecniche superiori per affrontare il loro problema di regressione / classificazione, consapevoli di non poter ottenere risultati simili attraverso le NN. Spesso il confronto afferma che SVM, anziché NN, Avere una forte teoria fondante Raggiungi l'ottimale globale grazie alla …

52 machine-learning svm neural-networks

2

Derivazione della soluzione di lazo in forma chiusa

Per il problema lazo tale che \ | \ beta \ | _1 \ leq t . Vedo spesso il risultato di soglia minima \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} | …

52 lasso

6

Le previsioni di un modello Foresta casuale hanno un intervallo di previsione?

Se eseguo un randomForestmodello, posso quindi fare previsioni basate sul modello. C'è un modo per ottenere un intervallo di previsione di ciascuna delle previsioni in modo tale che io sappia quanto "sicuro" sia il modello della sua risposta. Se ciò è possibile, è semplicemente basato sulla variabilità della variabile dipendente …

52 r confidence-interval random-forest

3

ANOVA ipotesi normalità / distribuzione normale dei residui

La pagina Wikipedia su ANOVA elenca tre ipotesi , vale a dire: Indipendenza dei casi - questa è un'ipotesi del modello che semplifica l'analisi statistica. Normalità: le distribuzioni dei residui sono normali. Uguaglianza (o "omogeneità") delle varianze, chiamata omoscedasticità ... Il punto di interesse qui è il secondo presupposto. Diverse …

52 anova residuals assumptions normality-assumption

2

Qual è la relazione tra un test chi quadrato e un test di proporzioni uguali?

Supponiamo che io abbia tre popolazioni con quattro caratteristiche reciprocamente esclusive. Prendo campioni casuali da ogni popolazione e costruisco una tabella a campi incrociati o di frequenza per le caratteristiche che sto misurando. Ho ragione nel dire che: Se volessi verificare se esiste una relazione tra le popolazioni e le …

52 chi-squared proportion contingency-tables z-test

8

Excel come workbench statistico

Sembra che a molte persone (incluso me) piaccia fare analisi esplorative dei dati in Excel. Alcune limitazioni, come il numero di righe consentite in un foglio di calcolo, sono un problema, ma nella maggior parte dei casi non è impossibile utilizzare Excel per giocare con i dati. Un articolo di …

52 software computational-statistics excel

14

Qual è la caratterizzazione più sorprendente della distribuzione gaussiana (normale)?

Una distribuzione gaussiana standardizzata su RR\mathbb{R} può essere definita dando esplicitamente la sua densità: 12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} o la sua funzione caratteristica. Come ricordato in questa domanda, è anche l'unica distribuzione per cui la media del campione e la varianza sono indipendenti. Quali altre sorprendenti caratterizzazioni alternative delle misure gaussiane che …

52 probability normal-distribution mathematical-statistics characteristic-function

10

Clustering con una matrice di distanza

Ho una matrice (simmetrica) Mche rappresenta la distanza tra ogni coppia di nodi. Per esempio, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 …

52 clustering

6

Classificazione binaria con classi fortemente sbilanciate

Ho un set di dati sotto forma di (funzionalità, output binario 0 o 1), ma 1 si verifica abbastanza raramente, quindi solo prevedendo sempre 0, ottengo una precisione tra il 70% e il 90% (a seconda dei dati particolari che guardo ). I metodi ML mi danno la stessa accuratezza, …

52 machine-learning classification binary-data unbalanced-classes

5

È necessario ridimensionare il valore target oltre alle funzionalità di ridimensionamento per l'analisi di regressione?

Sto costruendo modelli di regressione. Come fase di preelaborazione, ridimensiono i valori della mia funzione in modo che abbiano media 0 e deviazione standard 1. È necessario normalizzare anche i valori target?

52 regression machine-learning

4

In quali condizioni le bilance Likert devono essere utilizzate come dati ordinali o di intervallo?

Molti studi nelle scienze sociali usano le scale di Likert. Quando è appropriato usare i dati di Likert come ordinali e quando è appropriato usarli come dati di intervallo?

52 ordinal-data likert scales measurement