Statistiche e Big Data

16

Il test della normalità è "sostanzialmente inutile"?

Un ex collega una volta mi ha discusso come segue: Solitamente applichiamo test di normalità ai risultati di processi che, sotto il nulla, generano variabili casuali che sono solo asintoticamente o quasi normali (con la parte "asintoticamente" dipendente da una quantità che non possiamo aumentare); Nell'era della memoria economica, dei …

298 hypothesis-testing normality-assumption philosophical

7

Quando si esegue la regressione multipla, quando è necessario centrare le variabili del predittore e quando è necessario standardizzarle?

In alcune pubblicazioni, ho letto che una regressione con più variabili esplicative, se in unità diverse, doveva essere standardizzata. (La standardizzazione consiste nel sottrarre la media e dividere per la deviazione standard.) In quali altri casi devo standardizzare i miei dati? Ci sono casi in cui dovrei solo centrare i …

281 multiple-regression standardization centering

9

Qual è la differenza tra modelli a effetti fissi, a caso e a effetti misti?

In termini semplici, come spiegheresti (forse con semplici esempi) la differenza tra modelli a effetti fissi, a caso e a effetti misti?

269 mixed-model random-effects-model definition fixed-effects-model

6

Come normalizzare i dati nell'intervallo 0-1?

Mi sono perso nella normalizzazione, qualcuno potrebbe guidarmi per favore. Ho un valore minimo e massimo, diciamo rispettivamente -23.89 e 7.54990767. Se ottengo un valore di 5,6878 come posso ridimensionare questo valore su una scala da 0 a 1.

267 normalization

11

Come capire i gradi di libertà?

Da Wikipedia , ci sono tre interpretazioni dei gradi di libertà di una statistica: In statistica, il numero di gradi di libertà è il numero di valori nel calcolo finale di una statistica che sono liberi di variare . Le stime dei parametri statistici possono essere basate su diverse quantità …

257 interpretation degrees-of-freedom intuition

30

Citazioni statistiche famose

Qual è la tua citazione statistica preferita? Questo è wiki della comunità, quindi per favore un preventivo per risposta.

248 references history

16

Qual è il significato dei valori p e t nei test statistici?

Dopo aver seguito un corso di statistica e poi aver cercato di aiutare gli altri studenti, ho notato che una materia che ispira molto il battito della testa è l'interpretazione dei risultati dei test statistici di ipotesi. Sembra che gli studenti imparino facilmente come eseguire i calcoli richiesti da un …

246 hypothesis-testing p-value interpretation intuition canonical-question

7

Insaccamento, potenziamento e impilamento nell'apprendimento automatico

Quali sono le somiglianze e le differenze tra questi 3 metodi: insacco, Promuovere, Impilabile? Qual è il migliore? E perché? Puoi darmi un esempio per ciascuno?

245 machine-learning boosting ensemble bagging model-averaging

8

Perché la distanza euclidea non è una buona metrica in dimensioni elevate?

Ho letto che "la distanza euclidea non è una buona distanza in dimensioni elevate". Immagino che questa affermazione abbia qualcosa a che fare con la maledizione della dimensionalità, ma cosa esattamente? Inoltre, che cosa sono le "alte dimensioni"? Ho applicato il clustering gerarchico usando la distanza euclidea con 100 funzioni. …

241 machine-learning clustering distance-functions metric high-dimensional

11

Come spiegheresti Markov Chain Monte Carlo (MCMC) a un laico?

Forse il concetto, perché viene utilizzato e un esempio.

240 bayesian mcmc intuition teaching

2

Interpretazione dell'output di R's lm ()

Le pagine di aiuto in R presumono che io sappia cosa significano quei numeri, ma non lo so. Sto cercando di capire davvero in modo intuitivo ogni numero qui. Pubblicherò solo l'output e commenterò ciò che ho scoperto. Potrebbero esserci (saranno) errori, poiché scriverò solo ciò che presumo. Principalmente vorrei …

234 r regression interpretation

6

È

Stavo sfogliando alcune note di lezione di Cosma Shalizi (in particolare, la sezione 2.1.1 della seconda lezione ), e mi è stato ricordato che puoi ottenere molto bassi R2R2R^2anche quando hai un modello completamente lineare. Per parafrasare l'esempio di Shalizi: supponiamo di avere un modello Y=aX+ϵY=aX+ϵY = aX + \epsilon …

234 regression r-squared

9

Qual è la differenza tra un intervallo di confidenza e un intervallo credibile?

Lo scambio di Joris e Srikant qui mi ha fatto riflettere (di nuovo) se le mie spiegazioni interne per la differenza tra intervalli di confidenza e intervalli credibili fossero quelle giuste. Come spiegheresti la differenza?

229 bayesian confidence-interval frequentist credible-interval fiducial

5

Cosa significa AUC e cos'è?

Ho cercato in alto e in basso e non sono stato in grado di scoprire che cosa significhi o significhi l'AUC, come in relazione alla previsione.

228 classification prediction roc auc abbreviation

12

Perché un intervallo di confidenza al 95% (CI) non implica una probabilità del 95% di contenere la media?

Sembra che, attraverso varie domande correlate qui, vi sia consenso sul fatto che la parte "95%" di ciò che chiamiamo un "intervallo di confidenza al 95%" si riferisce al fatto che se dovessimo replicare esattamente le nostre procedure di campionamento e calcolo dell'IC più volte , Il 95% degli EC …

228 probability confidence-interval sampling mean population