Statistiche e Big Data

1

Ci sono lezioni statistiche dall'episodio del "Codice biblico"

Sebbene questa domanda sia in qualche modo soggettiva, spero che si qualifichi come una buona domanda soggettiva secondo le linee guida sulle domande frequenti . Si basa su una domanda che Olle Häggström mi ha posto un anno fa e sebbene io abbia qualche idea a riguardo, non ho una …

31 hypothesis-testing data-mining

2

Come tracciare il confine decisionale di un classificatore k vicino più vicino da Elements of Statistical Learning?

Voglio generare la trama descritta nel libro ElemStatLearn "Gli elementi dell'apprendimento statistico: data mining, inferenza e previsione. Seconda edizione" di Trevor Hastie, Robert Tibshirani e Jerome Friedman. La trama è: Mi chiedo come posso produrre questo grafico esatto R, in particolare notare la griglia grafica e il calcolo per mostrare …

31 r data-visualization k-nearest-neighbour

3

Relazione tra intervallo di confidenza e verifica dell'ipotesi statistica per il test t

È noto che gli intervalli di confidenza e la verifica delle ipotesi statistiche sono fortemente correlati. Le mie domande si concentrano sul confronto delle medie per due gruppi basato su una variabile numerica. Supponiamo che tale ipotesi sia verificata usando t-test. Dall'altro lato, si possono calcolare intervalli di confidenza per …

31 hypothesis-testing confidence-interval

5

Qual è la differenza tra "valore medio" e "media"?

Wikipedia spiega: Per un set di dati, la media è la somma dei valori divisa per il numero di valori. Questa definizione corrisponde tuttavia a ciò che chiamo "medio" (almeno è quello che ricordo di aver appreso). Eppure Wikipedia cita ancora una volta: Esistono altre misure statistiche che utilizzano campioni …

31 mean interpretation average

3

Visualizzando un milione, edizione PCA

È possibile visualizzare l'output dell'analisi dei componenti principali in modo da fornire maggiori informazioni oltre alle semplici tabelle di riepilogo? È possibile farlo quando il numero di osservazioni è grande, diciamo ~ 1e4? Ed è possibile farlo in R [benvenuto in altri ambienti]?

31 r data-visualization pca biplot

4

Analisi con dati complessi, qualcosa di diverso?

Supponiamo ad esempio che stai realizzando un modello lineare, ma i dati sono complessi.yyy y= x β+ ϵy=xβ+ϵ y = x \beta + \epsilon Il mio set di dati è complesso, come in tutti i numeri in yyy sono della forma ( a + b i )(a+bi)(a + bi) . …

31 regression anova data-transformation complex-numbers

6

Qualcuno può offrire un esempio di una distribuzione unimodale che ha un'inclinazione pari a zero ma che non è simmetrica?

Nel maggio 2010 l'utente Mcorazao di Wikipedia ha aggiunto una frase all'articolo di asimmetria secondo cui "Un valore zero indica che i valori sono distribuiti in modo relativamente uniforme su entrambi i lati della media, in genere ma non necessariamente implicando una distribuzione simmetrica". Tuttavia, la pagina wiki non contiene …

31 distributions expected-value skewness

6

Come aumentare la riproducibilità a lungo termine della ricerca (in particolare utilizzando R e Sweave)

Contesto: in risposta a una domanda precedente sulla ricerca riproducibile, ha scritto Jake Un problema che abbiamo scoperto durante la creazione del nostro archivio JASA è stato il cambiamento delle versioni e dei valori predefiniti dei pacchetti CRAN. Quindi, in quell'archivio, includiamo anche le versioni dei pacchetti che abbiamo usato. …

31 r reproducible-research project-management

3

Adatte viste trincerate di valori p

A volte nei rapporti includo un disclaimer sui valori di p e altre statistiche inferenziali che ho fornito. Dico che dal momento che il campione non era casuale, tali statistiche non si sarebbero applicate rigorosamente. La mia formulazione specifica è di solito riportata in una nota a piè di pagina: …

31 inference p-value

1

Per quali distribuzioni differiscono le parametrizzazioni in BUGS e R?

Ho trovato alcune distribuzioni per le quali BUGS e R hanno parametrizzazioni diverse: normale, log-normale e Weibull. Per ognuno di questi, ho capito che il secondo parametro utilizzato da R deve essere trasformato inverso (1 / parametro) prima di essere utilizzato in BUGS (o JAGS nel mio caso). Qualcuno sa …

31 r distributions bugs jags parameterization

3

Coefficienti di regressione che capovolgono il segno dopo aver incluso altri predittori

Immaginare Si esegue una regressione lineare con quattro predittori numerici (IV1, ..., IV4) Quando è incluso solo IV1 come predittore, la beta standardizzata è +.20 Quando si include anche IV2 a IV4, il segno del coefficiente di regressione standardizzato di IV1 si ribalta -.25(ovvero diventa negativo). Ciò fa sorgere alcune …

31 regression predictor

2

Quando viene risolta la regressione logistica in forma chiusa?

Prendi e y ∈ { 0 , 1 } e supponiamo di modellare il compito di prevedere y dato x usando la regressione logistica. Quando è possibile scrivere i coefficienti di regressione logistica in forma chiusa?x∈{0,1}dx∈{0,1}dx \in \{0,1\}^dy∈{0,1}y∈{0,1}y \in \{0,1\} Un esempio è quando usiamo un modello saturo. Cioè, definire …

31 logistic generalized-linear-model

8

Strumenti open source per la visualizzazione di dati multidimensionali?

Oltre a gnuplot e ggobi , quali strumenti open source vengono utilizzati dalle persone per visualizzare dati multidimensionali? Gnuplot è più o meno un pacchetto base per la stampa. Ggobi può fare una serie di cose ingegnose, come: animare i dati lungo una dimensione o tra raccolte discrete animare combinazioni …

31 data-visualization open-source

1

Confronti multipli su un modello di effetti misti

Sto cercando di analizzare alcuni dati usando un modello a effetti misti. I dati che ho raccolto rappresentano il peso di alcuni giovani animali di diverso genotipo nel tempo. Sto usando l'approccio proposto qui: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ In particolare sto usando la soluzione n. 2 Quindi ho qualcosa del genere require(nlme) model …

31 r anova mixed-model multiple-comparisons repeated-measures

8

Che cos'è una deviazione standard?

Che cos'è una deviazione standard, come viene calcolata e a che cosa serve nelle statistiche?

31 standard-deviation