Statistiche e Big Data

1

L'analisi del potere a priori è essenzialmente inutile?

La scorsa settimana ho partecipato a un incontro della Society for Personality and Social Psychology in cui ho visto un discorso di Uri Simonsohn con la premessa che l'uso di un'analisi di potenza a priori per determinare la dimensione del campione era essenzialmente inutile perché i suoi risultati sono così …

23 hypothesis-testing power-analysis effect-size power methodology

1

Le statistiche di convalida incrociata (CV) e di convalida incrociata generalizzata (GCV)

Ho trovato definizioni forse contrastanti per la statistica di convalida incrociata (CV) e per la statistica di convalida incrociata generalizzata (GCV) associata a un modello lineare Y=Xβ+εY=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilon (con un vettore di errore omoscedastico normale εε\boldsymbol\varepsilon ). Da un lato, Golub, Heath & Wahba definiscono la stima …

23 cross-validation

5

Ora che ho respinto l'ipotesi nulla, quale sarà il prossimo?

Ho ripetutamente respinto o non sono riuscito a respingere l'ipotesi nulla. Nel caso in cui non si respinga il caso, si conclude che non ci sono prove sufficienti per il rifiuto e si "passa" (ovvero, raccogliere più dati, terminare l'esperimento ecc.) Ma quando "fai" respingi l'ipotesi nulla, fornendo alcune prove …

23 hypothesis-testing

7

Cosa c'è che non va nelle regolazioni di Bonferroni?

Ho letto il seguente documento: Perneger (1998) Cosa c'è che non va nelle regolazioni di Bonferroni . L'autore ha riassunto affermando che l'aggiustamento di Bonferroni ha, nella migliore delle ipotesi, applicazioni limitate nella ricerca biomedica e non dovrebbe essere usato quando si valutano prove su ipotesi specifiche: Punti di riepilogo: …

23 hypothesis-testing multiple-comparisons bonferroni

2

Conseguenze della modellizzazione di un processo non stazionario mediante ARMA?

Capisco che dovremmo usare ARIMA per modellare una serie temporale non stazionaria. Inoltre, tutto ciò che ho letto dice che ARMA dovrebbe essere usato solo per serie storiche stazionarie. Quello che sto cercando di capire è, cosa succede in pratica quando si classificano erroneamente un modello e si presume d …

23 r time-series arima stationarity

2

CHAID vs CRT (o CART)

Sto eseguendo una classificazione dell'albero decisionale utilizzando SPSS su un set di dati con circa 20 predittori (categorico con poche categorie). CHAID (Rilevazione automatica dell'interazione Chi-quadrato) e CRT / CART (alberi di classificazione e regressione) mi danno alberi diversi. Qualcuno può spiegare i meriti relativi di CHAID vs CRT? Quali …

23 spss cart

2

Stabilità degli argomenti nei modelli di argomenti

Sto lavorando a un progetto in cui desidero estrarre alcune informazioni sul contenuto di una serie di saggi aperti. In questo particolare progetto, 148 persone hanno scritto saggi su un'ipotetica organizzazione studentesca nell'ambito di un esperimento più ampio. Anche se nel mio campo (psicologia sociale), il modo tipico di analizzare …

23 machine-learning model-selection small-sample topic-models dirichlet-process

2

Calcolo delle dimensioni del campione per modelli misti

Mi chiedo se ci sono metodi per calcolare la dimensione del campione in modelli misti? Sto usando lmerin R per adattarsi ai modelli (ho pendenze e intercettazioni casuali).

23 r mixed-model lme4-nlme power-analysis

4

Cosa c'è di sbagliato in (qualche) pseudo-randomizzazione

Mi sono imbattuto in uno studio in cui i pazienti, che avevano tutti i 50 anni, erano pseudo-randomizzati entro l'anno di nascita. Se l'anno di nascita era un numero pari, le cure usuali, se un numero dispari, l'intervento. È più facile da implementare, è più difficile da sovvertire (è facile …

23 experiment-design clinical-trials random-allocation

2

Come gestire la differenza tra la distribuzione del set di test e il set di allenamento?

Penso che un'ipotesi di base dell'apprendimento automatico o della stima dei parametri sia che i dati invisibili provengano dalla stessa distribuzione dell'insieme di formazione. Tuttavia, in alcuni casi pratici, la distribuzione del set di test sarà quasi diversa dal set di training. Supponiamo che si tratti di un problema di …

23 machine-learning classification skewness unbalanced-classes multi-class

3

Studente t come miscela di gaussiano

Utilizzando la distribuzione t dello studente con k>0k>0k > 0 gradi di libertà, il parametro di posizione e il parametro di scala hanno densitàslllsss Γ(k+12)Γ(k2kπs2−−−−√){1+k−1(x−ls)}−(k+1)/2,Γ(k+12)Γ(k2kπs2){1+k−1(x−ls)}−(k+1)/2,\frac{\Gamma \left(\frac{k+1}{2}\right)}{\Gamma\left(\frac{k}{2}\sqrt{k \pi s^2}\right)} \left\{ 1 + k^{-1}\left( \frac{x-l}{s}\right)\right\}^{-(k+1)/2}, come dimostrare che la distribuzione Student può essere scritta come una miscela di distribuzioni gaussiane lasciando , …

23 distributions mixture

2

Media battuta bayesiana prima

Volevo porre una domanda ispirata a un'eccellente risposta all'interrogazione sull'intuizione per la distribuzione beta. Volevo capire meglio la derivazione per la distribuzione precedente per la media battuta. Sembra che David stia ritirando i parametri dalla media e dall'intervallo. Partendo dal presupposto che la media sia e la deviazione standard sia …

23 bayesian prior

4

Esiste un'implementazione di Random Forest che funziona bene con dati molto sparsi?

Esiste un'implementazione della foresta casuale R che funziona bene con dati molto sparsi? Ho migliaia o milioni di variabili di input booleane, ma solo centinaia o giù di lì saranno VERE per ogni dato esempio. Sono relativamente nuovo su R e ho notato che esiste un pacchetto "Matrix" per gestire …

23 r random-forest sparse

3

K successi nelle prove di Bernoulli o esperimento cinematografico di George Lucas

Sto leggendo "The Drunkard's Walk" ora e non riesco a capirne una storia. Eccolo: Immagina che George Lucas realizzi un nuovo film di Star Wars e in un mercato di test decida di eseguire un esperimento folle. Rilascia lo stesso film con due titoli: "Star Wars: episodio A" e "Star …

23 probability bernoulli-distribution

1

Errore quadratico medio vs. errore di previsione quadratico medio

Qual è la differenza semantica tra Mean Squared Error (MSE) e Mean Squared Prediction Error (MSPE)?

23 regression estimation interpretation error prediction