Perché il test delle ipotesi del frequentista diventa distorto verso il rifiuto dell'ipotesi nulla con campioni sufficientemente grandi?


46

Stavo leggendo questo articolo sul fattore Bayes per un problema completamente estraneo quando mi sono imbattuto in questo passaggio

Il test di ipotesi con i fattori di Bayes è più solido del test di ipotesi del frequentista, poiché la forma bayesiana evita la distorsione del modello, valuta l'evidenza a favore dell'ipotesi nulla, include l'incertezza del modello e consente di confrontare i modelli non nidificati (anche se ovviamente il modello deve hanno la stessa variabile dipendente). Inoltre, i test di significatività del frequentista diventano distorti a favore del rifiuto dell'ipotesi nulla con dimensioni del campione sufficientemente grandi. [enfasi aggiunta]

Ho visto questa affermazione in precedenza nel documento di Karl Friston del 2012 su NeuroImage , dove lo chiama l' errore dell'inferenza classica .

Ho avuto un po 'di problemi a trovare un resoconto veramente pedagogico del perché questo dovrebbe essere vero. In particolare, mi chiedo:

  1. perché questo accade
  2. come proteggersi
  3. in caso contrario, come rilevarlo

7
È in qualche modo discutibile perché non è vero quando il nulla è letteralmente, esattamente vero, ma dato che è così raramente il caso (a causa di ogni sorta di complessità come correlazioni spurie), è probabilmente vero per la maggior parte delle applicazioni pratiche. Ipoteticamente parlando, si potrebbe rilevare la più debole delle correlazioni spurie (ad esempio, r = .001) a causa di una catena di mediatori lunga centinaia di variabili nonostante un numero simile di moderatori incontrollati se il campione fosse abbastanza colossale. Probabilmente, tuttavia, quella relazione esiste davvero, quindi se questo sia davvero "bias" è ancora un po 'discutibile IMO ...
Nick Stauner

@NickStauner, Ah, in realtà ha molto senso! Grazie per la spiegazione intuitiva!
blz,

3
Tal Yarkoni ha scritto una critica molto illuminante sull'articolo di Friston: talyarkoni.org/blog/2012/04/25/…
jona,

@jona, sembra che stia incontrando tutta la folla di cogsci qui =) Grazie per il riferimento, sembra davvero una buona lettura!
blz,

8
Date le ipotesi valide, questa affermazione sembra essere rigorosamente falsa così com'è, ma sta diventando un vero problema (che con campioni sufficientemente grandi, un NHST diventerà quasi certo di rifiutare un falso null, non importa quanto piccolo sia l'effetto) . Quando le persone trovano questo problema, di solito indica che il test delle ipotesi non è quello di cui hanno bisogno. Lo stesso problema di base (sebbene inquadrato in termini di IC piuttosto che di test di ipotesi) è discusso in questa risposta
Glen_b

Risposte:


44

Risposta alla domanda 1: ciò si verifica perché il valore diventa arbitrariamente piccolo all'aumentare della dimensione del campione nei test del frequentista per la differenza (ovvero test con un'ipotesi nulla di nessuna differenza / qualche forma di uguaglianza) quando una differenza reale esattamente uguale a zero , al contrario di arbitrariamente vicino allo zero, non è realistico (vedi il commento di Nick Stauner all'OP). Il valore diventa arbitrariamente piccolo perché l'errore delle statistiche del test del frequentista generalmente diminuisce con la dimensione del campione, con il risultato che tutte le differenze sono significative a un livello arbitrario con una dimensione del campione abbastanza grande . Cosma Shalizi ha scritto erudamente su questo .ppp

Risposta alla domanda 2: All'interno di un quadro di verifica delle ipotesi del frequentista, si può evitare ciò non facendo deduzione solo sul rilevamento della differenza . Ad esempio, si possono combinare inferenze sulla differenza e l' equivalenza in modo da non favorire (o confondere!) L'onere della prova sull'evidenza dell'effetto rispetto all'evidenza dell'assenza dell'effetto . La prova dell'assenza di un effetto viene, ad esempio:

  1. due test unilaterali per l'equivalenza (TOST),
  2. test uniformemente più potenti per l'equivalenza , e
  3. la fiducia approccio intervallo di equivalenza (cioè se il % CI della statistica test è all'interno della priori gamma -defined di equivalenza / rilevanza, allora si conclude equivalenza a livello di significatività).α12αα

Ciò che tutti questi approcci condividono è una decisione a priori su quale dimensione dell'effetto costituisca una differenza rilevante e un'ipotesi nulla inquadrata in termini di una differenza almeno grande quanto quella considerata rilevante.

Inferenza combinata dai test di differenza e dai test di equivalenza protegge quindi dalla distorsione che descrivi quando le dimensioni del campione sono grandi in questo modo (tabella due per due che mostra le quattro possibilità risultanti dai test combinati di differenza: ipotesi nulla positivista, H —e equivalenza — ipotesi nulla di negativista, H ):- 00+0

Quattro possibilità da test combinati per differenza e test per equivalenza

Si noti il quadrante in alto a sinistra: un test sopraffatto è quella in cui si si rifiuta l'ipotesi nulla di nessuna differenza, ma si rifiuta anche l'ipotesi nulla di differenza rilevante, quindi sì c'è una differenza, ma si ha a priori ha deciso che non si preoccupano perché è troppo piccolo.

Risposta alla domanda 3: vedere la risposta a 2.


2
Risposte come questa sono il motivo per cui continuo a venire qui. Grazie!
blz,

2
Questi test combinati sono chiamati "test di pertinenza" e tuttavia solo poco studiati. Tuttavia, una decisione di pertinenza (conservativa) può essere trovata se si rifiuta l'ipotesi nulla se il solito intervallo di confidenza è disgiunto dalla regione di pertinenza. Quindi, @Alexis, in caso di test di pertinenza, prendi , in caso di test di equivalenza, prendi . α 2 α1αα2α
Horst Grünbusch,

Per integrare la risposta alla domanda 1, un post di blog pertinente di Cosma

2
Sono un po 'sorpreso che tutti trovino questa domanda così utile anche se la "Risposta alla domanda 1" in realtà ha una risposta molto più appropriata da parte di Michael Lew - Alexis, poiché sembra quasi chiaro che questo rimarrà attivo, forse potresti correggere la tua risposta dire che, matematicamente parlando, i test di ipotesi NON sono in realtà BIASED per grandi dimensioni del campione, secondo la normale definizione di bias (al contrario, in realtà, piccole dimensioni del campione possono essere un problema)!
Florian Hartig,

3
Capisco il problema e sono d'accordo con la valutazione: non è informativo o fuorviante fare un test di ipotesi quando! H0 è infinitamente probabile in primo luogo e hai un potere vicino a 1. Ma ciò non rende il test distorto, a meno che la tua definizione di bias non sia che un metodo dia il giusto risultato a una domanda che ritieni non debba essere posta.
Florian Hartig,

21

I test per frequentisti con campioni di grandi dimensioni NON mostrano distorsioni verso il rifiuto dell'ipotesi nulla se l'ipotesi nulla è vera. Se le ipotesi del test sono valide e l'ipotesi nulla è vera, allora non vi è più rischio di un campione di grandi dimensioni che porta al rifiuto dell'ipotesi nulla rispetto a un campione piccolo. Se il null non è vero, allora saremmo sicuramente lieti di rifiutarlo, quindi il fatto che un campione di grandi dimensioni respingerà più frequentemente un falso null di un campione piccolo non è "bias" ma comportamento appropriato.

La paura di "esperimenti sopraffatti" si basa sul presupposto che non sia una buona cosa rifiutare l'ipotesi nulla quando è quasi vera. Ma se è solo quasi vero, in realtà è falso! Rifiuta via, ma non dimenticare di notare (e segnalare chiaramente) la dimensione dell'effetto osservato. Può essere banalmente piccolo e quindi non degno di seria considerazione, ma una decisione su tale questione deve essere presa dopo aver considerato le informazioni al di fuori del test di ipotesi.


2
La convinzione che il test del frequentista non sia propenso a respingere l'ipotesi nulla al crescere della dimensione del campione si basa sull'ipotesi che sia significativamente e sostanzialmente diverso da . 0 + davvero minuscolo00+really frickin' tiny
Alexis,

6
@Alexis Leggi di nuovo il secondo paragrafo. Sono assolutamente d'accordo sul fatto che davvero la minuscola minzione non è sostanzialmente importante, ma non è nemmeno logicamente zero.
Michael Lew,

6
Ci scusiamo per un commento inutile per il pubblico, ma @MichaelLew, mi è piaciuta molto la tua risposta. La prima frase è abbastanza importante e non credo che sia stata chiarita in modo efficiente nella risposta di Alexis (che è anche carina, ovviamente).
Richard Hardy,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.