Scelta di un test statistico basato sul risultato di un altro (ad es. Normalità)


13

Quindi ho sentito dire che non è una buona idea scegliere un test statistico basato sul risultato di un altro. Questo mi sembra strano però. Ad esempio, le persone spesso scelgono di usare un test non parametrico quando alcuni altri test suggeriscono che i residui non sono normalmente distribuiti. Questo approccio sembra abbastanza ampiamente accettato ma non sembra concordare con la prima frase di questo paragrafo. Speravo solo di avere chiarimenti su questo problema.


3
Solo perché i residui non sono gaussiani non significa che hai bisogno di test non parametrici. Di solito è possibile discernere il tipo di modello da utilizzare (sì modello, non testare) dalla natura dei dati (conteggio, dati 0 1, continuo, relazione media-varianza, relazione lineare o non lineare, ecc.) E adattarsi di conseguenza ai modelli per soddisfare le caratteristiche dei dati avendo precedentemente deciso quale fosse l'ipotesi da testare. Una volta che ritieni che l'adattamento soddisfi i presupposti del modello montato, puoi valutare il valore p e altre statistiche,
Ripristina Monica - G. Simpson,

Risposte:


14

Dato che è la probabilità di osservare dati così estremi o più estremi se H 0 è vero, allora qual è l'interpretazione di p in cui la p è raggiunta attraverso un processo in cui è stata presa una decisione contingente nella selezione del test che prodotto quel p ? La risposta è inconoscibile (o almeno quasi inconoscibile). Prendendo la decisione di eseguire il test o meno sulla base di qualche altro processo probabilistico hai reso l'interpretazione del tuo risultato ancora più complicata. ppH0ppppi valori sono interpretabili al massimo quando la dimensione del campione e il piano di analisi sono stati completamente selezionati in anticipo. In altre situazioni, le interpretazioni diventano difficili, ecco perché non è "una buona idea". Detto questo, è una pratica ampiamente accettata ... dopo tutto, perché preoccuparsi di eseguire un test se si scopre che il test che si era pianificato di eseguire non era valido? La risposta a questa domanda è molto meno certa. Tutto ciò si riduce al semplice fatto che il test di significatività dell'ipotesi nulla (il caso d'uso primario di ) ha alcuni problemi che sono difficili da superare.p


Non sono riuscito a trovare articoli su questo fenomeno su Google, probabilmente perché ho usato termini di ricerca errati. Qualcuno sarebbe in grado di indicarmi la direzione di un articolo che discute il problema dei test basati sui test?
Rob Hall,

1
@RobHall: questa è un'istanza specifica di "L'importanza di ipotetici problemi per i dati immaginari". Cf. Wagenmakers, 2007, pag. 784. Wagenmakers tratta in modo specifico il problema delle trasformazioni nella seconda colonna affermando "per calcolare il valore di ap, devi sapere cosa avresti fatto se i dati fossero stati prodotti in modo diverso ... questo include ciò che avresti fatto se i dati era stato chiaramente distribuito in modo non normale ..., i valori di p possono essere calcolati solo dopo che il piano di campionamento è stato completamente conosciuto e specificato in anticipo ".
Russellpierce,

8

Ad esempio, le persone spesso scelgono di usare un test non parametrico quando alcuni altri test suggeriscono che i residui non sono normalmente distribuiti. Questo approccio sembra abbastanza ampiamente accettato ma non sembra concordare con la prima frase di questo paragrafo. Speravo solo di avere chiarimenti su questo problema.

Sì, molte persone fanno questo genere di cose e cambiano il loro secondo test in uno che può affrontare l'eteroschedasticità quando rifiutano l'uguaglianza di varianza, e così via.

Solo perché qualcosa è comune, non significa che sia necessariamente saggio.

In effetti, in alcuni luoghi (non nominerò le discipline più offensive) viene in effetti insegnata molta di questa verifica formale di ipotesi dipendente da altre prove formali di ipotesi.

Il problema nel farlo è che le tue procedure non hanno le loro proprietà nominali, a volte nemmeno vicine. (D'altra parte, supporre che cose del genere senza alcuna considerazione per una violazione potenzialmente estrema potrebbe essere anche peggio.)

Diversi articoli suggeriscono che per il caso eteroschedastico, stai meglio semplicemente comportandoti come se le varianze non siano uguali che provarlo e fare qualcosa al riguardo sul rifiuto.

Nel caso della normalità è meno chiaro. Almeno in grandi campioni, in molti casi la normalità non è poi così cruciale (ma ironicamente, con campioni di grandi dimensioni, è molto più probabile che il test di normalità venga respinto), purché la non normalità non sia troppo selvaggia. Un'eccezione è per gli intervalli di previsione, in cui hai davvero bisogno che la tua ipotesi distributiva sia vicina alla destra.

In parte, un problema è che i test di ipotesi rispondono a una domanda diversa da quella a cui è necessario rispondere. Non hai davvero bisogno di sapere "i dati sono veramente normali" (quasi sempre, non sarà esattamente normale a priori ). La domanda è piuttosto: "quanto la portata della non normalità avrà un impatto sulla mia inferenza".

Il secondo problema di solito è indipendente dalla dimensione del campione o in realtà migliora con l'aumento della dimensione del campione, ma i test di ipotesi saranno quasi sempre respinti a grandi dimensioni del campione.

Ci sono molte situazioni in cui esistono procedure solide o addirittura senza distribuzione che sono molto vicine alla piena efficienza anche al normale (e potenzialmente molto più efficienti in alcune partenze abbastanza modeste da esso) - in molti casi sembrerebbe sciocco non prendere il stesso approccio prudente.


Nice (+1) Potresti dare un riferimento agli articoli che menzioni sul caso eteroschedastico?
gui11aume,

2
Non desidero evidenziarne nessuno, ma li incontro continuamente online, quindi non è difficile capire quali tendono a enfatizzarlo (tendono ad essere gli stessi che storicamente danno troppa enfasi al test delle ipotesi). In effetti, le discipline delle persone che generano domande qui in cui i poster pensano di dover usare test formali sarebbero di solito le stesse. Non sono solo una o due discipline - ne vedo molte - ma alcune sembrano farlo particolarmente spesso. Per essere ragionevolmente comune, posso solo supporre che ci siano stati testi particolarmente noti in quelle aree che hanno insistito su di esso.
Glen_b -Restate Monica

1
@ gui11aume Ecco un riferimento ... non è uno di quelli che stavo cercando, ma sottolinea il punto in cui mi trovavo (che i test preliminari possono peggiorare le cose).
Glen_b -Restate Monica

2
Andrew Gelman ha recentemente pubblicato un post correlato sull'eterogeneità tra i gruppi (almeno sul perché un tale processo è problematico).
Andy W,

1
Una domanda relativa a queste discussioni di qualche tempo fa: stats.stackexchange.com/questions/305/…
russellpierce,

8

I problemi principali sono stati ben spiegati da altri, ma sono confusi con il sottostante o associati

  1. Over-riverenza per i valori di P, al massimo un tipo di prova nelle statistiche.

  2. Riluttanza nel vedere che i rapporti statistici sono inevitabilmente basati su una combinazione di scelte, alcune basate su prove concrete, altre basate su un mix di analisi precedenti, intuizione, congetture, giudizio, teoria, ecc.

Supponiamo che io e il mio amico cauto testi tutto, entrambi ho scelto una trasformazione del log per una risposta, ma salto a quella conclusione basata su un mix di ragionamento fisico e precedente esperienza con i dati, mentre Test Everything sceglie la scala del log in base al test e alla stima Box-Cox di un parametro.

Ora utilizziamo entrambi la stessa regressione multipla. I nostri valori P hanno interpretazioni diverse? Su una interpretazione, i valori P di Test Everything sono subordinati alle sue inferenze precedenti. Ho usato anche inferenze, ma per lo più erano informali, basate su una lunga serie di grafici, calcoli, ecc. Precedenti in progetti precedenti. Come deve essere segnalato?

Naturalmente, i risultati della regressione sono esattamente gli stessi per Test Everything e me stesso.

Lo stesso mix di consigli sensati e filosofia dubbia si applica alla scelta dei predittori e alla forma funzionale. Agli economisti, ad esempio, viene ampiamente insegnato a rispettare le precedenti discussioni teoriche e a diffidare dello snooping dei dati, con buone ragioni in ogni caso. Ma nei casi più deboli la teoria in questione è solo un suggerimento suggerito fatto precedentemente in letteratura, molto probabilmente dopo alcune analisi empiriche. Ma i riferimenti letterari santificano, mentre l'apprendimento dai dati in mano è sospetto, per molti autori.


Molto chiaro (+1).
gui11aume,

1
+1. Tuttavia, esiste una differenza a lungo termine nelle prestazioni delle analisi rispetto alle analisi di Test Everything. Ogni volta che questa analisi viene eseguita, utilizzerai la stessa strategia, basata su ciò che è stato scritto in letteratura (che non fluttua l'esperimento per esperimento). OTOH, i dati sono un campione casuale e l'output del test Box-Cox fluttuerà studio per studio.
gung - Ripristina Monica

È divertente, ma anche la mia esperienza cambia a lungo termine.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.