Ora che ho respinto l'ipotesi nulla, quale sarà il prossimo?


23

Ho ripetutamente respinto o non sono riuscito a respingere l'ipotesi nulla. Nel caso in cui non si respinga il caso, si conclude che non ci sono prove sufficienti per il rifiuto e si "passa" (ovvero, raccogliere più dati, terminare l'esperimento ecc.)

Ma quando "fai" respingi l'ipotesi nulla, fornendo alcune prove per l'ipotesi alternativa, non puoi davvero "provare" che la tua ipotesi alternativa sia effettivamente vera.

Quindi, quali sono i prossimi passi comuni dopo aver rifiutato l'ipotesi nulla? Quali strumenti / tecniche si adotta per "analizzare ulteriormente il problema" per rendere più conclusivi i risultati? Quali sono i "prossimi passi" logici in quanto statistico che giustificano ulteriori analisi?

Per esempio:

H0:μ1=μ0

H1:μ1>μ0 (diciamo che conosciamo la direzione prevista)

Una volta che respingiamo l'ipotesi nulla a un certo livello di significato, abbiamo "alcune prove" che l'alternativa è vera, ma non possiamo trarre tale conclusione. Se voglio davvero trarre una conclusione conclusiva (scusate il gioco a doppia parola) cosa dovrei fare?

Non ho mai riflettuto su questa domanda durante i miei giorni di laurea, ma ora che sto facendo un bel po 'di test di ipotesi non posso fare a meno di chiedermi cosa ci aspetta :)



3
In generale, le tue azioni dopo la tua decisione dovrebbero essere scelte anche prima del test (in quale altro modo puoi ponderare i costi dei due tipi di errori e quindi scegliere un ragionevole ?). Almeno, probabilmente passeresti alla considerazione delle dimensioni stimate dell'effetto. Il null non è sostenibile (secondo i criteri che hai scelto - se ciò non fosse sufficiente per te, quale sarebbe?), Quindi quali valori sono plausibili invece? ad es. nel test indicato, quali valori per sarebbero ragionevolmente plausibili, dati i dati? μ 1 - μ 0αμ1μ0
Glen_b -Restinata Monica,

Risposte:


10

In genere puoi continuare a migliorare la tua stima di qualunque parametro tu stia testando con più dati. Arrestare la raccolta dei dati una volta che un test raggiunge un certo grado di significatività semi-arbitraria è un buon modo per fare cattive inferenze. Il fatto che gli analisti possano fraintendere un risultato significativo come segno che il lavoro è svolto è una delle molte conseguenze non intenzionali del framework Neyman-Pearson, in base al quale le persone interpretano i valori p come causa per rifiutare o non rifiutare un null senza riserve a seconda di da quale parte della soglia critica cadono.

Senza considerare le alternative bayesiane al paradigma frequentista (speriamo che lo faccia qualcun altro), gli intervalli di confidenza continuano a essere più istruttivi ben oltre il punto in cui un'ipotesi nulla di base può essere respinta. Supponendo che la raccolta di più dati renderebbe il tuo test di significatività di base ancora più significativo (e non rivelasse che la tua precedente scoperta di significatività era un falso positivo), potresti trovarlo inutile perché rifiuteresti il ​​nulla in entrambi i modi. Tuttavia, in questo scenario, il tuo intervallo di confidenza attorno al parametro in questione continuerebbe a ridursi, migliorando il grado di confidenza con cui puoi descrivere con precisione la tua popolazione di interesse.


Ecco un esempio molto semplice in - testare l'ipotesi nulla che per una variabile simulata:μ=0

One Sample t-test

data:  rnorm(99) 
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 -0.377762241 -0.006780574 
sample estimates:
 mean of x 
-0.1922714

Qui ho appena usato t.test(rnorm(99))e mi è capitato di ottenere un falso positivo (supponendo di aver impostato come scelta accettabile del tasso di errore falso positivo). Se ignoro l'intervallo di confidenza, posso affermare che il mio campione proviene da una popolazione con una media che differisce significativamente da zero. Tecnicamente, l'intervallo di confidenza non contesta neanche questo, ma suggerisce che la media potrebbe essere molto vicina allo zero, o addirittura più lontana da quello che penso sulla base di questo campione. Certo, so che il nulla in realtà è letteralmente vero qui, perché la media della popolazione è impostata su zero, ma raramente si sa con dati reali.α=.05rnorm

L'esecuzione di nuovo come set.seed(8);t.test(rnorm(99,1))produce una media campione di .91, a p = 5.3E-13 e un intervallo di confidenza al 95% per . Questa volta posso essere abbastanza sicuro che il null sia falso, soprattutto perché l'ho costruito impostando la media dei miei dati simulati su 1.μ=[.69,1.12]

Tuttavia, dire che è importante sapere quanto sia diverso da zero; forse una media di .8 sarebbe troppo vicina allo zero perché la differenza abbia importanza. Vedo che non ho abbastanza dati per escludere la possibilità che sia dal mio intervallo di confidenza che da un test t con , che dia un p = .33. La mia media del campione è abbastanza alta da sembrare significativamente diversa da zero secondo questa soglia .8; la raccolta di più dati può aiutare a migliorare la mia sicurezza che la differenza sia almeno così grande e non solo banalmente maggiore di zero.μ=.8mu=.8

Dato che sto "raccogliendo dati" mediante simulazione, posso essere un po 'irrealistico e aumentare le dimensioni del mio campione di un ordine di grandezza. L'esecuzione set.seed(8);t.test(rnorm(999,1),mu=.8)rivela che ulteriori dati continuano a essere utili dopo aver rifiutato l'ipotesi nulla di in questo scenario, perché ora posso rifiutare un valore null di con il mio campione più ampio. L'intervallo di confidenza di suggerisce anche che avrei potuto respingere le ipotesi nulle fino a se avessi deciso di farlo inizialmente.μ = .8 μ = [ .90 , 1.02 ] μ = .89μ=0μ=.8μ=[.90,1.02]μ=.89

Non posso rivedere la mia ipotesi nulla dopo il fatto, ma senza raccogliere nuovi dati per testare un'ipotesi ancora più forte dopo questo risultato, posso dire con il 95% di fiducia che replicare il mio "studio" mi permetterebbe di rifiutare un . Ancora una volta, solo perché posso simularlo facilmente, eseguirò nuovamente il codice come : dimostrando che la mia fiducia non era fuori luogo.H0:μ=.9set.seed(9);t.test(rnorm(999,1),mu=.9)

Testare ipotesi null sempre più stringenti, o meglio ancora, semplicemente concentrarsi sulla riduzione degli intervalli di confidenza è solo un modo per procedere. Naturalmente, la maggior parte degli studi che respingono le ipotesi nulle pone le basi per altri studi che si basano sull'ipotesi alternativa. Ad esempio, se stavo testando un'ipotesi alternativa secondo cui una correlazione è maggiore di zero, potrei testare mediatori o moderatori in uno studio di follow-up successivo ... e mentre ci sono, vorrei sicuramente assicurarmi Potrei replicare il risultato originale.


Un altro approccio da considerare è il test di . Se vuoi concludere che un parametro rientra in un certo intervallo di valori possibili, non solo diverso da un singolo valore, puoi specificare quell'intervallo di valori in cui vuoi che il parametro si trovi in ​​base alla tua ipotesi alternativa convenzionale e testarlo contro un diverso insieme di ipotesi nulle che insieme rappresentano la possibilità che il parametro si trovi al di fuori di tale intervallo. Quest'ultima possibilità potrebbe essere molto simile a ciò che avevi in ​​mente quando hai scritto:

Abbiamo "alcune prove" affinché l'alternativa sia vera, ma non possiamo trarre tale conclusione. Se voglio davvero trarre questa conclusione in modo conclusivo ...

Ecco un esempio usando dati simili a quelli sopra (usare set.seed(8), rnorm(99)è lo stesso di rnorm(99,1)-1, quindi la media del campione è -.09). Supponiamo di voler testare l'ipotesi nulla di due test t unilaterali che sostengono congiuntamente che la media del campione non è compresa tra -.2 e .2. Ciò corrisponde vagamente alla premessa dell'esempio precedente, secondo la quale volevo verificare se . La differenza è che ho spostato i miei dati in basso di 1, e ora due test unilaterali dell'ipotesi alternativa che . Ecco come appare:- .2 μ .2μ=.8.2μ.2

require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)

tostimposta il livello di confidenza dell'intervallo al 90%, quindi l'intervallo di confidenza attorno alla media campionaria di -.09 è e p = .17. Tuttavia, eseguendolo di nuovo con (e lo stesso seme), l'intervallo di confidenza del 90% si riduce a , che rientra nell'intervallo di equivalenza specificato nell'ipotesi nulla con p = 4.55E-07.μ = [ - .09 , .01 ]μ=[.27,.09]rnorm(999)μ=[.09,.01]

Penso ancora che l'intervallo di confidenza sia più interessante del risultato del test di equivalenza. Rappresenta ciò che i dati suggeriscono che la media della popolazione è più specificamente dell'ipotesi alternativa e suggerisce che posso essere ragionevolmente fiducioso che si trova in un intervallo ancora più piccolo di quanto ho specificato nell'ipotesi alternativa. Per dimostrare, abuserò ancora una volta dei miei poteri irrealistici di simulazione e "replicherò" usando set.seed(7);tost(rnorm(999),epsilon=.09345092): abbastanza sicuro, p = .002.


Illuminante! Potresti per favore mostrare un esempio veloce e sporco dell'ultima parte in cui parli di test di equivalenza? Sarebbe davvero utile vedere ad alto livello come potrebbe essere applicabile.
Dottorato di ricerca

@PhD: fatto. È più "veloce e sporco" di quanto sia "ad alto livello", penso. Sono nuovo nel test di equivalenza e, come vedrai, non sono esattamente venduto.
Nick Stauner,

10

Nota innanzitutto che @Nick Stauner fa alcune argomentazioni molto importanti riguardo all'arresto facoltativo . Se si verificano ripetutamente i dati man mano che arrivano i campioni, fermandosi quando un test è significativo, si ottiene quasi sicuramente un risultato significativo. Tuttavia, un risultato garantito è praticamente senza valore.

Di seguito, presenterò i miei migliori tentativi di elaborare una posizione deduttivista, scettica, falsificatrice. Non è certamente l'unico, ma penso che sia piuttosto mainstream, o almeno uno con un po 'di tradizione.

Per quanto ne capisco, Fisher inizialmente ha introdotto i test di significatività come primo passo nell'esplorazione dei dati - stabilire quali fattori potrebbero valere la pena di approfondire ulteriormente. A meno che l'ipotesi nulla che tu abbia messo alla prova in realtà fosse l'ipotesi critica da cui dipendeva la tua teoria preferita (improbabile), in un certo senso, il tuo test iniziale era piuttosto esplorativo in natura. Tra i possibili passaggi successivi all'esplorazione, vedo

  • Ulteriore esplorazione
  • Stima dei parametri
  • Predizione e conferma

Un'ulteriore esplorazione consiste in test di follow-up in cui si tenta di dedurre se eventuali variabili su cui si dispone di informazioni moderate o interagiscono con il proprio effetto. Ad esempio, forse l'età dei partecipanti ha un ruolo? Nota che tali analisi devono essere chiaramente etichettate come esplorative, o sostanzialmente equivalgono a mentire. Se ti imbatti in qualcosa, per prima cosa richiede conferma. In generale, dovresti sempre essere chiaro, sia nei tuoi pensieri, sia nei tuoi scritti, su quando lavori esplorativo e quando confermi.

Successivamente, una volta stabilito che non si ha fiducia nel fatto che il valore di un parametro sia esattamente zero - una volta che si è deciso che si considererà il fattore sotto esame per avere una certa influenza - un passo successivo fattibile potrebbe essere quello di stimare ulteriormente il valore preciso del parametro . Ad esempio, per ora, hai escluso solo un valore, 0 (supponendo un test fronte-retro). Tuttavia, i tuoi dati mettono anche in dubbio molti altri possibili valori.

Un (100- )% Confidence Interval / CI contiene l'intervallo di valori dei parametri non rifiutati in p < , corrispondente alle molte più possibili ipotesi che i tuoi dati riguardano anche oltre il tuo H0 iniziale. Poiché il test è significativo, il valore associato a H0 non è tra questi. Ma saranno esclusi anche molti valori estremamente grandi e piccoli.ααα

Hume ha affermato che non possiamo mai dimostrare induttivamente una frase corretta. Generalmente, le ipotesi non banali sono sempre molto più facili da falsificare che da supportare; essere facili da falsificare in linea di principio (essendo non banali, fare previsioni precise), ma non essere stati falsificati finora è in realtà una delle più alte virtù di una teoria.

Quindi un elemento della configurazione non ti consentirà di dimostrare un valore specifico. Tuttavia, restringe il set di candidati. Forse gli unici candidati rimasti in vita ti aiuteranno a decidere tra due teorie entrambe incompatibili con H0. Ad esempio, forse 0 è escluso, ma la teoria 1 prevede un valore intorno a 5 e la teoria 2 prevede un valore intorno a 15. Se il tuo 95% CI include 5, ma esclude 15, ora hai perso anche la fiducia nella teoria 2, ma la teoria 1 rimane nel gioco. Si noti che questo è indipendente dal fatto che il test iniziale sia significativo - anche se 0 è tra i valori non rifiutati, molti valori verranno rifiutati. Forse per alcuni altri ricercatori, alcuni di questi valori erano interessanti.

Dopo aver quindi in qualche modo specificato la tua comprensione dell'effetto a portata di mano, potresti idealmente fare una previsione più precisa per un esperimento di conferma di follow-up che mirerebbe a testare un'ipotesi più precisa che puoi derivare dalla tua analisi corrente. Certo, rifiutare la tua ipotesi nulla statistica iniziale non è stato così severo di un test della tua ipotesi di ricerca originale , vero? Molte più spiegazioni di quella che preferisci non dipendono da H0. Inoltre, poiché non sei mai stato in pericolo di accettare effettivamente H0, non eri in grado di falsificare la tua teoria preferita! Quindi hai bisogno di un test più severo. Probabilmente, questo è in realtà quello che vuoi; non vuoi provare la tua teoria, vuoi sottoporla a prove sempre più severe, tentando di falsificarla. Resistere a sforzi così genuini (ma equi) per confutare è il massimo che una teoria può offrire. Ma per un test severo, hai bisogno di una teoria più precisa di "0 non lo è".

Ora hai appreso molti fatti importanti riguardanti uno studio di conferma; ad esempio, si ha un'idea della varianza e dell'entità dell'effetto in questione, che consente di stimare la dimensione del campione richiesta per uno studio di follow-up tramite l'analisi della potenza. Puoi anche prevedere un valore specifico e assumere una regione di equivalenza pratica / CORDA attorno ad esso. Non sarai mai in grado di dimostrare che questo valore specifico è il vero valore; tuttavia, se l'IC di un esperimento di follow-up rientra interamente nella tua CORDA, hai prove a conferma della tua teoria (e probabilmente hai messo in difficoltà la concorrenza).


6

L'idea che non si possa provare una proposizione scientifica positiva, ma solo confutarne una, è un principio del falsificazionismo di Popper . Concordo sul fatto che non è possibile dimostrare che un effetto sia esattamente uguale a qualsiasi dato valore in punti (cfr. La mia risposta qui: perché gli statistici dicono che un risultato non significativo significa "non si può rifiutare il nulla" invece di accettare l'ipotesi nulla? ). Ma allora?

Le persone (o almeno io ) si lamentano molto del test delle ipotesi. Questo perchépi valori sono comunemente fraintesi e i test di ipotesi sono usati per compiti che logicamente non possono svolgere. Ad esempio, il test delle ipotesi non dovrebbe essere usato per generare ipotesi o per selezionare variabili. Inoltre, con i dati osservativi essenzialmente tutte le ipotesi nulle 'nulle' devono essere false, quindi testare questo ha poco senso. Tuttavia, gli scienziati hanno spesso ipotesi a priori suggerite dalle attuali teorie che vogliono testare, e in un vero esperimento un nulla nullo potrebbe essere vero, quindi testarlo è perfettamente ragionevole. In genere, i ricercatori hanno qualche motivo per sospettare che il null possa essere falso, quindi un risultato significativo in combinazione con un forte esperimento è un'informazione valida.

È sempre possibile formare intervalli di confidenza per ottenere un quadro più chiaro della precisione della stima e continuare a raccogliere più dati per aumentarne la precisione. Tuttavia, in termini economici otterrai rendimenti decrescenti . Ad un certo punto, semplicemente non credete che l'ipotesi nulla fornisca una spiegazione ragionevole del fenomeno oggetto di studio. In tal caso, perché ti preoccupi?

Se ce ne sono altri nel tuo campo che non sono ancora convinti, ma sarebbero con più (degli stessi) dati, allora potresti continuare, ma questa sembra una situazione non comune. Mi sembra più probabile che gli scettici nutrano altre preoccupazioni sostanziali riguardo al fatto che tale linea di indagine sia sufficientemente istruttiva sulla questione di fondo. Pertanto, è necessario determinare la natura di tali preoccupazioni e, se si ritiene che meritino il lavoro, cercare dati diversi che affrontino in modo più adeguato i problemi in questione. Ad esempio, è possibile provare a replicare il risultato utilizzando una misura diversa, in un'impostazione diversa e / o con condizioni di controllo diverse.

D'altra parte, tutti (più o meno) possono essere soddisfatti dei tuoi dati e conclusioni (congratulazioni!). In circostanze così felici, ci sono due direzioni che potresti seguire per promuovere il tuo programma di ricerca:

  1. Un approccio riduzionista cercherebbe di comprendere i meccanismi che producono l'effetto che hai stabilito. In termini statistici, dovresti spesso cercare mediatori e / o perfezionare il modello delle forze causali che collegano le variabili che hai mostrato essere correlate.

  2. Potresti anche muoverti nella direzione opposta cercando di integrare i risultati in uno schema più ampio. Questo è un tipo di pensiero sistemico . GH Hardy una volta definì l'eleganza di una teoria come la gamma di fenomeni che poteva spiegare in congiunzione con la facilità e l'entità del cambiamento epistemico indotto. Certo, potresti non essere così fortunato che il fenomeno che hai stabilito è abbastanza profondo , tuttavia può comunque far parte di qualcosa di più grande di se stesso. Stabilire un legame tra e che permetta di vedere che unifica fenomeni disparati può essere altrettanto importante per il processo, e altrettanto un momento cristallizzante, come la scoperta diC A ABCAA stesso.

tl; dr: se hai prove sufficienti per i tuoi scopi che il null è falso, scopri quali altre domande teoricamente motivate potresti provare a rispondere e andare avanti.


0

Una cosa che vorrei aggiungere è che la tua domanda mi ricorda il mio io più giovane: volevo disperatamente dimostrare la mia ipotesi perché non sapevo come scrivere "l'ipotesi era sbagliata" in un modo che aiutasse a migliorare il documento che stavo scrivendo . Ma poi ho capito che la "maledetta mia ipotesi assolutamente adorabile non può essere dimostrata" ha anche valore scientifico: 1. Pensa a PERCHÉ la tua ipotesi non trattiene l'acqua. È un problema con i dati o probabilmente qualcosa con l'ipotesi stessa? 2. Quali sono le conseguenze per la ricerca più vecchia?

Ad esempio: ho scritto la tesi del mio maestro sul conflitto etnico usando un set di dati allora nuovo che era più grande dei set di dati precedenti. Ho testato diverse ipotesi controverse come "conflitto etnico sui carburanti petroliferi" o "le regressioni montane hanno maggiori probabilità di conflitto di convenienza". Non ho potuto dimostrare che il petrolio alimenta il conflitto etnico - ma ho scritto due pagine su come la qualità del set di dati sul petrolio disponibile ha influenzato l'analisi (il set di dati stesso è una serie temporale, il set di dati sul pozzo di petrolio non lo è). Anche la tesi "le montagne stanno causando conflitti" è stata un fallimento, ma fruttuosa: una ricerca precedente ha analizzato questa tesi con dati a livello di paese (ad es. Altezza media del paese o giù di lì),

Ricorda: smentire un'ipotesi non è un fallimento, ma un risultato buono come un'ipotesi dimostrata.


Le ipotesi che menzioni non sono ipotesi nulle (convenzionali). Penso che potresti aver perso il punto del PO.
Nick Stauner,

0

Esiste un metodo per combinare le probabilità tra gli studi qui descritti . Non dovresti applicare la formula alla cieca senza considerare lo schema dei risultati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.