Se non riusciamo a respingere l'ipotesi nulla in un ampio studio, non è la prova del nulla?


59

Una limitazione di base del test di significatività dell'ipotesi nulla è che non consente a un ricercatore di raccogliere prove a favore del nulla ( Fonte )

Vedo questa affermazione ripetuta in più punti, ma non riesco a trovare una giustificazione per questo. Se eseguiamo un ampio studio e non troviamo prove statisticamente significative contro l'ipotesi nulla , non è questa evidenza per l'ipotesi nulla?


3
Ma iniziamo la nostra analisi assumendo che l'ipotesi nulla sia corretta ... L'ipotesi potrebbe essere sbagliata. Forse non abbiamo abbastanza potere ma ciò non significa che l'ipotesi sia corretta.
SmallChess

13
Se non l'hai letto, consiglio vivamente The Earth is Round di Jacob Cohen (p <.05) . Sottolinea che con una dimensione del campione abbastanza grande, è possibile rifiutare praticamente qualsiasi ipotesi nulla. Parla anche a favore dell'uso delle dimensioni degli effetti e degli intervalli di confidenza, e offre una presentazione accurata dei metodi bayesiani. Inoltre, è un vero piacere leggere!
Dominic Comtois,

7
Ipotesi nulla non può che essere semplicemente sbagliato. ... l'incapacità di respingere il nulla non è una prova contro un'alternativa sufficientemente stretta.
Glen_b,

3
Vedi stats.stackexchange.com/questions/85903 . Ma vedi anche stats.stackexchange.com/questions/125541 . Se eseguendo "uno studio di grandi dimensioni" intendi "abbastanza grande da avere un alto potere di rilevare l'effetto minimo di interesse", allora il rifiuto di rifiutare può essere interpretato come accettazione del nulla.
ameba dice di ripristinare Monica il

7
Considera il paradosso della conferma di Hempel. Esaminare un corvo e vedere che è nero è il supporto per "tutti i corvi sono neri". Ma esaminare logicamente un oggetto non nero e vedere che non è un corvo, deve anche supportare la proposta poiché le affermazioni "tutti i corvi sono neri" e "tutti gli oggetti non neri non sono corvi" sono logicamente equivalenti ... la risoluzione è che il numero di oggetti non neri è molto, molto più grande del numero di corvi, quindi il supporto che un corvo nero dà alla proposizione è corrispondentemente più grande del piccolo supporto che un non-corvo non nero dà.
Ben

Risposte:


62

Non riuscire a respingere un'ipotesi nulla è la prova che l'ipotesi nulla è vera, ma potrebbe non essere una prova particolarmente buona , e certamente non prova l'ipotesi nulla.

Facciamo una breve deviazione. Considera per un momento il vecchio cliché:

L'assenza di prove non è una prova di assenza.

Nonostante la sua popolarità, questa affermazione non ha senso. Se cerchi qualcosa e non riesci a trovarlo, questa è assolutamente la prova che non c'è. La validità di tale prova dipende dalla completezza della tua ricerca. Una ricerca superficiale fornisce prove deboli; una ricerca esaustiva fornisce prove concrete.

Ora, torniamo al test delle ipotesi. Quando esegui un test di ipotesi, stai cercando prove che l'ipotesi nulla non sia vera. Se non la trovi, questa è certamente la prova che l'ipotesi nulla è vera, ma quanto è forte questa prova? Per saperlo, devi sapere quanto è probabile che l'evidenza che ti avrebbe fatto rifiutare l'ipotesi nulla avrebbe potuto eludere la tua ricerca. Cioè, qual è la probabilità di un falso negativo nel tuo test? Questo è correlato alla potenza, , del test (in particolare, è il complemento, 1- .)βββ

Ora, la potenza del test, e quindi il tasso di falsi negativi, di solito dipende dalla dimensione dell'effetto che stai cercando. Gli effetti di grandi dimensioni sono più facili da rilevare rispetto a quelli piccoli. Pertanto, non esiste un singolo per un esperimento e quindi nessuna risposta definitiva alla domanda su quanto siano forti le prove per l'ipotesi nulla. Detto in altro modo, c'è sempre una dimensione dell'effetto abbastanza piccola da non essere esclusa dall'esperimento.β

Da qui, ci sono due modi per procedere. A volte sai che non ti interessa una dimensione dell'effetto inferiore a qualche soglia. In tal caso, probabilmente dovresti riformulare il tuo esperimento in modo tale che l'ipotesi nulla sia che l'effetto sia al di sopra di quella soglia e quindi verificare l'ipotesi alternativa che l'effetto sia al di sotto della soglia. In alternativa, è possibile utilizzare i risultati per impostare limiti sulla dimensione credibile dell'effetto. La tua conclusione sarebbe che la dimensione dell'effetto si trova in un intervallo, con qualche probabilità. Questo approccio è solo a un passo da un trattamento bayesiano, di cui potresti voler saperne di più, se ti trovi spesso in questo tipo di situazione.

C'è una bella risposta a una domanda correlata che tocca l' evidenza del test di assenza , che potresti trovare utile.


9
Consideriamo un test di ipotesi con , con e un valore p non significativo. Secondo il tuo ragionamento, questa è una prova per . Un altro test di ipotesi con , con e un valore p non significativo, fornirebbe quindi alcune prove per . Questa evidenza è ovviamente contraddittoria. ˉ x = 3 μ 2 H 1 : μ < 4 ˉ x = 3 μ 4H1:μ>2x¯=3μ2H1:μ<4x¯=3μ4
Macond,

4
Non sono sicuro di seguire il tuo argomento. Da quello che posso dire, stai descrivendo due esperimenti, ognuno dei quali fornisce (probabilmente abbastanza debole) prove per una delle due ipotesi reciprocamente incoerenti. Perché è sorprendente?
Nessuno il

8
Un altro esempio: comune . Se non si rifiuta, significa che si ha la prova che tra tutti gli altri valori sulla linea reale, la media vera è esattamente 0 ..? Questa risposta è fuorviante! H0:μ=0
Tim

3
Mi piace il tuo resoconto delle prove - sembra portare rapidamente al fattore Bayes come quantificare il supporto dei dati di un modello rispetto a un altro. Non prove dare a favore o contro ? Bene dipende dalla tua precedente densità per : se pensi che sia da qualche parte poco meno di 2 o da qualche parte molto più in alto di 3, i dati ne forniscono la prova; se ritieni che sia probabile che sia compreso tra -10 e 10, i dati forniscono prove a riguardo. Ma in un'analisi frequentista il tuo grado di convinzione non è rappresentato da un numero, quindi quale concetto di evidenza si applica? μ2μμμx¯=3μ2μμμ
Scortchi - Ripristina Monica

6
Mi ricorda l'ipotesi di Riemann. Abbiamo cercato e cercato zeri non banali fuori dalla linea con la parte reale 1/2, ma non ne abbiamo trovato. E mentre non consideriamo vera l'ipotesi di Riemann perché non l'abbiamo provata, la maggior parte dei matematici ritiene che sia vera e ci sono molti risultati che sono veri in modo condizionale sull'ipotesi di Riemann vera :) Quindi in questo caso abbiamo interpretato assenza di prove come prova di assenza
Ant

29

NHST si basa su valori p, che ci dicono: data l'ipotesi nulla è vera, qual è la probabilità che osserviamo i nostri dati (o dati più estremi)?

Partiamo dal presupposto che l'ipotesi nulla sia vera: è stato inserito in NHST che l'ipotesi nulla è corretta al 100%. Piccoli valori p ci dicono che, se l'ipotesi nulla è vera, i nostri dati (o più dati estremi) non sono probabili.

Ma cosa ci dice un grande valore p? Ci dice che, data l'ipotesi nulla, i nostri dati (o dati più estremi) sono probabili.

In generale, P (A | B) ≠ P (B | A).

Immagina di voler prendere un grande valore p come prova dell'ipotesi nulla. Faresti affidamento su questa logica:

  • Se il valore nullo è true, è probabile un valore p elevato. ( Aggiornamento: non vero. Vedi i commenti qui sotto. )
  • È stato trovato un valore p elevato.
  • Pertanto, il valore nullo è vero.

Questo assume la forma più generale:

  • Se B è vero, allora A è probabile.
  • A si verifica.
  • Pertanto, B è vero.

Questo è fallace, però, come si può vedere da un esempio:

  • Se pioveva all'esterno, è probabile che il terreno sia bagnato.
  • Il terreno è bagnato
  • Pertanto, ha piovuto fuori.

Il terreno potrebbe benissimo essere bagnato perché ha piovuto. O potrebbe essere dovuto a uno spruzzatore, a qualcuno che pulisce le grondaie, a una rottura dell'acqua principale, ecc. Altri esempi estremi si possono trovare nel link sopra.

È un concetto molto difficile da comprendere. Se vogliamo prove per il nulla, è necessaria l'inferenza bayesiana. Per me, la spiegazione più accessibile di questa logica è di Rouder et al. (2016). in paper Esiste un pranzo gratuito in inferenza? pubblicato in Topics in Cognitive Science, 8, pagg. 520-547.


3
Non mi piace che tutti i tuoi esempi concludano "X è vera". Avere prove di qualcosa non è la stessa cosa di concludere qualcosa con certezza al 100%. Se esco e il terreno è bagnato, questa è la prova di "ha piovuto". Questa prova rende molto più probabile che si sia verificata la pioggia.
Atte Juvonen,

È giusto. That Rouder et al. il documento a cui mi sono collegato alla fine della mia risposta non contiene esempi che hanno conclusioni con certezza.
Mark White,

6
@AtteJuvonen sì, abbiamo alcune prove per la pioggia, ma non sappiamo quanto sia probabile, quindi l'unica conclusione che puoi fare è che "avrebbe potuto piovere o avrebbe potuto essere qualcos'altro che ha bagnato il terreno" . Quindi hai prove inconcludenti . Solo sulla base delle statistiche bayesiane è possibile argomentare diversamente.
Tim

3
Non sono d'accordo con la tua conclusione "Se vogliamo prove per il nulla, è necessaria l'inferenza bayesiana"; lo studio che stai citando è di Wagenmakers che è un sostenitore molto spinto delle statistiche bayesiane, quindi ovviamente lo sostengono. Ma in effetti si può facilmente avere prove "per il nulla" nel paradigma frequentista, ad esempio conducendo TOST (due test unilaterali) per l'equivalenza. (cc @AtteJuvonen).
ameba dice Ripristina Monica il

10
"Se il valore nullo è true, è probabile un valore p elevato." - questo non è corretto. Se l'ipotesi nulla è vera, allorapU[0,1] , quindi valori di elevati non sono più probabili di quelli bassi sotto l'ipotesi nulla. Tutto quello che puoi dire è che un valore di elevato è più probabile sotto lo zero che in altre ipotesi - ma le ipotesi o valgono o no, quindi le ipotesi non sono lo spazio di probabilità in cui operiamo. A meno che non lavoriamo in un paradigma bayesiano! Ed è qui che la tua discussione purtroppo si interrompe. ppp
S. Kolassa - Ripristina Monica il

14

Per comprendere cosa non va nell'ipotesi, vedere il seguente esempio:

Immagina un recinto in uno zoo dove non puoi vedere i suoi abitanti. Vuoi testare l'ipotesi che sia abitata da scimmie mettendo una banana nella gabbia e controllare se è andata via il giorno successivo. Questo è ripetuto N volte per una maggiore significatività statistica.

Ora puoi formulare un'ipotesi nulla: dato che ci sono scimmie nel recinto, è molto probabile che trovino e mangino la banana, quindi se le banane non vengono toccate ogni giorno, è molto improbabile che ci siano scimmie all'interno.

Ma ora vedi che le banane sono sparite (quasi) ogni giorno. Questo ti dice che le scimmie sono dentro?

Certo che no, perché ci sono anche altri animali a cui piacciono le banane, o forse un attento guardiano zoologico rimuove la banana ogni sera.

Quindi qual è l'errore commesso in questa logica? Il punto è che non si sa nulla della probabilità che le banane scompaiano se non ci sono scimmie all'interno. Per confermare l'ipotesi nulla, la probabilità che le banane scompaiano deve essere piccola se l'ipotesi nulla è sbagliata, ma non è necessario che sia così. In effetti, l'evento può essere ugualmente probabile (o anche più probabile) se l'ipotesi nulla è errata.

Senza conoscere questa probabilità, non si può dire esattamente nulla sulla validità dell'ipotesi nulla. Se i guardiani dello zoo rimuovono tutte le banane ogni sera, l'esperimento è completamente inutile, anche se a prima vista sembra aver confermato l'ipotesi nulla.


Questa dovrebbe essere la risposta accettata.
Emily L.,

2
@amoeba In questo caso, ipotesi nulla sarebbe che le scimmie siano nella gabbia. Altra ipotesi sarebbe che non ci siano scimmie nella gabbia. I campioni che raccolgo sono le osservazioni "banana sparita" e "banana ancora lì" ogni mattina. Facendo diverse ipotesi sulle scimmie e sulla loro capacità di trovare banane, posso calcolare la probabilità p che avrei visto il risultato effettivo con le scimmie in una gabbia. Se le banane sono ancora lì spesso, respingerò l'ipotesi nulla. Se le banane se ne vanno sempre, questo si adatta all'ipotesi nulla, ma non prova che le scimmie siano nella gabbia.
Thern,

1
@amoeba Non sono sicuro che sia possibile tradurre direttamente l'esempio della scimmia nel tuo scenario di test t. Per quanto ne sappia, la verifica dell'ipotesi nulla significa generalmente anche ciò che Mark White ha scritto nella sua risposta: "Data l'ipotesi nulla è vera, qual è la probabilità che osserviamo i nostri dati (o dati più estremi)?". Il tuo scenario di test t è un caso specifico di questo, ma al momento non vedo come questo scenario possa essere generalizzato. Dal mio istinto, direi che il tuo scenario e l'esempio della scimmia sono due modi diversi di test di ipotesi che non possono essere associati direttamente.
Thern,

1
In tal caso @Nebr, allora sono di nuovo molto confuso sul significato del tuo esempio di scimmia. Il T-test è probabilmente il test di ipotesi più comune; L'ho menzionato nel mio commento solo perché è un tipico esempio di test. Se il tuo esempio di scimmia non è applicabile (come dici tu) a questo - tipico! - situazione, quindi sono perplesso sul suo significato. In effetti, se dici che il t-test e l'esempio della scimmia sono "due modi diversi di test di ipotesi", allora puoi dare un esempio di test statistico che segue il tuo esempio di scimmia "via"? Qual è esattamente il tuo esempio di scimmia un'analogia?
ameba dice di reintegrare Monica il

1
@Nebr Sono d'accordo che è una domanda generale. Ma se non puoi darmi un singolo esempio di un vero test statistico che avrebbe le stesse proprietà del tuo esempio di scimmia, allora mi dispiace ma dovrò considerare il tuo esempio di scimmia praticamente irrilevante per questo thread. Non sto dicendo che l'esempio della scimmia debba corrispondere specificamente a un test t. Ma deve corrispondere a qualcosa !!
ameba dice Reinstate Monica

14

Nel suo famoso articolo Why Most Most Research Research Findings Are False , Ioannidis ha usato il ragionamento bayesiano e la fallacia del tasso base per sostenere che la maggior parte dei risultati sono falsi positivi. In breve, la probabilità post-studio che una determinata ipotesi di ricerca sia vera dipende - tra le altre cose - dalla probabilità pre-studio di detta ipotesi (cioè il tasso di base).

Come risposta, Moonesinghe et al. (2007) hanno utilizzato lo stesso framework per dimostrare che la replica aumenta notevolmente la probabilità post-studio di ipotesi vera. Ciò ha senso: se più studi possono replicare un determinato risultato, siamo più sicuri che l'ipotesi congetturata sia vera.

Ho usato le formule in Moonesinghe et al. (2007) per creare un grafico che mostra la probabilità post-studio in caso di mancata replica di un risultato. Supponiamo che una certa ipotesi di ricerca abbia una probabilità pre-studio di essere vera del 50%. Inoltre, suppongo che tutti gli studi non abbiano pregiudizi (non realistici!) Abbiano un potere dell'80% e usano un di 0,05.αProbabilità post-studio

Il grafico mostra che se almeno 5 studi su 10 non riescono a raggiungere il significato, la nostra probabilità post-studio che l'ipotesi sia vera è quasi 0. Le stesse relazioni esistono per più studi. Questa scoperta ha anche un senso intuitivo: un ripetuto fallimento nel trovare un effetto rafforza la nostra convinzione che l'effetto è molto probabilmente falso. Questo ragionamento è in linea con la risposta accettata da @RPL.

Come secondo scenario, supponiamo che gli studi abbiano solo una potenza del 50% (tutto il resto uguale).Probabilità_pow post-studio50

Ora la nostra probabilità post-studio diminuisce più lentamente, perché ogni studio aveva solo un basso potere di trovare l'effetto, se esistesse davvero.


Si noti che si ottengono tutte le prove relative all'ipotesi nulla da casi in cui un test non supera questa ipotesi. Ma l'ipotesi dell'OP era che i test corroborano l'ipotesi nulla ("Se eseguiamo un ampio studio e non troviamo prove statisticamente significative contro l'ipotesi nulla, non è quella evidenza per l'ipotesi nulla?"). Ciò corrisponde alla parte più a sinistra dei tuoi diagrammi e quindi a un caso in cui la probabilità dell'effetto è ancora del 50% (o, in generale, la probabilità pre-studio), quindi non hai guadagnato nulla.
Thern il

@Nebr non capisco. Se eseguiamo 1 ampio studio ben potenziato (diciamo 95% di potenza) e non riusciamo a trovare prove contro l'ipotesi nulla (cioè un test di ipotesi statistica non è significativo sul livello del 5%), la nostra probabilità post-studio sarebbe essere 0,05 nel quadro citato (con una probabilità pre-studio del 50%).
COOLSerdash,

1
@Nebr Il tuo ultimo commento non ha alcun senso: se il risultato non è significativo, non può essere un "falso positivo".
ameba dice Ripristina Monica il

1
@Nebr If you have a negative, you found evidence against the null- Cosa? La parola "negativo" ha esattamente il significato opposto. Un valore p significativo è chiamato risultato "positivo"; un non significativo è un "negativo".
ameba dice che ripristini Monica il

1
@Nebr 100% di potenza NON significa "che se H0 è vero, possiamo essere sicuri che vedremo sempre H1". Significa che se H1 è vero, vedremo sempre H1. Non tenterò più di leggere il tuo commento, perché ogni frase è confusa.
ameba dice che ripristini Monica il

12

La migliore spiegazione che ho visto per questo è da qualcuno la cui formazione è in matematica.

Il test di significatività con ipotesi nulla è fondamentalmente una prova di contraddizione: supponiamo , ci sono prove perH 1H0H1 ? Se esistono prove per , rifiuta e accetta . Ma se non ci sono prove per , è circolare dire che è vero perché hai presupposto che fosse vero all'inizio.H 0 H 1 H 1 H 0 H 0H1H0H1H1H0H0


4
Forse dovresti guardare questa discussione: stats.stackexchange.com/questions/163957/…

10

Se non ti piace questa conseguenza del test delle ipotesi ma non sei pronto a fare il salto in avanti ai metodi bayesiani, che ne dici di un intervallo di confidenza?

Supponi di lanciare una moneta volte e di vedere teste, portando a dire che un intervallo di confidenza del 95% per la probabilità delle teste è . 20913 [ 0.492 , 0.502 ]4207820913[0.492,0.502]

Non hai detto di aver visto prove che in realtà è , ma le prove suggeriscono una certa fiducia su quanto potrebbe essere vicino a . 11212


2
Cos'è Bayesiano su un intervallo di confidenza?
kjetil b halvorsen,

3
@kjetilbhalvorsen: un intervallo di confidenza non è bayesiano (sarebbe un intervallo credibile), ma un intervallo di confidenza fornisce maggiori informazioni sull'evidenza, quindi una semplice ipotesi di rifiuto / non rifiuto sarebbe
Henry

9

Sarebbe forse meglio dire che il non rifiuto di un'ipotesi nulla non è di per sé una prova dell'ipotesi nulla. Una volta considerata la piena probabilità dei dati, che considera più esplicitamente la quantità di dati, i dati raccolti possono fornire supporto per i parametri che rientrano nell'ipotesi nulla.

Tuttavia, dovremmo anche riflettere attentamente sulle nostre ipotesi. In particolare, non riuscire a respingere un'ipotesi nulla nulla non è una prova molto valida che l'ipotesi punto zero sia vera. Realisticamente, accumula prove che il vero valore del parametro non è così lontano dal punto in questione. Le ipotesi nulle sono in qualche modo costrutti piuttosto artificiali e molto spesso non credete veramente che saranno esattamente vere.

Diventa molto più ragionevole parlare del non rifiuto a sostegno dell'ipotesi nulla, se è possibile invertire in modo significativo l'ipotesi nulla e alternativa e se in tal modo si respingerebbe la nuova ipotesi nulla. Quando provi a farlo con un'ipotesi nulla punto standard vedi immediatamente che non riuscirai mai a rifiutare il suo complemento, perché allora la tua ipotesi nulla invertita contiene valori arbitrariamente vicini al punto in esame.

D'altra parte, se, diciamo, testate l'ipotesi nulla contro l'alternativa per la media di una distribuzione normale, quindi per qualsiasi valore vero di c'è una dimensione del campione - a meno che irrealisticamente il vero valore di sia o - per il quale abbiamo quasi il 100% di probabilità che un intervallo di confidenza di livello cadrà completamente entro o al di fuori di questo intervallo. Ovviamente, per qualsiasi dimensione di campione finita, è possibile ottenere intervalli di confidenza che si trovano oltre il limite, nel qual caso non è una prova così forte per l'ipotesi nulla.H0:|μ|δHA:|μ|>δμμδ+δ1α[δ,+δ]


4
+1. Questo IMHO dovrebbe essere la risposta accettata. Non capisco perché abbia così pochi voti.
ameba dice di reintegrare Monica il

1
@amoeba perché è stato pubblicato in ritardo, ma sono d'accordo e già fatto +1.
Tim

6

Dipende piuttosto da come stai usando la lingua. Secondo la teoria delle decisioni di Pearson e Neyman, non si tratta di prove per il nulla, ma devi comportarti come se il nulla fosse vero.

La difficoltà deriva dal modus tollens. I metodi bayesiani sono una forma di ragionamento induttivo e, come tale, sono una forma di ragionamento incompleto. I metodi di ipotesi nulla sono una forma probabilistica di modus tollens e come tali fanno parte del ragionamento deduttivo e quindi sono una forma completa di ragionamento.

Il modus tollens ha la forma "se A è vero, allora B è vero e B non è vero, quindi A non è vero." In questa forma, sarebbe se il null è vero, quindi i dati appariranno in un modo particolare, non appaiono in quel modo, quindi (per un certo grado di confidenza) il null non è vero (o almeno è "falsificato ".

Il problema è che vuoi "Se A allora B e B." Da ciò, si desidera inferire A, ma ciò non è valido. "Se A allora B," non esclude "se non A, allora B" dall'essere anche un'istruzione valida. Considera l'affermazione "se è un orso, allora può nuotare. È un pesce (non un orso)". Le dichiarazioni non dicono nulla sulla capacità dei non-orsi di nuotare.

Probabilità e statistica sono un ramo della retorica e non un ramo della matematica. È un grande utilizzatore di matematica ma non fa parte della matematica. Esiste per una varietà di ragioni, persuasione, decisione o inferenza. Estende la retorica in una discussione disciplinata delle prove.



5

Proverò a illustrarlo con un esempio.

Pensiamo che stiamo campionando da una popolazione, con l'intenzione di testare la sua media . Otteniamo un campione con media . Se ottenessimo un valore p non significativo, avremmo anche valori p non significativi se avessimo verificato qualsiasi altra ipotesi nulla , tale che sia compreso tra e . Ora per quale valore di abbiamo prove?μx¯H0:μ=μiμiμ0x¯μ

Inoltre, quando otteniamo valori p significativi, non otteniamo prove per un particolare , invece è una prova contro (che può essere considerata come prova per , o seconda della situazione). La natura del test di ipotesi non fornisce prove di qualcosa, ma lo fa solo contro qualcosa, se lo fa.H 0 : μ = μ 0 μ μ 0 μ < μ 0 μ > μ 0H1:μ=MH0:μ=μ0μμ0μ<μ0μ>μ0


"Ora per quale valore di μ abbiamo prove?" - Abbiamo prove più forti per valori più vicini alla media del campione e prove più deboli per valori più lontani dalla media del campione. Quanto è forte o debole dipende dalla dimensione e dalla varianza del campione. C'è qualcosa di sbagliato in questa interpretazione?
Atte Juvonen,

Sì, questa è una cattiva interpretazione. Il valore P non è la probabilità che l'ipotesi nulla sia vera, o la forza dell'evidenza a favore dell'ipotesi nulla. Allo stesso modo, è possibile effettuare una stima dell'intervallo, con la media del campione nel mezzo dell'intervallo, ma ciò non significa che vi sia una maggiore probabilità che la media della popolazione si avvicini al centro dell'intervallo. C'è un riferimento a una buona spiegazione di questa errata interpretazione nel commento di Dominic Comtois alla tua domanda.
Macond,

"questo non significa che vi sia una maggiore probabilità che la popolazione si avvicini alla metà dell'intervallo." - Questo non può essere corretto. Ho letto il documento ma non sono riuscito a trovare nulla che lo confermi.
Atte Juvonen,

Il centro dell'intervallo di confidenza corrisponde a ', che produrrà la media campionaria osservata con probabilità più elevate. Ma questo non è equavalent la dichiarazione: " s' più vicino al centro hanno una maggiore probabilità di essere vera media". Come affermato più volte da altri: . μμP(A|B)P(B|A)
Macond,

4

Considera il piccolo set di dati (illustrato di seguito) con media , supponiamo che tu abbia condotto un test due code con , dove . Il test sembra essere insignificante con . Ciò significa che il tuo è vero? E se testassi contro ? Poiché la distribuzione è simmetrica, il test restituirà un valore simile . Quindi hai approssimativamente la stessa quantità di prove che e che .x¯0tH0:x¯=μμ=0.5p>0.05H0μ=0.5tpμ=0.5μ=0.5

Due ipotesi alternative

L'esempio sopra mostra che piccoli valori ci allontanano dal credere in e che valori elevati suggeriscono che i nostri dati sono in qualche modo più coerenti con , rispetto a . Se hai condotto molti di questi test, allora potresti trovare quel che è molto probabilmente dato i nostri dati e in effetti useresti una stima della verosimiglianza semi- massima . L'idea di MLE è che cerchi tale valore di che massimizzi la probabilità di osservare i tuoi dati dati , ciò che porta alla funzione di verosimiglianzapH0pH0 H1μμμ

L(μ|X)=f(X|μ)

MLE è un modo valido per trovare la stima puntuale per , ma non ti dice nulla sulla probabilità di osservare dati i tuoi dati. Quello che hai fatto è che hai scelto un singolo valore per e hai chiesto informazioni sulla probabilità di osservare i tuoi dati dati. Come già notato da altri, . Per trovare dovremmo tenere conto del fatto che abbiamo testato diversi valori candidati per . Questo porta al teorema di Bayesμ^μ^μ^f(μ|X)f(X|μ)f(μ|X)μ^

f(μ|X)=f(X|μ)f(μ)f(X|μ)f(μ)dμ

che prima, considera come probabilmente sono diverse 's a priori (questo può essere uniforme, ciò che porta a risultati coerenti con MLE) e la seconda, normalizza per il fatto che si considera i candidati diversi per . Inoltre, se chiedi di in termini probabilistici, devi considerarlo come una variabile casuale, quindi questa è un'altra ragione per adottare un approccio bayesiano.μμ^μ

Concludendo, il test di ipotesi ti dice se è più probabile di , ma poiché la procedura richiedeva che tu che fosse vero e scegliesse un valore specifico per esso. Per fare un'analogia, immagina che il tuo test sia un oracolo. Se le chiedi "il terreno è bagnato, è possibile che stesse piovendo?" , risponderà: "sì, è possibile, nell'83% dei casi, quando pioveva, il terreno si inumidisce" . Se le chiedi di nuovo, "è possibile che qualcuno abbia appena versato l'acqua sul terreno?" , risponderà "certo, è anche possibile, nel 100% dei casi quando qualcuno versa acqua sul terreno, si bagna"H1H0H0, ecc. Se le chiedi alcuni numeri, te li darà, ma i numeri non sarebbero comparabili . Il problema è che il test / l'oracolo di ipotesi opera in un quadro, in cui può dare risposte conclusive solo per le domande che chiedono se i dati sono coerenti con alcune ipotesi , non viceversa, poiché non si stanno prendendo in considerazione altre ipotesi.


2

Seguiamo un semplice esempio.

La mia ipotesi nulla è che i miei dati seguano una distribuzione normale. L'ipotesi alternativa è che la distribuzione dei miei dati non è normale.

Traccio due campioni casuali da una distribuzione uniforme su [0,1]. Non posso fare molto con solo due campioni, quindi non sarei in grado di respingere la mia ipotesi nulla.

Ciò significa che posso concludere che i miei dati seguono la normale distribuzione? No, è una distribuzione uniforme !!

Il problema è che ho ipotizzato la normalità nella mia ipotesi nulla. Pertanto, non posso concludere che la mia ipotesi sia corretta perché non posso rifiutarla.


3
Non penso che uno studio con 2 campioni si qualifichi come "studio". Non appena disegniamo un numero ragionevole di punti dati, questo esempio non funziona. Se disegniamo 1000 punti dati e sembrano una distribuzione uniforme, abbiamo prove contro la nostra ipotesi nulla. Se disegniamo 1000 punti dati e sembrano una distribuzione normale, abbiamo prove per la nostra ipotesi nulla.
Atte Juvonen,

1
@AtteJuvonen La mia risposta non è un tentativo di definire quale dovrebbe essere uno studio. Cerco semplicemente di fare un semplice esempio per illustrare la mancanza di potere statistico per la domanda. Sappiamo tutti che 2 campioni sono cattivi.
SmallChess

4
Giusto. Sto solo dicendo che il tuo esempio illustra il problema di trarre conclusioni da 2 campioni. Non illustra il problema di estrarre prove per ipotesi nulla.
Atte Juvonen,

2

Rifiutare richiede che il tuo studio abbia abbastanza potere statistico . Se riesci a rifiutare , puoi dire che hai raccolto dati sufficienti per trarre una conclusione.H 0H0H0

D'altra parte, non rifiutare non richiede alcun dato, dato che si presume che sia vero per impostazione predefinita. Quindi, se il tuo studio non rifiuta , è impossibile dire quale sia più probabile: è vero o il tuo studio semplicemente non era abbastanza grande .H 0 H 0H0H0H0


Avere prove di qualcosa non equivale a sapere qualcosa con certezza al 100%. Non è necessario "sapere se è vero". Anche se finiamo per rifiutare , non sappiamo ancora se è vero. H 0 H 0H0H0H0
Atte Juvonen,

0

No, non sono prove a meno che tu non abbia prove che siano prove. Non sto cercando di essere carino, piuttosto letterale. Hai solo probabilità di vedere tali dati dato il tuo presupposto che il valore nullo sia vero. Questo è TUTTO ciò che ottieni dal valore p (se questo, poiché il valore p si basa su ipotesi stesse).

Puoi presentare uno studio che dimostra che per gli studi che "non riescono" a supportare l'ipotesi nulla, la maggior parte delle ipotesi null risulta essere vera? Se riesci a trovare QUELLO studio, la tua incapacità di confutare le ipotesi null riflette almeno una probabilità MOLTO generalizzata che il null sia vero. Scommetto che non hai quello studio. Dal momento che non si prova che le ipotesi null siano vere in base ai valori di p, è sufficiente abbandonare a mani vuote.

Hai iniziato supponendo che il tuo valore nullo fosse vero per ottenere quel valore p, quindi il valore p non può dirti nulla sul valore null, solo sui dati. Pensaci. È un'inferenza unidirezionale - periodo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.