Probabilità che l'ipotesi nulla sia vera


14

Quindi, questa potrebbe essere una domanda comune, ma non ho mai trovato una risposta soddisfacente.

Come si determina la probabilità che l'ipotesi nulla sia vera (o falsa)?

Supponiamo che tu dia agli studenti due diverse versioni di un test e desideri vedere se le versioni erano equivalenti. Esegui un test t che fornisce un valore p di 0,02. Che bel valore p! Ciò significa che è improbabile che i test siano equivalenti, giusto? No. Sfortunatamente, sembra che P (risultati | null) non ti dica P (null | risultati). La cosa normale da fare è rifiutare l'ipotesi nulla quando incontriamo un basso valore p, ma come facciamo a sapere che non stiamo respingendo un'ipotesi nulla che è probabilmente vera? Per fare un esempio sciocco, posso progettare un test per ebola con un tasso di falsi positivi di 0,02: metti 50 palline in un secchio e scrivi "ebola" su una. Se collaudo qualcuno con questo e scelgono la palla "ebola", il valore p (P (scegliendo la palla | non hanno ebola)) è .02,

Cose che ho considerato finora:

  1. Supponendo P (null | results) ~ = P (results | null) - chiaramente falso per alcune importanti applicazioni.
  2. Accettare o rifiutare l'ipotesi senza conoscere P (null | results) - Perché le accettiamo o le rifiutiamo allora? Non è vero che rifiutiamo ciò che pensiamo sia PROBABILE falso e accettiamo ciò che è VERAMENTE vero?
  3. Usa il teorema di Bayes - Ma come ottieni i tuoi priori? Non torni nello stesso posto cercando di determinarli sperimentalmente? E raccoglierli a priori sembra molto arbitrario.
  4. Ho trovato una domanda molto simile qui: stats.stackexchange.com/questions/231580/. L'unica risposta qui sembra fondamentalmente dire che non ha senso chiedere la probabilità che un'ipotesi nulla sia vera poiché si tratta di una domanda bayesiana. Forse sono un bayesiano nel cuore, ma non riesco a immaginare di non fare quella domanda. In effetti, sembra che il più comune fraintendimento dei valori di p sia che sono la probabilità di una vera ipotesi nulla. Se davvero non puoi fare questa domanda come frequentatore, allora la mia domanda principale è # 3: come puoi ottenere i tuoi priori senza rimanere bloccati in un ciclo?

Modifica: grazie per tutte le risposte ponderate. Voglio affrontare un paio di temi comuni.

  1. Definizione di probabilità: sono sicuro che ci sia molta letteratura su questo, ma la mia idea ingenua è qualcosa come "la convinzione che un essere perfettamente razionale avrebbe fornito le informazioni" o "le probabilità di scommessa che massimizzerebbero il profitto se la situazione fu ripetuto e le incognite furono lasciate variare ".
  2. Possiamo mai conoscere P (H0 | risultati)? Certamente, questa sembra essere una domanda difficile. Credo, tuttavia, che ogni probabilità sia teoricamente conoscibile, poiché la probabilità è sempre subordinata alle informazioni fornite. Ogni evento accadrà o non accadrà, quindi la probabilità non esiste con informazioni complete. Esiste solo quando non ci sono informazioni sufficienti, quindi dovrebbe essere conoscibile. Ad esempio, se mi viene detto che qualcuno ha una moneta e chiede la probabilità delle teste, direi il 50%. Può succedere che la moneta abbia un peso del 70% sulle teste, ma non mi è stata data quell'informazione, quindi la probabilità era del 50% per le informazioni che avevo, proprio come se dovesse capitare su code, la probabilità era del 70% capisce quando l'ho imparato. Poiché la probabilità è sempre subordinata a un insieme di dati (insufficienti),
    Modifica: "Sempre" potrebbe essere un po 'troppo forte. Potrebbero esserci alcune domande filosofiche per le quali non possiamo determinare la probabilità. Tuttavia, nelle situazioni del mondo reale, mentre non possiamo "quasi mai" avere la certezza assoluta, ci dovrebbe essere "quasi sempre" una migliore stima.

1
Se la tua 'ipotesi nulla' è qualcosa come , cioè una certa differenza è zero, quindi rifiutarla significa che hai trovato prove abbastanza forti che H A : θ = 0 . Potresti invece ipotizzare nulla come H 0 : | θ | Δ , cioè che una certa differenza è almeno pari a Δ (dove Δ è ciò che il ricercatore ritiene la minima differenza a cui tengono), e rifiutare significa che hai trovato H A : | θ | <H0:θ=0HUN:θ=0H0:|θ|ΔΔΔ (ovvero - Δ < θ < Δ ). Vedi i test per l'equivalenzastats.stackexchange.com/tags/tost/infoHUN:|θ|<Δ-Δ<θ<Δ
Alexis,

Il potere di un esperimento (e del test statistico che analizza i risultati dell'esperimento) è la probabilità che se si verificasse un effetto di una determinata dimensione o maggiore, l'esperimento lo rileverà a una determinata soglia di significato. statisticsdonewrong.com/power.html
Bennett Brown,


Il tuo esempio di moneta è buono. Mostra che non puoi mai conoscere P (H0 | risultati) se conosci solo i risultati e non fai ulteriori ipotesi . Non si conosce la probabilità di teste in un determinato tiro 'assumendo' una certa correttezza della medaglia? Sì. (ma questo è ipotetico, date le assunzioni, e non saprai mai se le tue assunzioni sono vere) Conosci la probabilità delle teste in un determinato lancio mentre conosci un numero di risultati precedenti. No! e non importa quanto sia grande il numero di risultati precedenti che conosci. Non puoi conoscere esattamente le probabilità che si verificano nel prossimo lancio.
Sesto Empirico,

Risposte:


13

Hai sicuramente identificato un problema importante e il bayesianesimo è un tentativo di risolverlo. Se lo desideri, puoi scegliere un precedente non informativo. Consentirò ad altri di approfondire l'approccio di Bayes.

Tuttavia, nella stragrande maggioranza delle circostanze, lo saiil null è falso nella popolazione, semplicemente non sai quanto sia grande l'effetto. Ad esempio, se crei un'ipotesi totalmente ridicola - ad esempio che il peso di una persona è correlato al fatto che il suo SSN sia dispari o pari - e in qualche modo riesci a ottenere informazioni accurate da tutta la popolazione, i due mezzi non saranno esattamente uguali. Differiranno (probabilmente) per una quantità insignificante, ma non corrisponderanno esattamente. 'Se segui questa strada, ridimensionerai i valori di p e i test di significatività e passerai più tempo a guardare la stima della dimensione dell'effetto e la sua accuratezza. Quindi, se hai un campione molto grande, potresti scoprire che le persone con SSN dispari pesano 0,001 libbre in più rispetto alle persone con SSN pari e che l'errore standard per questa stima è 0,000001 libbre, quindi p <0,05 ma a nessuno dovrebbe interessare.


1
n

1
Un buon punto sulla dimensione dell'effetto. Esiste un analogo a situazioni come il test per una malattia, in cui la domanda è di natura booleana?
Kalev Maricq,

1
FWIW, sono perfettamente disposto a credere che non vi sia alcuna relazione tra il peso di una persona e se il suo SSN è pari o dispari. In uno studio osservazionale, queste variabili saranno correlate con alcune altre variabili, ecc., In modo tale che alla fine vi sia un'associazione marginale diversa da 0. Penso che il punto valido sia che, per la maggior parte delle cose che i ricercatori investono il loro tempo per indagare, ci sono alcuni buoni motivi per sospettare che ci sia un reale effetto diverso da 0.
gung - Ripristina Monica

1
@gung puoi credere quello che vuoi, ma c'è sicuramente una relazione diversa da zero tra peso e SSN. Sappiamo qualcosa di più sulla relazione oltre alla sua esistenza e che probabilmente è piccola.
emory

1
So che il peso è una variabile continua. Anche se potremmo registrarlo come un numero intero di chilogrammi. Il tuo commento riguardava uno studio osservazionale (trarre inferenze su una popolazione sulla base di un campione). Dato che il mio studio è finanziato da dollari ipotetici, è uno studio di popolazione che utilizza scale di precisione infinite, senza bisogno di deduzioni statistiche.
emory

3

Per rispondere a questa domanda, è necessario definire la probabilità. Questo perché l'ipotesi nulla è vera (tranne che non lo è quasi mai quando si considerano ipotesi null punto) o falsa. Una definizione è che la mia probabilità descrive la mia convinzione personale su quanto sia probabile che i miei dati siano nati da quell'ipotesi rispetto alla probabilità che i miei dati siano nati dalle altre ipotesi che sto prendendo in considerazione. Se parti da questo framework, il tuo precedente è semplicemente la tua convinzione basata su tutte le tue informazioni precedenti ma escludendo i dati a portata di mano.


Buon punto. Penso che la mia idea di probabilità sia qualcosa di simile alla "convinzione perfettamente razionale" anziché a quella personale. Ho modificato la mia domanda per rispondere ai tuoi punti.
Kalev Maricq,

2

L'idea chiave è che, parlando liberamente, puoi mostrare empiricamente qualcosa di falso (basta fornire un controesempio), ma non puoi mostrare che qualcosa è assolutamente vero (dovresti testare "tutto" per mostrare che non ci sono controesempi).

La falsificabilità è la base del metodo scientifico: supponi che una teoria sia corretta e confronti le sue previsioni con ciò che osservi nel mondo reale (ad esempio, la teoria gravitazionale di Netwon era ritenuta "vera", fino a quando non fu scoperto che lo faceva non funziona troppo bene in circostanze estreme).

Questo è anche ciò che accade nel test delle ipotesi: quando P (risultati | null) è basso, i dati contraddicono la teoria (o sei stato sfortunato), quindi ha senso rifiutare l'ipotesi nulla. In realtà, supponiamo che null sia vero, quindi P (null) = P (null | results) = 1, quindi l'unico modo in cui P (results | null) è basso è che P (risultati) è basso (sfortuna).

D'altra parte, quando P (risultati | null) è alto, chi lo sa. Forse null è falso, ma P (risultato) è alto, nel qual caso non puoi davvero fare nulla, oltre a progettare un esperimento migliore.

Permettetemi di ribadirlo: potete solo dimostrare che l'ipotesi nulla è (probabilmente) falsa. Quindi direi che la risposta è la metà del secondo punto: non è necessario conoscere P (null | results) quando P (results | null) è basso per rifiutare null, ma non si può dire che null sia vero P (risultati | null) è alto.

Questo è anche il motivo per cui la riproducibilità è molto importante: sarebbe sospetto essere sfortunato cinque volte su cinque.


"puoi mostrare empiricamente che qualcosa è falso" Credo che il rifiuto di un'ipotesi sia similmente problematico come l'accettazione. Un valore p non è uguale alla probabilità che l'ipotesi nulla sia falsa. Altrimenti, nel senso del commento di Alexis sull'OP, potremmo definireH0:| Risultato |> a. E dimostralo falso trovando contro esempi quando osservi il risultato <a. Così mostrandoHun'lternun'tiove:| risultato | <a è vero.
Sesto Empirico

Sono d'accordo con Martijn. Se puoi dirmi come determinare la probabilità che l'ipotesi nulla sia falsa, considererei una risposta positiva alla mia domanda.
Kalev Maricq

nota anche che P (risultato | null) essendo piccolo può essere normale anche se il null è vero. Ad esempio se osserviamo la media in 1000 tiri di dado,μ1000, poi P(μ1000=3.50)è piccolo anche per un dado giusto. i valori p sono costruiti in modo diverso da P (risultato | null) e sono più precisamente realizzati per definire l'errore di tipo I, descrivendo "risultato" come "il risultato a cui rifiutiamo". In questo modo abbiamo l'errore di tipo I come P (null rifiutato | null true) = P (risultato del rifiuto | null). Quindi immagina che il valore nullo sia vero (ipoteticamente), quindi abbiamo la probabilità P (risultato del rifiuto | null) di fare un errore di tipo I.
Sesto Empirico

2

-------------------------------------------------- ---------------------

(modifica: penso che sarebbe utile mettere una versione del mio commento a questa domanda in cima a questa risposta, poiché è molto più breve)

Il calcolo non simmetrico di p (a | b) si verifica quando è visto come una relazione causale, come p (risultato | ipotesi). Questo calcolo non funziona in entrambe le direzioni: un'ipotesi provoca una distribuzione di possibili risultati, ma un risultato non provoca una distribuzione di ipotesi.

P (risultato | ipotesi) è un valore teorico basato sull'ipotesi della relazione di causalità -> risultato.

Se p (a | b) esprime una correlazione, o frequenza osservata (non necessariamente una relazione causale), allora diventa simmetrico. Ad esempio, se annotiamo il numero di partite che una squadra sportiva vince / perde e il numero di partite che la squadra sportiva segna inferiore o uguale a / più di 2 goal in una tabella di contingenza. Quindi P (vittoria | punteggio> 2) e P (punteggio> 2 | vittoria) sono oggetti sperimentali / osservativi (non teorici) simili.

-------------------------------------------------- -------------------

Molto semplicistico

L'espressione P (risultato | ipotesi) sembra così semplice da far pensare facilmente che si possano semplicemente invertire i termini. Tuttavia, "risultato" è una variabile stocastica, con una distribuzione di probabilità (data l'ipotesi). E l'ipotesi non è (tipicamente) una variabile stocastica. Se facciamo dell'ipotesi una variabile stocastica, allora implica una distribuzione di probabilità di diverse possibili ipotesi, allo stesso modo in cui abbiamo una distribuzione di probabilità di risultati diversi. (ma i risultati non ci danno questa distribuzione di probabilità dell'ipotesi, e cambiano semplicemente la distribuzione, per mezzo del teorema di Bayes)


Un esempio

Supponi di avere un vaso con biglie rosso / blu in un rapporto 50/50 da cui trai 10 biglie. Quindi puoi facilmente esprimere qualcosa come P (risultato | esperimento vaso), ma ha poco senso esprimere P (esperimento vaso | risultato). Il risultato non è (da solo) la distribuzione di probabilità di diversi possibili esperimenti in vaso.

Se hai più tipi possibili di esperimenti su vaso, in quel caso è possibile usare esprimere qualcosa come P (tipo di esperimento vaso) e usare la regola di Bayes per ottenere un P (tipo di esperimento vaso | risultato), perché ora il tipo di l'esperimento del vaso è una variabile stocastica. (nota: più precisamente è P (tipo di esperimento di vaso | risultato e distribuzione del tipo di esperimenti di vaso))

Tuttavia, questo P (tipo di esperimento di vaso | risultato) richiede una (meta-) ipotesi su una data distribuzione iniziale P (tipo di esperimento di vaso).


Intuizione

forse l'espressione qui sotto aiuta a capire una direzione

X) Possiamo esprimere la probabilità di X data un'ipotesi su X.

così

1) Siamo in grado di esprimere la probabilità di risultati data un'ipotesi sui risultati.

e

2) Possiamo esprimere la probabilità di un'ipotesi data un'ipotesi (meta-) su queste ipotesi.

È la regola di Bayes che ci consente di esprimere un inverso di (1) ma abbiamo bisogno di (2) per questo, l'ipotesi deve essere una variabile stocastica.


Rifiuto come soluzione

Quindi non possiamo ottenere una probabilità assoluta per un'ipotesi dati i risultati. Questo è un dato di fatto, cercare di combattere questo fatto sembra essere l'origine di non trovare una risposta soddisfacente. La soluzione per trovare una risposta soddisfacente è: accettare che non è possibile ottenere una (assoluta) probabilità per un'ipotesi.


frequentisti

Allo stesso modo di non poter accettare un'ipotesi, non dovremmo né (automaticamente) rifiutare l'ipotesi quando P (risultato | ipotesi) è vicino allo zero. Significa solo che ci sono prove a supporto del cambiamento delle nostre convinzioni e dipende anche da P (risultato) e P (ipotesi) come dovremmo esprimere le nostre nuove credenze.

Quando i frequentatori hanno uno schema di rifiuto, allora va bene. Ciò che esprimono non è che un'ipotesi sia vera o falsa, o la probabilità per tali casi. Non sono in grado di farlo (senza i priori). Ciò che esprimono invece è qualcosa sul tasso di fallimento (confidenza) del loro metodo (dato che alcune ipotesi sono vere).


Onnisciente

Un modo per uscire da tutto ciò è di eliminare il concetto di probabilità. Se osservi l'intera popolazione di 100 biglie nel vaso, puoi esprimere alcune affermazioni su un'ipotesi. Quindi, se diventi onnisciente e il concetto di probabilità è irrilevante, allora puoi affermare se un'ipotesi è vera o no (anche se la probabilità è anche fuori dall'equazione)


Il tuo esempio di vaso ha un senso. Tuttavia, nella vita reale, non sappiamo quasi mai quanti marmi di ogni colore ci sono nel vaso. Mi trovo sempre con una domanda più simile a "Ci sono più biglie rosse che blu" e il mio dato è che ho disegnato 4 biglie rosse e 1 marmo blu dal vaso. Ora, posso fare ipotesi come "ci sono probabilmente ~ 100 biglie e ogni marmo è rosso o blu con probabilità del 50%" ma nella vita reale, mi trovo spesso in perdita su come ottenere in modo non arbitrario e non circolare questi priori.
Kalev Maricq,

Questa è più una domanda epistemologica che un problema di probabilità. Un'espressione come P (risultato | ipotesi) è in un modo simile "falso", voglio dire, è un'espressione ipotetica. Puoi esprimere la probabilità di un risultato, data una certa ipotetica convinzione della "realtà". Allo stesso modo in cui una probabilità di un risultato sperimentale è ipotetica, un'espressione della probabilità di una certa teoria (con o senza qualche osservazione di un risultato), richiede una certa ipotetica convinzione della "realtà". Sì, i priori sono in qualche modo arbitrari. Ma così è un'ipotesi.
Sesto Empirico

Parlando delle probabilità. Nota che la regola di Bayes riguarda due variabili stocastiche: P (a | b) P (b) = P (b | a) P (a). È possibile correlare le probabilità condizionali. Se una di quelle P (b | a) è causale relazione , come nella "teoria porta alla distribuzione dei risultati", allora puoi calcolarla esatta. Tale caso è dovuto solo alla causalità (1 direzionale). L'ipotesi consente di conoscere (ipotetico) tutto ciò di cui hai bisogno, i marmi nel vaso. Al contrario, non funziona. Un risultato sperimentale 4 rosso contro 1 blu, non provoca la distribuzione probabilistica dei marmi nel vaso.
Sesto Empirico,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.