Incomprensione di un valore P?


16

Quindi ho letto molto su come interpretare correttamente un valore P e, da quello che ho letto, il valore p dice NIENTE sulla probabilità che l'ipotesi nulla sia vera o falsa. Tuttavia, quando si legge la seguente dichiarazione:

Il valore p rappresenta la probabilità di commettere un errore di tipo I o di rifiutare l'ipotesi nulla quando è vera. Più piccolo è il valore p, minore è la probabilità che si debba rifiutare erroneamente l'ipotesi nulla.

EDIT: E poi 5 minuti dopo ho letto:

Le interpretazioni errate dei valori di P sono molto comuni. L'errore più comune è interpretare un valore P come la probabilità di commettere un errore rifiutando una vera ipotesi nulla (un errore di tipo I).

Questo mi ha confuso. Quale è corretto? E qualcuno può spiegare come interpretare correttamente il valore p e come si collega correttamente alla probabilità di commettere un errore di tipo I?


1
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is trueIl valore p rappresenta la probabilità apriori di commettere un errore di tipo I, cioè di respingere l'ipotesi nulla supponendo che sia vera.
ttnphns,

4
@Paul: la probabilità di rifiutare il condizionale nullo sul fatto che il null sia vero è la probabilità di un errore di tipo I, questo non è lo stesso di un valore p. La fattibilità di un errore di tipo I è uguale (per variabili casuali continue) al livello di significatività scelto, vedere anche la mia risposta di seguito.

Sì, vedo ora, hai assolutamente ragione.
Paul,

4
@fcoppens La probabilità di un errore di tipo I è pari solo al livello prescelto di alfa se la condizione sull'ipotesi nulla è vera. In un caso incondizionato non si sa se il null è vero o falso e quindi è possibile specificare una probabilità di un errore di tipo I solo se si fornisce una probabilità precedente per la verità del null.
Michael Lew - ripristina Monica il

@Michael Lew: questo condizionamento sul nulla è menzionato nella mia risposta qui sotto?

Risposte:


25

A causa dei tuoi commenti, creerò due sezioni separate:

valori p

Nel test delle ipotesi statistiche è possibile trovare "prove statistiche" per l' ipotesi alternativa ; Come ho spiegato in Cosa segue se non riusciamo a respingere l'ipotesi nulla? , è simile alla "prova per contraddizione" in matematica.

Quindi, se vogliamo trovare "prove statistiche", assumiamo il contrario, che denotiamo di ciò che proviamo a provare, che chiamiamo H 1 . Dopodiché disegniamo un campione e dal campione calcoliamo una cosiddetta statistica test (ad esempio un valore t in un test t).H0H1

Quindi, supponendo che sia vero e che il nostro campione sia estratto casualmente dalla distribuzione sotto H 0 , possiamo calcolare la probabilità di osservare valori che superano o eguagliano il valore derivato dal nostro campione (casuale). Questa probabilità è chiamata valore p.H0H0

Se questo valore è "abbastanza piccolo", cioè inferiore alla fase del livello di significatività che abbiamo scelto, allora rifiutiamo e consideriamo che H 1 sia "statisticamente provato".H0H1

Diverse cose sono importanti in questo modo di fare:

  • abbiamo derivato probabilità supponendo che sia veroH0
  • abbiamo prelevato un campione casuale dalla distrazione assunta sotto H0
  • abbiamo decidere di avere prove trovate per se il test-statistica derivato dal campione casuale ha una bassa probabilità di essere superati. Quindi non è impossibile che venga superato mentre H 0 è vero e in questi casi commettiamo un errore di tipo I. H1H0

Quindi cos'è un errore di tipo I: un errore di tipo I viene commesso quando il campione, estratto casualmente da , porta alla conclusione che H 0 è falso mentre in realtà è vero.H0H0

Si noti che questo implica che un p-valore non è la probabilità di un errore di tipo I . In effetti, un errore di tipo I è una decisione sbagliata da parte del test e la decisione può essere presa solo confrontando il valore p con il livello di significatività scelto, con un valore p da solo non si può prendere una decisione, è solo dopo il confronto il valore p al livello di significatività scelto che viene presa una decisione e fintanto che non viene presa una decisione, l'errore di tipo I non viene nemmeno definito.

Qual è quindi il valore p? Il rifiuto potenzialmente errato di è dovuto al fatto che disegniamo un campione casuale sotto H 0 , quindi potrebbe essere che abbiamo "sfortuna" disegnando il campione e che questa "sfortuna" porti a un falso rifiuto di H 0 . Quindi il valore p (anche se non è del tutto corretto) è più simile alla probabilità di disegnare un "campione errato". L'interpretazione corretta del valore p è che è la probabilità che la statistica test superi o eguagli il valore della statistica test derivato da un campione disegnato casualmente sotto H 0H0H0H0H0


False rate discovery (FDR)

Come spiegato sopra, ogni volta che l'ipotesi nulla viene respinta, si considera questa come "prova statistica" per . Quindi abbiamo trovato nuove conoscenze scientifiche, quindi si chiama scoperta . Anche spiegato sopra è che possiamo fare false scoperte (cioè rifiutare falsamente H 0 ) quando commettiamo un errore di tipo I. In quel caso abbiamo una falsa convinzione di una verità scientifica. Vogliamo solo scoprire cose veramente vere e quindi si cerca di ridurre al minimo le false scoperte, cioè si controllerà un errore di tipo I. Non è così difficile vedere che la probabilità di un errore di tipo I è il livello di significatività scelto α . Quindi, per controllare gli errori di tipo I, si corregge un αH1H0αα-livello che riflette la tua volontà di accettare "prove false".

Intuitivamente, ciò significa che se disegniamo un numero enorme di campioni e con ogni campione eseguiamo il test, una frazione di questi test porterà a una conclusione errata. È importante notare che stiamo "calcolando la media su molti campioni" ; così stesso test, molti campioni. α

Se utilizziamo lo stesso campione per eseguire molti test diversi, abbiamo un errore di test multiplo (vedi la mia risposta sul limite di errore a livello di famiglia: il riutilizzo di set di dati su diversi studi di domande indipendenti porta a più problemi di test? ). In quel caso si può controllare l' inflazione usando tecniche per controllare il tasso di errore familiare (FWER) , come ad esempio una correzione di Bonferroni.α

Un approccio diverso rispetto a FWER è il controllo del tasso di rilevamento falso (FDR) . In quel caso si controlla il numero di scoperte false (FD) tra tutte le scoperte (D), quindi si controlla , D è il numero diH0rifiutato.FDDH0

Quindi la probabilità di errore di tipo I ha a che fare con l'esecuzione dello stesso test su molti campioni diversi. Per un numero enorme di campioni la probabilità di errore di tipo I converge al numero di campioni che porta a un falso rifiuto diviso per il numero totale di campioni prelevati .

La FDR ha a che fare con molti test sullo stesso campione e per un numero enorme di test converge al numero di test in cui viene commesso un errore di tipo I (cioè il numero di false scoperte) diviso per il numero totale di rifiuti di (ovvero il numero totale di scoperte)H0 .

Si noti che, confrontando i due paragrafi precedenti:

  1. Il contesto è diverso; un test e molti campioni rispetto a molti test e un campione.
  2. Il denominatore per il calcolo della probabilità di errore di tipo I è chiaramente diverso dal denominatore per il calcolo dell'FDR. I numeratori sono simili in un certo senso, ma hanno un contesto diverso.

L'FDR ti dice che, se esegui molti test sullo stesso campione e trovi 1000 scoperte (cioè rifiuti di ), allora con un FDR di 0,38 avrai 0,38 × 1000 scoperte false.H00.38×1000


5
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0È così? "Non è uguale o supera"? Il valore P è la probabilità che sotto il vero H0 osserviamo la differenza o associazione questa o più forte di quella effettivamente osservata.
ttnphns,

@ttnphns Per una statistica di test continuo non c'è differenza perché la misura di un punto è zero. Per una statistica test discreta hai ragione (+1). Ho modificato il testo di conseguenza.

1
Fai una distinzione molto utile tra i valori di P e i tassi di errore di tipo I, ma penso che devi essere più cauto con la parola "provato". Aggiungere il modificatore "statisticamente" non lo ammorbidisce sufficientemente, secondo me.
Michael Lew - ripristina Monica il

1
Hai trattato le prove come se avesse solo uno stato binario: esiste e non esiste. Nella comprensione standard delle prove non statistiche il concetto di parola ha un'esistenza graduale ed è più complicato di quanto una singola dimensione di forza possa catturare. La difficoltà deriva dall'incompatibilità delle considerazioni sul tasso di errore con le interpretazioni ordinarie delle prove. Sarei molto interessato a leggere qualsiasi account che catturi l'interpretazione non binaria di "prove" nell'ambito di FDR. (Non ne ho ancora visto uno.)
Michael Lew - ripristina Monica il

1
Grazie per la correzione. Ho apportato la modifica pertinente ieri sera e ho accreditato il tuo post.
Antoni Parellada,

4

La prima affermazione non è strettamente vera.

Da un elaborato articolo sull'incomprensione del significato: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )

"[Questa affermazione] può sembrare simile alla definizione di un errore di tipo I (cioè la probabilità di respingere l'H0 sebbene sia effettivamente vero), ma avendo effettivamente rifiutato l'H0, questa decisione sarebbe sbagliata se e solo se l'H0 era vero, quindi la probabilità "che stai prendendo una decisione sbagliata" è p (H0) e questa probabilità ... non può essere derivata con test di significatività dell'ipotesi nulla. "

Più semplicemente, al fine di valutare la probabilità di aver rifiutato erroneamente H0, è necessaria la probabilità che H0 sia vero e che semplicemente non è possibile ottenere utilizzando questo test.


Grazie! Quindi, quando sto leggendo la prima parte di statisticsdonewrong.com/p-value.html , l'autore conclude che la FDR è del 38%, quindi la probabilità di un errore di tipo I è del 38%?
rb612,

FDR è la percentuale di False Discovery ed è molto diversa dall'errore di tipo I, quindi la risposta alla tua domanda in no. FDR ha a che fare con più test, ovvero quando si eseguono più test sullo stesso campione, consultare stats.stackexchange.com/questions/164181/… . FDR è un'alternativa al tasso di errore familiare, ma per spiegare che il numero di caratteri in un commento è troppo limitato.

Ho aggiunto una seconda sezione nella mia risposta per spiegare FDR.

1
Così come non è possibile determinare la probabilità che H0 sia vera senza un precedente, non è possibile determinare la FDR senza un precedente. Fai attenzione a come interpreti i documenti FDR, perché i priori usati in essi potrebbero non essere necessariamente rilevanti per le tue circostanze sperimentali.
Michael Lew - ripristina Monica

1

L'interpretazione corretta di un valore p è la probabilità condizionale di un risultato almeno altrettanto conduttiva per l'ipotesi alternativa come il valore osservato (almeno come "estremo"), supponendo che l'ipotesi nulla sia vera . Le interpretazioni errate generalmente comportano una probabilità marginale o una commutazione della condizione:

p-value=P(Almeno estremo del risultato osservato|H0)P(Errore di tipo I.).

-1

Il valore p ci consente di determinare se l'ipotesi nulla (o l'ipotesi dichiarata) può essere respinta o meno. Se il valore p è inferiore al livello di significatività, α, ciò rappresenta un risultato statisticamente significativo e l'ipotesi nulla deve essere respinta. Se il valore p è maggiore del livello di significatività, α, l'ipotesi nulla non può essere respinta. Questo è il motivo per cui si cerca il valore p se si utilizza la tabella o si utilizza un calcolatore online, come questo, calcolatore del valore p , per trovare il valore p dalla statistica del test.

Ora so che hai citato errori di tipo I e di tipo II. Questo non ha davvero nulla a che fare con il valore p. Ciò ha a che fare con i dati originali, come la dimensione del campione utilizzata e i valori ottenuti per i dati. Se la dimensione del campione è troppo piccola, ad esempio, ciò può causare un errore di tipo I.


2
-1. Mi dispiace darti il ​​benvenuto sul nostro sito con un downvote, ma questa risposta è chiaramente errata: semplicemente non è il caso che il valore p sia la probabilità di verità dell'ipotesi nulla. Questo è ampiamente discusso in molti thread su valori p e test di ipotesi, come stats.stackexchange.com/questions/31 .
whuber

1
Ho modificato un po 'la risposta originale per renderla più precisa.
user1445657,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.