Niente come rispondere a una domanda davvero vecchia, ma qui va ....
i valori di p sono test di ipotesi quasi validi. Questo è un estratto leggermente adattato tratto dal libro di teoria della probabilità del 2003 di Jaynes (Esperimenti ripetitivi: probabilità e frequenza). Supponiamo di avere un'ipotesi nulla che desideriamo testare. Abbiamo dati e l'informazione preventiva . Supponiamo che ci sia qualche ipotesi non specificata cui . Il rapporto di probabilità posteriore per contro è quindi dato da:H0DIHAH0HAH0
P(HA|DI)P(H0|DI)=P(HA|I)P(H0|I)×P(D|HAI)P(D|H0I)
Ora il primo termine sul lato destro è indipendente dai dati, quindi i dati possono influenzare il risultato solo tramite il secondo termine. Ora, possiamo sempre inventare un'ipotesi alternativa tale che - un'ipotesi di "adattamento perfetto". Quindi possiamo usare come misura di quanto bene i dati potrebbero supportare qualsiasi ipotesi alternativa rispetto al nulla. Non vi sono ipotesi alternative che i dati potrebbero supportare su in misura maggiore di . Possiamo anche limitare la classe di alternative e il cambiamento è che è sostituito dalla probabilità massimizzata (comprese le costanti normalizzanti) all'interno di quella classe. SeHAP(D|HAI)=11P(D|H0I)H01P(D|H0I)1P(D|H0I)inizia a diventare troppo piccolo, quindi iniziamo a dubitare del nulla, perché il numero di alternative tra e cresce (incluse alcune con probabilità precedenti non trascurabili). Ma questo è quasi tutto ciò che viene fatto con i valori p, ma con un'eccezione: non calcoliamo la probabilità per per alcune statistiche e alcune regioni "cattive" della statistica. Calcoliamo la probabilità per - le informazioni che abbiamo effettivamente, piuttosto che un sottoinsieme di esso, .H0HAt(D)>t0t(D)Dt(D)
Un altro motivo per cui le persone usano i valori p è che spesso equivalgono a un test di ipotesi "corretto", ma possono essere più facili da calcolare. Possiamo dimostrarlo con il semplicissimo esempio di test della media normale con varianza nota. Abbiamo dati con un modello assunto (parte delle informazioni precedenti ). Vogliamo testare . Quindi abbiamo, dopo un piccolo calcolo:D≡{x1,…,xN}xi∼Normal(μ,σ2)IH0:μ=μ0
P(D|H0I)=(2πσ2)−N2exp(−N[s2+(x¯¯¯−μ0)2]2σ2)
Dove and . Questo dimostra che il valore massimo di sarà raggiunto quando . Il valore massimizzato è:x¯¯¯=1N∑Ni=1xis2=1N∑Ni=1(xi−x¯¯¯)2P(D|H0I)μ0=x¯¯¯
P(D|HAI)=(2πσ2)−N2exp(−Ns22σ2)
Quindi prendiamo il rapporto di questi due e otteniamo:
P(D|HAI)P(D|H0I)=(2πσ2)−N2exp(−Ns22σ2)(2πσ2)−N2exp(−Ns2+N(x¯¯¯−μ0)22σ2)=exp(z22)
Dove è la "statistica Z". Valori elevati digettare dubbi sull'ipotesi nulla, relativa all'ipotesi sulla media normale che è maggiormente supportata dai dati. Possiamo anche vedere che è l'unica parte dei dati necessari e quindi è una statistica sufficiente per il test.z=N−−√x¯¯¯−μ0σ|z|x¯¯¯
L'approccio del valore p a questo problema è quasi lo stesso, ma al contrario. Iniziamo con la statistica sufficiente , e ne confermiamo la distribuzione campionaria, che si mostra facilmente essere - dove ho usato una lettera maiuscola per distinguere la variabile casuale dal valore osservato . Ora dobbiamo trovare una regione che metta in dubbio l'ipotesi nulla: si vede facilmente che sono quelle regioni in cuiè grande. Quindi possiamo calcolare la probabilità chex¯¯¯X¯¯¯¯∼Normal(μ,σ2N)X¯¯¯¯x¯¯¯|X¯¯¯¯−μ0||X¯¯¯¯−μ0|≥|x¯¯¯−μ0|come misura di quanto siano lontani i dati osservati dall'ipotesi nulla. Come prima, questo è un semplice calcolo e otteniamo:
p-value=P(|X¯¯¯¯−μ0|≥|x¯¯¯−μ0||H0)
=1−P[−N−−√|x¯¯¯−μ0|σ≤N−−√X¯¯¯¯−μ0σ≤N−−√|x¯¯¯−μ0|σ|H0]
=1−P(−|z|≤Z≤|z||H0)=2[1−Φ(|z|)]
Ora, possiamo vedere che il valore p è una funzione decrescente monotonica di, il che significa che essenzialmente otteniamo la stessa risposta del test di ipotesi "corretto". Rifiutare quando il valore di p è al di sotto di una certa soglia è la stessa cosa di rifiutare quando le probabilità posteriori sono al di sopra di una certa soglia. Tuttavia, si noti che nel fare il test corretto, abbiamo dovuto definire la classe di alternative e abbiamo dovuto massimizzare una probabilità rispetto a quella classe. Per il valore p, dobbiamo trovare una statistica, calcolare la sua distribuzione campionaria e valutarla al valore osservato. In un certo senso, scegliere una statistica equivale a definire l'ipotesi alternativa che si sta prendendo in considerazione.|z|
Sebbene siano entrambe cose facili da fare in questo esempio, non sono sempre così facili in casi più complicati. In alcuni casi può essere più semplice scegliere la statistica corretta da utilizzare e calcolare la sua distribuzione campionaria. In altri può essere più semplice definire la classe di alternative e massimizzare su quella classe.
Questo semplice esempio rappresenta una grande quantità di test basati sul valore p, semplicemente perché tanti test di ipotesi sono della varietà "normale approssimativa". Fornisce anche una risposta approssimativa al problema della moneta (utilizzando l'approssimazione normale al binomio). Mostra anche che i valori p in questo caso non ti porteranno fuori strada, almeno in termini di verifica di una singola ipotesi. In questo caso, possiamo dire che un valore p è una misura di evidenza rispetto all'ipotesi nulla.
Tuttavia, i valori di p hanno una scala meno interpretabile rispetto al fattore bayes - il legame tra il valore di p e la "quantità" di prove rispetto al nulla è complesso. i valori di p diventano troppo piccoli troppo rapidamente, il che li rende difficili da usare correttamente. Tendono a sopravvalutare il supporto rispetto al null fornito dai dati. Se interpretiamo i valori di p come probabilità rispetto allo zero - in forma di probabilità è , quando l'evidenza effettiva è e in forma di probabilità è quando l'evidenza effettiva è . O, per dirla in altro modo, usando un valore p come probabilità che qui il valore nullo sia falso, equivale a impostare le probabilità precedenti. Quindi per un valore di p di0.193.870.05196.830.1le probabilità precedenti implicite contro il null sono e per un valore p di le probabilità precedenti implicite contro il null sono .2.330.052.78