Perché i valori di p inferiori non sono più prove contro il nulla? Argomenti di Johansson 2011


31

Johansson (2011) in " Salve l'impossibile: valori p, prove e probabilità " (qui c'è anche un link al diario ) afferma che valori inferiori sono spesso considerati prove più forti contro il nulla. Johansson implica che le persone considererebbero le prove contro il nulla più forti se il loro test statistico avesse prodotto un valore di , piuttosto che se il loro test statistico avesse prodotto un valore di . Johansson elenca quattro ragioni per cui il valore non può essere usato come prova contro il null:pp0.01p0.45p

  1. p è distribuito uniformemente sotto l'ipotesi nulla e pertanto non può mai indicare l'evidenza del nulla.
  2. p è condizionata unicamente dall'ipotesi nulla ed è quindi inadatta a quantificare l'evidenza, poiché l'evidenza è sempre relativa nel senso di essere prova a favore o contro un'ipotesi relativa ad un'altra ipotesi.
  3. p indica la probabilità di ottenere prove (dato il null), piuttosto che la forza delle prove.
  4. p dipende da dati non osservati e intenzioni soggettive e pertanto implica, data l'interpretazione probatoria, che la forza probatoria dei dati osservati dipende da cose che non sono avvenute e da intenzioni soggettive.

Sfortunatamente non riesco a ottenere una comprensione intuitiva dall'articolo di Johansson. Per me un valore di indica che ci sono meno possibilità che il valore nullo sia vero, rispetto a un valore di . Perché i valori inferiori non sono prove più forti contro null? p0.01p0.45p


Ciao @luciano! Vedo che non hai accettato alcuna risposta in questa discussione. Che tipo di risposta stai cercando? La tua domanda riguarda principalmente le argomentazioni di Johannson o, in generale, valori p inferiori?
ameba dice Ripristina Monica il

Tutto questo riguarda i framework per frequentatori Fisher vs Neyman-Pearson. Vedi di più in questa risposta di @gung .
Firebug,

Risposte:


21

La mia valutazione personale dei suoi argomenti:

  1. Qui parla dell'uso di come prova per il Null, mentre la sua tesi è che p non può essere usato come prova contro il Null. Quindi, penso che questo argomento sia in gran parte irrilevante.pp
  2. Penso che questo sia un malinteso. I test pescatori seguono fortemente l'idea del razionalismo critico di Popper che afferma che non puoi sostenere una teoria ma solo criticarla. Quindi in tal senso esiste un'unica ipotesi (la null) e si controlla semplicemente se i propri dati sono conformi ad essa.p
  3. Non sono d'accordo qui. Dipende dalla statistica del test ma di solito è una trasformazione di una dimensione dell'effetto che parla contro il Null. Quindi maggiore è l'effetto, minore è il valore p --- tutte le altre cose sono uguali. Naturalmente, per diversi set di dati o ipotesi questo non è più valido. p
  4. Io non sono sicuro di aver capito completamente questa affermazione, ma da quello che ho potuto capire questo è meno un problema di come di persone che utilizzano erroneamente. p intendeva avere l'interpretazione della frequenza a lungo termine e questa è una caratteristica e non un bug. Ma non puoi dare la colpa a p per le persone che prendono un singolo valore p come prova per la loro ipotesi o che le persone che pubblicano solo p < .05 . ppppp<.05

Il suo suggerimento di usare il rapporto di verosimiglianza come misura di evidenza è secondo me valido (ma qui l'idea di un fattore di Bayes è più generale), ma nel contesto in cui lo introduce è un po 'peculiare: prima di tutto lascia i motivi dei test dei pescatori in cui non vi sono ipotesi alternative per calcolare il rapporto di probabilità. Ma come prova contro il Null è pescatore. Quindi confonde Fisher e Neyman-Pearson. In secondo luogo, la maggior parte delle statistiche di test che utilizziamo sono (funzioni del) rapporto di verosimiglianza e in quel caso p è una trasformazione del rapporto di verosimiglianza. Come dice Cosma Shalizi :pp

tra tutti i test di una data dimensione , quello con la più piccola probabilità di perdere, o la massima potenza, ha la forma "dire 'segnale' se q ( x ) / p ( x ) > t ( s ) , altrimenti dire 'rumore' , "e che la soglia t varia inversamente con s . La quantità q ( x ) / p ( x ) è il rapporto di verosimiglianza; il lemma di Neyman-Pearson afferma che per massimizzare la potenza, dovremmo dire "segnale" se è sufficientemente più probabile del rumore.Sq(X)/p(X)>t(S)tSq(X)/p(X)

Qui è la densità nello stato "segnale" e p ( x ) la densità nello stato "rumore". La misura per "sufficientemente probabile" sarebbe qui P ( q ( X ) / p ( x ) > t o b sH 0 ) che è p . Si noti che nei test Neyman-Pearson corretti, t o b s è sostituito da una t fissa ( s ) tale che Pq(X)p(X)P(q(X)/p(X)>toBS|H0)ptoBSt(S) . P(q(X)/p(x)>t(s)H0)=α


6
+1 solo per il punto 3. Cox descrive il valore p come una calibrazione del rapporto di probabilità (o altra statistica di test) ed è un punto di vista che viene spesso dimenticato.
Scortchi - Ripristina Monica

(+1) Bella risposta, @Momo. Mi chiedo se possa essere migliorato aggiungendo qualcosa del tipo "Ma lo sono!" in un carattere di grandi dimensioni come intestazione della tua risposta, perché questa sembra essere la tua risposta alla domanda del titolo di OP "Perché i valori p più bassi non sono più prove contro il nulla?". Hai smascherato tutti gli argomenti forniti, ma non fornisci esplicitamente una risposta alla domanda sul titolo.
ameba dice di reintegrare Monica il

1
Sarei un po 'titubante nel farlo, è tutto molto sottile e molto dipendente da ipotesi, contesti ecc. Ad esempio, potresti negare che le affermazioni probabilistiche possano essere usate come "prove" e quindi l'affermazione è corretta. Dal punto di vista dei pescatori non lo è. Inoltre, non direi di aver smascherato (tutti) gli argomenti, penso di fornire solo una prospettiva diversa e di evidenziare alcuni difetti logici nell'argomento. L'autore discute bene il suo punto e cerca di fornire una soluzione a un approccio pertinente che di per sé può essere considerato ugualmente problematico.
Momo,

9

Il motivo per cui argomenti come quelli di Johansson vengono riciclati così spesso sembra essere correlato al fatto che i valori P sono indici delle prove contro il nulla ma non sono misure delle prove. L'evidenza ha più dimensioni di quante un singolo numero possa misurare, e quindi ci sono sempre aspetti della relazione tra valori P e prove che le persone possono trovare difficili.

Ho esaminato molti degli argomenti usati da Johansson in un documento che mostra la relazione tra i valori di P e le funzioni di verosimiglianza, e quindi l'evidenza: http://arxiv.org/abs/1311.0081 Sfortunatamente quel documento è stato respinto tre volte, sebbene i suoi argomenti e le prove per loro non siano stati confutati. (Sembra disgustoso per gli arbitri che hanno opinioni come quelle di Johansson piuttosto che sbagliate.)


+1 @Michael Lew, che ne dici di cambiare il titolo? A P (ee) o no a P (ee) ... non suona come un dilemma. Sappiamo tutti cosa fare in quella situazione. = D Scherzi a parte, quali sono stati i motivi del rifiuto del tuo documento?
Un vecchio nel mare.

4

Aggiungendo alla bella risposta di @ Momo:

1


2
Vale la pena notare che le prove stesse non sono influenzate dalla molteplicità dei test, anche se la tua risposta alle prove potrebbe essere modificata. Le prove nei dati sono le prove nei dati e non sono influenzate da alcun calcolo che è possibile eseguire sul computer. La tipica "correzione" dei valori di p per la molteplicità dei test ha a che fare con il mantenimento di tassi di errore falsi positivi, non correggendo la relazione tra il valore di p e l'evidenza sperimentale.
Michael Lew,

1

Johansson sta parlando di valori p di due diversi esperimenti? In tal caso, confrontare i valori di p potrebbe essere come confrontare le mele con le costolette di agnello. Se l'esperimento "A" coinvolge un numero enorme di campioni, anche una piccola differenza insignificante può essere statisticamente significativa. Se l'esperimento "B" coinvolge solo pochi campioni, un'importante differenza potrebbe essere statisticamente insignificante. Ancora peggio (ecco perché ho detto costolette di agnello e non arance), le squame possono essere totalmente incomparabili (psi in uno e kwh nell'altro).


3
La mia impressione è che Johansson non stia parlando di confrontare i valori p di diversi esperimenti. Alla luce di questo e del commento di @ Glen_b, ti dispiacerebbe chiarire il tuo post, Emil? Va bene sollevare un punto correlato ("Penso che J sia sbagliato nel contesto A, ma avrebbe qualche merito nel contesto B"), ma deve essere chiaro che è quello che stai facendo. Se si sta chiedendo una domanda o commento, si prega di cancellare questo messaggio e renderlo un commento.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.