Elevata varianza della distribuzione dei valori di p (un argomento in Taleb 2016)


16

Sto cercando di capire l'affermazione generale presentata in Taleb, 2016, La meta-distribuzione di valori p standard .

In esso, Taleb espone il seguente argomento per inaffidabilità del valore p (a quanto ho capito):

Una procedura di stima che opera su n punti dati provenienti da alcuni distribuzione Xgenera un valore ap. Se traggiamo n più punti da questa distribuzione e produciamo un altro valore p, possiamo calcolare la media di questi valori p ottenendo nel limite il cosiddetto "valore p reale".

Questo "vero valore p" ha una varianza inquietantemente elevata, quindi una distribuzione + procedura con "vero valore p" .12 riporterà il 60% delle volte un valore p <.05.

Domanda : come si può conciliare questo con l'argomentazione tradizionale a favore di p . A quanto ho capito, il valore p dovrebbe dirti quale percentuale delle volte che la tua procedura ti darà l'intervallo corretto (o qualunque altra cosa). Tuttavia, questo documento sembra sostenere che questa interpretazione è fuorviante poiché il valore p non sarà lo stesso se si esegue nuovamente la procedura.

Mi manca il punto?


1
Puoi spiegare cos'è questa "discussione tradizionale"? Non sono sicuro di essere chiaro su quale argomento stai prendendo in considerazione.
Glen_b -Restastate Monica il

La domanda è interessante ed è collegata a una letteratura per la quale CV ha persino un tag, che combina valori-p che potresti aggiungere se lo ritieni opportuno.
mdewey,

1
Credo che la domanda sulla riproducibilità dei valori di p possa essere strettamente correlata a questa. Forse l'analisi è simile (o addirittura uguale) a quella qui menzionata.
whuber

Risposte:


13

Un valore p è una variabile casuale.

Sotto (almeno per una statistica a distribuzione continua), il valore p dovrebbe avere una distribuzione uniformeH0

Per un test coerente, sotto il valore p dovrebbe andare a 0 nel limite man mano che le dimensioni del campione aumentano verso l'infinito. Allo stesso modo, con l'aumentare delle dimensioni degli effetti, anche le distribuzioni dei valori di p dovrebbero tendere a spostarsi verso 0, ma saranno sempre "sparse".H1

La nozione di un "vero" valore p mi sembra assurda. Cosa significherebbe, sotto o H 1 ? Ad esempio, potresti dire che intendi " la media della distribuzione di valori p in una determinata dimensione dell'effetto e dimensione del campione ", ma in che senso hai la convergenza in cui la diffusione dovrebbe ridursi? Non è possibile aumentare le dimensioni del campione mentre lo si mantiene costante.H0H1

H1

inserisci qui la descrizione dell'immagine

Questo è esattamente come dovrebbero comportarsi i valori p: per un valore nullo falso, all'aumentare della dimensione del campione, i valori p dovrebbero diventare più concentrati a valori bassi, ma non c'è nulla che suggerisca che la distribuzione dei valori che assume quando si commettere un errore di tipo II - quando il valore p è superiore a qualunque sia il livello di significatività - dovrebbe in qualche modo finire "vicino" a quel livello di significatività.

α=0.05

È spesso utile considerare cosa sta succedendo sia con la distribuzione di qualunque statistica di test che usi sotto l'alternativa sia come applicare il cdf sotto il valore null come una trasformazione che farà alla distribuzione (che darà la distribuzione del valore p sotto l'alternativa specifica). Quando pensi in questi termini, spesso non è difficile capire perché il comportamento sia così com'è.

Il problema, a mio modo di vedere, non è tanto che esiste qualche problema inerente ai valori di p o al test di ipotesi, è più un caso se il test di ipotesi è un buon strumento per il tuo problema particolare o se qualcos'altro sarebbe più appropriato in ogni caso particolare - questa non è una situazione per polemiche generalizzate, ma una attenta considerazione del tipo di domande che i test di ipotesi affrontano e delle esigenze particolari delle circostanze. Purtroppo un'attenta considerazione di questi problemi viene fatta raramente - troppo spesso si vede una domanda del modulo "quale test devo utilizzare per questi dati?" senza alcuna considerazione di quale possa essere la questione di interesse, figuriamoci se un test di ipotesi è un buon modo per affrontarlo.

Una difficoltà è che i test di ipotesi sono sia largamente fraintesi che ampiamente abusati; la gente pensa molto spesso di dirci cose che non lo fanno. Il valore p è forse la cosa più incompresa sui test di ipotesi.


pnm

nnn

1
H1H1

3
n

3
+1. Un'analisi correlata - e divertente - che mi viene in mente è quella che Geoff Cumming chiama "Una danza di valori p": vedi youtube.com/watch?v=5OL1RqHrZQ8 (la "danza" avviene a circa 9 minuti) . Tutta questa piccola presentazione enfatizza sostanzialmente quanto i valori p siano variabili anche per una potenza relativamente elevata. Non sono del tutto d'accordo con il punto principale di Cumming sul fatto che gli intervalli di confidenza sono molto migliori dei valori p (e odio che lui lo chiama "nuove statistiche"), ma penso che questa variabilità di importo sia sorprendente per molte persone e il "dance" è un modo carino per dimostrarlo.
ameba dice di reintegrare Monica il

10

La risposta di Glen_b è perfetta (+1; considera la mia supplementare). Il documento a cui fai riferimento Taleb è molto simile a una serie di articoli all'interno della letteratura psicologica e statistica su quale tipo di informazione puoi raccogliere analizzando le distribuzioni di valori p (ciò che gli autori chiamano curva p ; vedi il loro sito con un un sacco di risorse, inclusa un'app per l'analisi della curva p qui ).

Gli autori propongono due usi principali della curva p:

  1. È possibile valutare il valore probatorio di una letteratura analizzando la curva p della letteratura . Questo è stato il loro primo uso pubblicizzato di p-curve. In sostanza, come descrive Glen_b, quando hai a che fare con dimensioni di effetto diverse da zero, dovresti vedere le curve p che sono inclinate positivamente al di sotto della soglia convenzionale di p <.05, poiché valori p più piccoli dovrebbero essere più probabili di p- valori più vicini a p= .05 quando un effetto (o gruppo di effetti) è "reale". È quindi possibile testare una curva p per una significativa inclinazione positiva come test del valore probatorio. Al contrario, gli sviluppatori propongono di poter eseguire un test di inclinazione negativa (ovvero un valore p significativo più limite rispetto a quelli più piccoli) come modo per verificare se un determinato insieme di effetti è stato soggetto a varie pratiche analitiche discutibili.
  2. È possibile calcolare una stima meta-analitica libera da distorsioni della pubblicazione della dimensione dell'effetto utilizzando la curva p con valori p pubblicati . Questo è un po 'più complicato da spiegare in modo succinto, e invece, ti consiglio di dare un'occhiata ai loro documenti incentrati sulla stima della dimensione dell'effetto (Simonsohn, Nelson e Simmons, 2014a, 2014b) e di leggere tu stesso i metodi. Ma essenzialmente, gli autori suggeriscono che la curva p può essere utilizzata per evitare il problema dell'effetto file drawer quando si esegue una meta-analisi.

Quindi, per quanto riguarda la tua domanda più ampia di:

come si può conciliare questo con l'argomentazione tradizionale a favore del valore p?

Direi che metodi come Taleb (e altri) hanno trovato un modo per riutilizzare i valori p, in modo che possiamo ottenere informazioni utili su intere letterature analizzando gruppi di valori p, mentre un valore p da solo potrebbe essere molto più limitato nella sua utilità.

Riferimenti

Simonsohn, U., Nelson, LD e Simmons, JP (2014a). Curva P: una chiave per il cassetto file. Journal of Experimental Psychology: General , 143 , 534-547.

Simonsohn, U., Nelson, LD e Simmons, JP (2014b). Curva P e dimensioni dell'effetto: correzione dell'errore di pubblicazione utilizzando solo risultati significativi. Perspectives on Psychological Science , 9 , 666-681.

Simonsohn, U., Simmons, JP, & Nelson, LD (2015). Curve P migliori: rendere l'analisi della curva P più robusta rispetto a errori, frodi e ambiziosi hacking P, una risposta a Ulrich e Miller (2015). Journal of Experimental Psychology: General , 144 , 1146-1152.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.