Adatte viste trincerate di valori p


31

A volte nei rapporti includo un disclaimer sui valori di p e altre statistiche inferenziali che ho fornito. Dico che dal momento che il campione non era casuale, tali statistiche non si sarebbero applicate rigorosamente. La mia formulazione specifica è di solito riportata in una nota a piè di pagina:

"Mentre, a rigor di termini, le statistiche inferenziali sono applicabili solo nel contesto del campionamento casuale, seguiamo la convenzione nel riportare livelli di significatività e / o intervalli di confidenza come parametri utili anche per campioni non casuali. Vedi l' inferenza statistica di Michael Oakes : un commento per il sociale e scienze comportamentali (NY: Wiley, 1986).

In un paio di occasioni - una volta per un articolo peer-reviewed, una o due volte in un contesto non accademico - l'editore o il revisore si sono opposti a questo disclaimer, definendolo confuso, e hanno ritenuto che i risultati inferenziali dovessero semplicemente essere scritti (e ricevere il manto dell'autorità). Qualcun altro ha riscontrato questo problema e trovato una buona soluzione? Da un lato, la comprensione della gente dei valori di p è generalmente lugubre, anche nel contesto del campionamento casuale, quindi forse non importa molto quello che diciamo. Dall'altro, contribuire ulteriormente agli equivoci sembra costituire una parte del problema. Vorrei aggiungere che mi occupo spesso di studi di indagine, in cui l'assegnazione casuale non si applica e in cui le simulazioni Monte Carlo spesso non riescono ad affrontare il problema della rappresentatività.


3
il commento su un revisore è estremamente triste, si spera che una persona in quella posizione almeno non mostri apertamente la propria ignoranza e, in tal modo, sostenga ulteriormente l'interpretazione errata del metodo statistico.
richiemorrisroe,

8
Correggimi se sbaglio, ma la casualità del campionamento influenza semplicemente il grado in cui puoi generalizzare i risultati. Al contrario, l'assegnazione casuale è la caratteristica più critica per l'inferenza causale.
Mike Lawrence,

3
Mike, sono d'accordo con te. Fai questo punto per estendere la discussione o per indicare un disaccordo con qualcosa che ho detto?
rolando2,

@richiemorrisroe: uno sarebbe sciocco aspettarsi quello di tutti i revisori, ma suppongo che si possa sperare in un futuro in cui possiamo aspettarci questo, e dovremmo certamente fare pressione sugli editori affinché facciano di più per chiedere e far rispettare quello che attualmente .. .Rolando, penso che Mike sia solo un punto di chiarimento per chiarire questa discussione da questioni legate all'inferenza causale. Evidentemente alcune persone l'hanno trovato utile, anche se ho pensato che fosse già abbastanza chiaro, personalmente. Se ho ragione, questo inavvertitamente misura la confusione degli altri sui valori di p , che motiva il post originale!
Nick Stauner,

Risposte:


11

C'è davvero un argomento da non includere il disclaimer. Francamente, troverei un po 'scoraggiante un breve trattato sulla natura dei valori di p in un articolo di giornale, e per un momento avrei dovuto fermarmi e cercare di capire se avessi fatto qualcosa di particolarmente ... .esoterico ... per giustificare la dedicazione di quello spazio ad un punto definitivo.

Fondamentalmente, come revisore, lo definirei inutile perché il lettore dovrebbe già sapere cosa è e cosa fa un valore p. Potrei anche obiettare perché prendere una nota del genere in realtà non impedisce nessuno dei molti crimini di analisi e interpretazione che accompagnano i valori p, si limita a rivestire un "mantello di me, so cosa sto facendo". È anche un po 'strano: "Ho intenzione di prendere una posizione audace contro i valori p, ma non così audace da non segnalarli".

Quando considero "opinioni trincerate sui valori di p", sono molto meno preoccupato per qualcosa di simile a ciò che hai pubblicato sopra e molto più preoccupato per l'insistenza dei revisori sul significato statistico per essere pubblicati o il focus del documento (mettere una stella da una scoperta e improvvisamente è un grosso problema) o fondere significato statistico con il significato di una scoperta.


3
Non credo che questo risponda al PO. Presumo che @ rolando2 riporti altre statistiche che sono più centrali nelle sue discussioni (ad es., Dimensioni dell'effetto) e principalmente i valori di p come un modo per soddisfare le aspettative convenzionali, anche se non si applicano rigorosamente. Come tale, dovremmo essere scoraggiati nella misura in cui stiamo leggendo troppo in valori p ; dovremmo considerare la sua motivazione per il disclaimer. I lettori non sanno cosa dovrebbero; l'OP menziona questo. Il disclaimer promuove il dubbio, non la fiducia. Non è strano obiettare ad uno standard mentre si conforma ad esso; non è una posizione audace.
Nick Stauner,

@NickStauner Non vedo come non "risponda" all'OP. Forse non supporta ciò che vogliono fare, ma nella mia mente è sia una strana pausa dal contenuto reale del documento, sia anche inutile - "Questo è sbagliato, ma ho intenzione di fare il soldato come se fosse giusto perché è quello che tutti si aspettano "non mi dice se l'errore è importante .
Fomite,

3
La domanda del PO: "Qualcun altro ha riscontrato questo problema e trovato una buona soluzione?" La tua risposta ignora la domanda letterale per rispondere all'idea e offre principalmente le tue opinioni sul perché l'idea debba essere abbattuta. Stai iniziando a suggerire una critica costruttiva dell'idea del PO: non sembra pensare che la citazione di Oakes ti dica perché è importante. Espanderò un po 'su questo in una mia risposta.
Nick Stauner,

12

L'uso di statistiche inferenziali può essere giustificato non solo sulla base di un modello di popolazione, ma anche su un modello di randomizzazione. Quest'ultimo non fa alcuna ipotesi sul modo in cui il campione è stato ottenuto. In effetti, Fisher è stato quello che ha suggerito che il modello di randomizzazione dovrebbe essere la base per l'inferenza statistica (al contrario di Neyman e Pearson). Vedi, ad esempio:

Ernst, MD (2004). Metodi di permutazione: una base per un'inferenza esatta. Statistical Science, 19, 676-685. [link (accesso aperto)]

Ludbrook, J. & Dudley, H. (1998). Perché i test di permutazione sono superiori ai test te F nella ricerca biomedica. Statistico americano, 52, 127-132. [link (se si dispone dell'accesso JSTOR)]

In qualche modo dubito però che gli editori o i revisori in questione lo stessero usando come motivo per definire "confuso" il disclaimer.


1
Wolfgang - punti interessanti e utili. Avrei dovuto chiarire, tuttavia, che gran parte del mio lavoro riguarda sondaggi.
rolando2,

7
Se l'obiettivo primario è fare una sorta di inferenza sulla popolazione e il meccanismo di campionamento è di natura tale che la rappresentatività del campione è discutibile, allora in effetti qualsiasi inferenza sarà anche piuttosto discutibile. In sostanza, puoi solo fare una deduzione a quella parte della popolazione di cui il meccanismo di campionamento fornisce una rappresentazione. In linea di principio, le inferenze che farai saranno appropriate per quella parte della popolazione. Se quella parte della popolazione sia di tuo interesse (o dei tuoi lettori) è un altro problema.
Wolfgang,

7

pi valori sono infatti necessari da segnalare nonostante la loro invalidità non trascurabile in uno studio problematico (una classe in cui cadono troppi articoli pubblicati), si potrebbero minimizzare implicitamente. Considera di focalizzare la tua narrativa invece - forse anche esclusivamente - sulle dimensioni degli effetti. Se il tuo studio è sufficientemente rappresentativo per essere utilmente informativo (questo non dovrebbe richiedere campionamenti perfettamente casuali, solo cautela nella generalità delle interpretazioni), le dimensioni dei tuoi effetti dovrebbero avere implicazioni più ampie del semplice indicare l'esistenza e le direzioni delle relazioni o delle differenze comunque. Concentrare la propria discussione sulle dimensioni degli effetti può facilitare una comprensione più profonda di quanto le relazioni o le differenze siano importanti in senso pratico, sebbene ciò debba ancora essere considerato nel contesto della materia di studio (ad es.r=.03ppp

Un'altra opzione, potenzialmente complementare, sarebbe quella di espandere la nota a piè di pagina. Sia le tue descrizioni del problema che i revisori hanno riscontrato, sia la risposta attualmente accettata in questa pagina, suggeriscono che non vengono fornite abbastanza informazioni per spiegare la tua motivazione per includere la nota a piè di pagina, né abbastanza per motivare il lettore a seguire la tua citazione al riferimento che usi per spiegarlo così tersamente. Una singola frase aggiuntiva, anche una breve citazione dal tuo riferimento, potrebbe fare molto per spiegare il valore della tua nota a piè di pagina e motivare i lettori a leggere più in profondità. Evidentemente, la tua nota in calce quanto prima motiva una semplice, negativa, sprezzante reazione al tuo tentativo minimizzato di interrompere la loro compiacenza per le loro assunzioni improprie. I lettori potrebbero essere un po 'meno pigri dal punto di vista intellettuale se gli dai da mangiare uno o due dei punti principali sui problemi che probabilmente trascurano abitualmente. Inoltre, per molti problemi particolari conp

p

ppp

Riferimenti

- Goodman, SN (1992). Un commento su replica, valori p ed evidenze. Statistica in medicina, 11 (7), 875–879.
- Goodman, SN (2001). Of P -values ​​and Bayes: una proposta modesta. Epidemiologia, 12 (3), 295–297. Estratto da http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Goodman, S. (2008). Una sporca dozzina: dodici idee sbagliate sul valore P. Seminari in ematologia, 45 (3), 135–140. Estratto da http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M. e Greenberg, DA (2007). Non replica di studi di associazione: "pseudo-fallimenti" da replicare? Genetics in Medicine, 9 (6), 325–331. Estratto da http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH e Lombardi, CM (2009). Crollo finale del quadro teorico decisionale Neyman-Pearson e nascita del neoFisherian. Annales Zoologici Fennici, 46 (5), 311–349. Estratto da http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Lew, MJ (2013). A P o no a P: Sulla natura probatoria dei valori di P e il loro posto nell'inferenza scientifica. arXiv: 1311.0081 [stat.ME]. Recuperato dahttp://arxiv.org/abs/1311.0081 .
- Nuzzo, R. (2014, 12 febbraio). Metodo scientifico: errori statistici. Nature News, 506 (7487). Estratto da http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .
- Rosenthal, R., Rosnow, RL e Rubin, DB (2000). Contrasti e dimensioni dell'effetto nella ricerca comportamentale: un approccio correlazionale. Cambridge University Press.
- Senn, S. (2001). Due applausi per i valori P? Journal of Epidemiology and Biostatistics, 6 (2), 193–204. Estratto da http://www.phil.vt.edu/dmayo/conference_2010/Senn%20Two%20Cheers%20Paper.pdf .
- Wagenmakers, EJ (2007). Una soluzione pratica ai problemi pervasivi divalori p . Psychonomic Bulletin & Review, 14 (5), 779–804. Estratto da http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .


3
Non tutte le critiche ai valori di P sono corrette o giustificate, nonostante la loro veemenza. Dovresti vedere questi due articoli per alcuni contrappunti ai commenti che citi: Two Cheers for P Values ​​(di Stephen Senn) phil.vt.edu/dmayo/conference_2010/… ; A P o Non A P (da me) arxiv.org/abs/1311.0081
Michael Lew

1
Punto eccellente! Grazie! Ho modificato leggermente per includere i tuoi contributi e potrei modificare un po 'di più una volta che li avrò capito abbastanza bene da incorporare le loro implicazioni nel resto di quello che ho detto. Questo è il motivo per cui amo Cross Validated ...
Nick Stauner il

2
Hai prove sperimentali a favore della tua affermazione che l'assunto di Edwards si estende ai valori p? Trovo me stesso estremamente scettico. Nel mio modo di analogia, ho visto un paio di articoli che dimostrano che anche i data scientist esperti hanno difficoltà a stimare un coefficiente di correlazione da un diagramma a dispersione. Sembra che tu stia chiedendo molto di più agli scienziati per avere un'idea di cosa significhi un valore ap in termini di probabilità. Il tuo argomento a favore delle funzioni di verosimiglianza è interessante ... tendono ad assomigliare un po 'a distribuzioni posteriori, no?
Russellpierce,

2
@rpierce Non ho prove sperimentali per la comprensione degli utenti dei metodi statistici. Direi, tuttavia, che almeno alcuni degli studi condotti per vedere se gli scienziati "comprendono" i valori p sono fatalmente imperfetti non includendo tra le opzioni una vera descrizione evidentemente significativa del valore p. La tua analogia non è vicina perché il fatto che i coefficienti di correlazione non sono facilmente stimabili non è lo stesso problema della stima della forza dell'evidenza da un valore p.
Michael Lew,

1
@rpierce La funzione di densità di probabilità posteriore da un precedente uniforme sarà proporzionale alla funzione di probabilità.
Michael Lew,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.