L'abbondanza di valori di P in assenza di un'ipotesi


28

Sono in epidemiologia. Non sono uno statistico ma cerco di eseguire le analisi da solo, anche se spesso incontro difficoltà. Ho fatto la mia prima analisi circa 2 anni fa. I valori di P sono stati inclusi ovunque nelle mie analisi (ho semplicemente fatto ciò che altri ricercatori stavano facendo) dalle tabelle descrittive alle analisi di regressione. A poco a poco, gli statistici che lavorano nel mio appartamento mi hanno convinto a saltare tutti (!) I valori p, tranne da dove ho veramente un'ipotesi.

Il problema è che i valori di p sono abbondanti nelle pubblicazioni di ricerca medica. È convenzionale includere valori p su troppe righe; dati descrittivi di mezzi, mediane o qualsiasi altra cosa di solito accompagnati da valori p (t-test degli studenti, Chi-quadrato ecc.).

Di recente ho inviato un articolo a un giornale e mi sono rifiutato (educatamente) di aggiungere valori p alla mia tabella descrittiva "di base". Il documento è stato infine respinto.

Per esemplificare, vedere la figura seguente; è la tabella descrittiva dell'ultimo articolo pubblicato in un rispettato giornale di medicina interna .: inserisci qui la descrizione dell'immagine

Gli statistici sono per lo più (se non sempre) coinvolti nella revisione di questi manoscritti. Quindi un laico come me si aspetta di non trovare alcun valore p in cui non vi siano ipotesi. Ma sono abbondanti, ma la ragione di ciò mi sfugge. Trovo difficile credere che sia ignoranza.

Mi rendo conto che questa è una domanda statistica limite. Ma sto cercando la logica alla base di questo fenomeno.


12
Un valore p senza ipotesi è intrinsecamente imperfetto. Cosa significa un valore p anche quando non hai un'ipotesi?
jameselmore,

3
Puoi forse dare alcuni esempi di persone che usano i valori di p senza alcuna ipotesi? Questo non è chiaro
ameba dice di reintegrare Monica il

4
@amoeba "" Il problema è che i valori di p sono ovunque in ogni rivista medica. È convenzionale includere valori p su ogni riga in cui sono descritti mezzi, mediane o proporzioni. "" Tendono ad essere semplici test Fisher o test chi-quadrato per le differenze, chiedendo se una riga di una tabella riassuntiva presenta una differenza significativa . L'ipotesi implicita è che ogni riga è importante.
Karl

2
Ho il sospetto che una forza importante sia che i valori di p danno un'impressione fuorviante di finalità a una determinata affermazione. Gli editori di queste riviste dovrebbero amarlo perché significa che possiedono informazioni che saranno utili per il prossimo futuro. La cultura concorrente di non finanziare o proporre studi di replica aiuta anche a minimizzare la presenza di controversi risultati contrastanti. Mi chiedo cosa accadrà se alla fine le persone realizzeranno che le informazioni in loro possesso consistono principalmente in "attività inutili" (termine di @ glen_b). Anche se ci sono cose utili mescolate in ... l'euristica ti dice di evitare.
Livido

1
[at] jameselmore: sto facendo la stessa domanda; non ha senso ma viene applicato ogni giorno. [at] ameba: ho scelto casualmente una delle riviste che ho letto, ho pubblicato l'ultimo articolo pubblicato e ho trovato questo: onlinelibrary.wiley.com/doi/10.1111/joim.12230/full [at] Karl: esattamente, grazie. @Momo: ho fatto uno sforzo ora per migliorare la formulazione della domanda. Penso che questa sia una domanda importante e apprezzo il tuo suggerimento. [at] Livido: grazie per questo commento. In effetti molti ricercatori potrebbero aver frainteso l'intero punto dei valori di p.
Adam Robinsson,

Risposte:


29

Chiaramente non ho bisogno di dirti che cos'è un p-value, o perché l'eccessiva dipendenza da loro è un problema; apparentemente capisci già abbastanza bene queste cose.

Con la pubblicazione, hai due pressioni concorrenti.

Il primo - e quello che dovresti spingere per ogni ragionevole occasione - è fare ciò che ha senso.

Il secondo, in definitiva, è la necessità di pubblicare effettivamente. C'è poco guadagno se nessuno vede i tuoi ottimi sforzi per riformare la terribile pratica.

Quindi invece di evitarlo del tutto:

  • fai il minimo di quell'attività inutile che riesci a cavartela e che viene ancora pubblicata

  • magari includi una menzione di questo recente articolo sui metodi della natura [1] se pensi che possa aiutare, o forse meglio uno o più degli altri riferimenti. Almeno dovrebbe aiutare a stabilire che esiste una certa opposizione al primato dei valori di p.

  • prendere in considerazione altre riviste, se un altro sarebbe adatto

È lo stesso in altre discipline?

Il problema dell'uso eccessivo dei valori di p si presenta in diverse discipline (questo può anche essere un problema quando ci sono alcune ipotesi), ma è molto meno comune in alcune rispetto ad altre. Alcune discipline hanno problemi con il p-value-itis e i problemi che le cause possono eventualmente portare a reazioni un po ' esagerate [2] (e in misura minore, [1], e almeno in alcuni luoghi, alcuni degli altri anche).

Penso che ci siano una serie di ragioni per questo, ma l'eccessiva dipendenza dai valori p sembra acquisire uno slancio proprio - c'è qualcosa nel dire "significativo" e nel rifiutare un nulla che la gente sembra trovare molto attraente; varie discipline (ad esempio vedi [3] [4] [5] [6] [7] [8] [9] [10] [11]) hanno (con vari gradi di successo) combattuto contro il problema dell'eccessiva dipendenza da valori-p (specialmente = 0,05) per molti anni e hanno dato molti tipi diversi di suggerimenti - non tutti i quali sono d'accordo, ma includo una varietà di punti di vista per dare un senso delle diverse cose che le persone hanno dovuto dire.α

Alcuni sostengono di concentrarsi sugli intervalli di confidenza, altri sostengono le dimensioni degli effetti, alcuni sostengono i metodi bayesiani, alcuni valori p più piccoli, altri semplicemente evitando di utilizzare i valori p in modi particolari e così via. Esistono invece diversi punti di vista su cosa fare, ma tra loro c'è un sacco di materiale sui problemi relativi all'affidamento ai valori di p, almeno nel modo in cui è abbastanza comune.

Vedi quei riferimenti per molti altri riferimenti a loro volta. Questo è solo un esempio: molte dozzine di riferimenti in più possono essere trovati. Alcuni autori spiegano perché pensano che i valori p siano prevalenti.

Alcuni di questi riferimenti possono essere utili se si desidera discutere il punto con un editor.

[1] Halsey LG, Curran-Everett D., Vowler SL e Drummond GB (2015),
"Il valore incostante di P genera risultati irreproducibili ",
Nature Methods 12 , 179–185 doi: 10.1038 / nmeth.3288
http: // www .nature.com / nmeth / rivista / V12 / N3 / abs / nmeth.3288.html

[2] David Trafimow, D. and Marks, M. (2015),
Editoriale,
Psicologia sociale di base e applicata , 37 : 1–2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080 / 01973533.2015.1012991

[3] Cohen, J. (1990),
Cose che ho imparato (finora),
American Psychologist , 45 (12), 1304–1312.

[4] Cohen, J. (1994),
The earth is round (p <.05),
American Psychologist , 49 (12), 997–1003.

[5] Valen E. Johnson (2013),
Standard riveduti per prove statistiche PNAS , vol. 110, n. 48, 19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf

[6] Kruschke JK (2010),
Cosa credere: metodi bayesiani per l'analisi dei dati,
Tendenze nelle scienze cognitive 14 (7), 293-300

[7] Ioannidis, J. (2005)
Perché i risultati della ricerca più pubblicati sono falsi,
PLoS Med. Agosto; 2 (8): e124.
doi: 10.1371 / journal.pmed.0020124

[8] Gelman, A. (2013), Valori e pratica statistica,
Epidemiologia vol. 24 , n. 1, gennaio 69-72

[9] Gelman, A. (2013),
"Il problema con i valori di p è come vengono utilizzati",
(Discussione su "In difesa dei valori di P", di Paul Murtaugh, per Ecologia ) non pubblicato
http: // citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf

[10] Nuzzo R. (2014),
Errori statistici: i valori di P, il "gold standard" della validità statistica, non sono così affidabili come molti scienziati ipotizzano,
Notizie e commenti,
Natura , Vol. 506 (13), 150-152

[11] Wagenmakers E, (2007)
Una soluzione pratica ai problemi pervasivi dei valori di p,
Psychonomic Bulletin & Review 14 (5), 779-804


7
+1. Ho letto questo documento sui metodi naturali [1] un'altra settimana e non sono sicuro che mi piaccia molto. Sostanzialmente sostengono che i valori di p possono essere molto variabili nei test a bassa potenza (vedi anche "danza dei valori di p" su youtube) - qualcosa che è ovviamente vero e che deve essere enfatizzato. Concludono che i valori di p sono "cattivi" (il titolo sembra piuttosto duro) e che le persone dovrebbero usare intervalli di confidenza che sono "buoni". Ma ovviamente anche gli intervalli di confidenza sono molto variabili a bassa potenza! La situazione sulla loro Figura 6 (a sinistra) non mi sembra molto migliore rispetto alla Figura 2.
ameba dice Reinstate Monica

2
@amoeba Non dirò che non sono d'accordo con te - ci sono molte cose con cui non sono d'accordo; tuttavia ci sono alcuni punti che potrebbero essere utili all'OP. In realtà, mi hai ricordato di un cambiamento che avevo intenzione di fare ma di cui ho dimenticato.
Glen_b

3
Sì, sono comunque d'accordo con la potenziale utilità, specialmente perché i Metodi della natura sono abbastanza rispettabili che le persone possono forse essere convinte dalla sua "autorità". Volevo solo avvertire l'OP di non dare tutto per scontato (la loro matematica è ok, sto parlando di conclusioni / interpretazioni qui).
ameba dice Ripristina Monica il

1
Anche interessante in questo contesto è Wilkinson e la Task Force sull'inferenza statistica, i metodi statistici nelle riviste di psicologia , la psicologa americana , vol. 54, n. 8, 594-604, 1999.
A. Donda,

Glen_b, ho pubblicato una domanda su una delle affermazioni più strane nel documento "Fickle P": stats.stackexchange.com/questions/250269 - apprezzerei molto la tua intuizione.
ameba dice di reintegrare Monica l'

10

Il test del valore di p-value, o più in generale, di ipotesi nulla (NHST), sta lentamente mantenendo sempre meno valore. Tanto che ha iniziato a essere bandito dalle riviste.

La maggior parte delle persone non capisce cosa ci dice veramente il valore p e perché ci dice questo, anche se è usato ovunque.

Il problema è che il valore p ci dice e non , che è il più informativo. Quest'ultimo implica l'uso dell'inferenza bayesiana e fornisce una base più solida per le conclusioni del controllo del modello.P ( H 0P(Data|H0)P(H0|Data)

La probabilità che il modello sia vero / significativo, dati i dati che abbiamo osservato, ha implicazioni più forti della probabilità che i nostri dati si modello .H 0H0H0


1
Vorrei aggiungere che P (H0 | dati) è significativo solo se H0 è significativo. Gli studi devono essere progettati e riportati in modo da escludere altre spiegazioni poco interessanti per i risultati (parzialità, abbandoni, differenze di base) oltre ogni possibilità. Inoltre, anche un RCT in cieco perfetto con una sostanziale dimensione dell'effetto ti dice solo che è stato misurato qualcosa di interessante. Capire se hai misurato ciò di cui ti preoccupi è un altro problema sorpreso che si trova spesso insieme all'ossessione del valore p.
Livido

8

È lo stesso in altre discipline? Qual è la ragione dell'ossessione per i valori di p?

Greenwald et al. (1996) tenta di affrontare questa domanda riguardante la psicologia. Per quanto riguarda l'applicazione dell'NHST alle differenze di base, presumibilmente gli editori decideranno (giustamente o erroneamente) che differenze di base "non significative" non possono spiegare i risultati, mentre quelle "significative" possono spiegare i risultati. Questo è simile a "Reason 1" offerto da Greenwald et al. :

Perché NHT rimane popolare?

"Perché il NHT non soccombe alle critiche? Per mancanza di una risposta migliore, è allettante attribuire credito alla persistenza del NHT per la mancanza di carattere degli scienziati comportamentali. La riluttanza degli scienziati comportamentali a rinunciare al piacere colpevole di ottenere possibili false ipotesi nullità può essere come riluttanza di un bevitore a rinunciare all'abitudine di un cocktail prima di cena ... "

Motivo I: HT fornisce un risultato dicotomico

"A causa della diffusa adozione della convenzione che p <.05 si traduce in" statisticamente significativo ", NHT può essere usato per fornire una risposta dicotomica (respingere o non rifiutare) a una domanda su un'ipotesi nulla. Ciò può essere spesso considerato come risposta utile per domande teoriche che sono espresse in termini di una direzione di previsione piuttosto che in termini di valore atteso di un parametro ... "

Motivo 2: p Valore come traduzione significativa in linguaggio comune per statistiche di test

"A differenza di tutto ciò che può essere percepito così direttamente dai valori t, F o r (con il loro df associato), la misura di sorpresa del valore ap viene semplicemente catturata dal numero di zeri consecutivi a destra del suo punto decimale ..."

Motivo 3: il valore p fornisce una misura di fiducia "nella replicabilità di rigetti dell'ipotesi nulla

"[U] a differenza di una dimensione di effetto (o di un intervallo di confidenza), il valore ap risultante da NHT è monotonicamente correlato a una stima della replicabilità di un risultato non nullo. In questa affermazione, si intende la replicabilità (che è definita più formalmente appena sotto) solo nel suo senso NHT di ripetere la conclusione rifiuto-non respinto e non nel suo senso di stima della prossimità tra stime di punti o intervalli. "

Dimensioni dell'effetto e valori di p: cosa dovrebbe essere segnalato e cosa dovrebbe essere replicato? ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS E DONALD GUTHRIE. Psicofisiologia, 33 (1996). 175-183. Cambridge University Press. Stampato negli Stati Uniti. Copyright O 1996 Società per la ricerca psicofisiologica


grazie per questi importanti commenti, che userò sicuramente per discutere con i recensori la prossima volta.
Adam Robinsson,

6

I valori P forniscono informazioni sulle differenze tra due gruppi di risultati ("trattamento" vs "controllo", "A" vs "B", ecc.) Che campionano da due popolazioni. La natura della differenza è formalizzata nell'affermazione delle ipotesi - ad es. "La media di A è maggiore della media di B". Valori p bassi suggeriscono che le differenze non sono dovute a variazioni casuali, mentre valori p elevati suggeriscono che le differenze nei due campioni non possono essere distinte dalle differenze che potrebbero derivare semplicemente dalla variazione casuale. Ciò che è "basso" o "alto" per un valore p è stato storicamente una questione di convenzioni e gusti piuttosto che stabilito da una logica rigorosa o dall'analisi delle prove.

Un prerequisito per l'utilizzo dei valori p è che i due gruppi di risultati siano realmente comparabili, vale a dire che l'unica fonte di differenza tra loro è correlata alla variabile che si sta valutando. Come esempio esagerato, immagina di avere statistiche su due malattie in due periodi di tempo - A: mortalità per colera tra gli uomini nelle carceri britanniche 1920-1930 e B: infezione da malaria in Nigeria 1960-1970. Il calcolo di un valore p da questi due set di dati sarebbe piuttosto assurdo. Ora, se A: mortalità per colera tra gli uomini nelle carceri britanniche che non sono curati vs. B: mortalità per colera tra gli uomini nelle carceri britanniche trattati con reidratazione, allora hai le basi per una solida ipotesi statistica.

Molto spesso ciò viene realizzato attraverso un'attenta progettazione dell'esperimento, un'attenta progettazione dell'indagine o un'attenta raccolta di dati storici, ecc. Inoltre, le differenze tra i due risultati devono essere formalizzate in dichiarazioni di ipotesi che coinvolgono statistiche campionarie - spesso mezzi campionari, ma potrebbero anche essere varianze campione o altre statistiche campione. È anche possibile creare dichiarazioni di ipotesi confrontando le due distribuzioni campione nel suo insieme, usando il dominio stocastico. Questi sono rari

La controversia sui valori p si concentra su "ciò che è veramente significativo" per la ricerca? È qui che arrivano le dimensioni dell'effetto. Fondamentalmente, la dimensione dell'effetto è l'entità della differenza tra i due gruppi. È possibile avere un elevato significato statistico (basso valore p -> non dovuto a variazioni casuali) ma anche dimensioni di effetto basse (poca differenza di grandezza). Quando le dimensioni dell'effetto sono molto grandi, consentire valori p piuttosto elevati può essere OK.

La maggior parte delle discipline si sta muovendo molto fortemente verso la segnalazione di dimensioni degli effetti e la riduzione o la riduzione al minimo del ruolo dei valori p. Incoraggiano anche statistiche più descrittive sulle distribuzioni campione. Alcuni approcci, tra cui le statistiche bayesiane, eliminano tutti i valori p.


La mia risposta è ridotta e semplificata. Ci sono molti articoli su questo argomento che puoi consultare per maggiori dettagli, giustificazioni e specifiche, tra cui:


@MerMeritology grazie per aver fornito questi importanti riferimenti. Li leggerò al più presto!
Adam Robinsson,

6

"Quindi un laico come me si aspetta di non trovare alcun valore p dove non vi siano ipotesi."

Implicitamente, il PO afferma che nella Tabella specifica che presenta, non ci sono ipotesi che accompagnano i valori p riportati. Giusto per eliminare questa piccola confusione, ci sono certamente ipotesi nulle, ma sono piuttosto ... menzionate indirettamente (per economia dello spazio, presumo).

Il "valore p" è una probabilità condizionale, diciamo, per un test "di coda destra",

p-valP(Tt(S)H0)=1FT|H0(t(S)H0)

dove è la statistica utilizzata, è la funzione di distribuzione cumulativa che caratterizza le probabilità relative a condizionata a vera, e è il valore di ottenuto dal uso del campione a portata di mano. Ovviamente, affinché il test sia significativo, deve essere il caso che la statistica sia tale e l'ipotesi nulla sia tale che la distribuzione di condizionata a sia vera, diversa (o parametrizzata in modo diverso, quando entrambi appartengono a la stessa famiglia) dalla sua distribuzione condizionata aTFT|H0(tH0)TH0t(S)TTH0TH0H0 non essere vero.

Quindi un valore p non può nemmeno essere calcolato se non vi è alcuna ipotesi nulla e ogni volta che vediamo un valore p riportato, da qualche parte si annida un'ipotesi nulla.

Nella tabella presentata nella domanda leggiamo

"Tutti i test per le differenze tra i terziari WHR ..."

L'ipotesi nulla è "nascosta" in questa frase: è "Nessuna differenza tra i terziari WHR", (qualunque sia un "terzile WΗR") espressa nella sua forma matematica che qui sembra essere una differenza di due magnitudini impostata uguale a zero.


Sono d'accordo che potrebbero esserci ipotesi dietro queste analisi. Tuttavia, coloro che elaborano linee guida per articoli di ricerca (ad esempio la dichiarazione STROBE) dovrebbero occuparsi dell'abbondanza dei valori di p. Penso che un valore di ap dovrebbe essere riservato all'ipotesi principale di un articolo (che raramente è più di uno). Tuttavia, non posso dire di non essere d'accordo con te =)
Adam Robinsson,

1
@AdamRobinsson Hmmm ... Non ne sono così sicuro. Un tale approccio "riservato" aumenterebbe (ancora di più) l'importanza che un test di valore p ha davvero per raggiungere una conclusione. Per me, è solo un altro risultato che deve essere combinato con molti altri aspetti, risultati, informazioni fuori campione, logica, ecc. D'altra parte, se i valori p sono sparsi ovunque, è più facile rendersi conto che non sono il criterio definito per giungere a conclusioni.
Alecos Papadopoulos,

Alecos ho letto qualcosa di diverso nella tabella, che si riferisce ai terziari WHR (cioè rapporto vita-fianchi) piuttosto che WRT, mentre i terziari sono valori che dividono una distribuzione in 3 parti nello stesso senso in cui i quartili sono valori che si dividono in 4 parti e i decili sono in dieci parti.
Glen_b

@Glen_b Grazie, è stato solo un errore di battitura da parte mia. Aggiustato.
Alecos Papadopoulos,

2
Vedi, per esempio, qui . Ma probabilmente non qui .
Glen_b

2

Mi sono incuriosito e ho letto il documento che OP ha dato come esempio: l' obesità addominale aumenta il rischio di frattura dell'anca . Non sono un ricercatore medico e normalmente non leggo articoli di medicina.

Sono stato sorpreso di vedere che l'UNICO posto in cui questo documento utilizza i valori è la didascalia della Tabella 1 che OP ha riprodotto nel corpo della domanda.p

Per me non sembra affatto una "abbondanza" di valori ! Sono abituato alle carte di neuroscienza, in cui diversi gruppi di soggetti (umani, topi, mosche, neuroni, campioni di tessuto, ecc.) Vengono trattati in modo diverso o misurati in condizioni diverse, e le carte di solito ruotano attorno alle differenze tra i gruppi. Queste differenze sono sempre valutate con valori , quindi un articolo può avere dozzine e dozzine di esse riportate nel testo principale. A volte, sembra davvero "un'abbondanza". Questo approccio è spesso (a volte giustamente e talvolta a torto) criticato per vari motivi, vedere una risposta di @Glen_b (+1) e ulteriori collegamenti.pp

Tuttavia, questo documento non fa nulla del genere e riporta solo i valori sostanzialmente nell'introduzione, quando vengono riportate caratteristiche diverse della coorte. Non capisco cosa ci facciano i valori , quindi sì, sono d'accordo che sono fuori posto. Tuttavia, non capisco nemmeno cosa ci faccia tutto questo tavolo! Trovo questa tabella piuttosto confusa (perché i terzili? Perché i terzili di WHR? Dov'è la variabile di interesse attuale, il tasso di frattura dell'anca?) E non sembra essere usato per alcuna analisi effettiva più avanti. L'intera tabella potrebbe essere espulsa dal testo senza troppe perdite, insieme ai valori .ppp

Dato che non vedo abbondanza di valori in questo documento, sono un po 'confuso dalla domanda.p

Sembra che la domanda si riferisca specificamente a tali tabelle descrittive. Se è così, questa è una pratica strana (ma per lo più innocua?) Nelle riviste mediche, sopravvissuta grazie alla tradizione.


PS A proposito, l'analisi principale di questo documento (che non comporta alcun valore ) mi sembra strana. L'obiettivo dello studio è "esaminare [...] la relazione tra la circonferenza della vita (WC), la circonferenza dell'anca (HC), il rapporto vita / fianchi (WHR) e il BMI alla frattura dell'anca incidente" , controllando al contempo varie possibili covariate . La dimensione del campione è enorme ( ). Quello che vorrei fare è mettere tutti i predittori in un modello di regressione con una penalità netta elastica, selezionare i parametri di regolarizzazione tramite validazione incrociata e quindi vedere quali predittori hanno coefficienti diversi da zero. O qualcosa di simile. Gli autori, invece, eseguono alcuni modelli ad hoc .n = 43000pn=43000


@amoeba Ho selezionato un articolo su rando; era l'ultimo articolo pubblicato sull'epidemiologia in quella rivista. Sono sicuro che se avessi cercato un po 'di più avrei potuto fornire un articolo con molti più valori p inutili. Come hai notato, c'è una p-valueite ma dalla tua e dalle altre risposte sopra e sotto, sembra che la comunità di ricerca stia affrontando questo problema.
Adam Robinsson,

@Adam, mi piace la tua domanda (+1) e la risposta di Glen_b (+1), ma se questo documento "selezionato casualmente" è rappresentativo, la maggior parte dei punti che Glen_b ha fatto e la maggior parte dei documenti a cui si è collegato, non si applicano o si riferiscono a la situazione nella ricerca medica di cui stavi chiedendo. Se non è rappresentativo, ovviamente non posso giudicare.
ameba dice Ripristina Monica il

In effetti ho ricevuto un immenso aiuto dalle tue risposte più volte. Ho emesso il giudizio in base alla mia comprensione di questo problema. Credo che tutte le risposte fornite siano utili e rispondano collettivamente alla domanda.
Adam Robinsson,

1

Il livello di peer review statistico non è alto come si potrebbe pensare dalla mia esperienza. Per tutti i documenti applicati su cui ho lavorato, tutti i commenti statistici provengono da esperti nel campo applicato e non da statistici. Per le riviste "top", sebbene ci sia un maggiore controllo, non è raro vedere risultati con gravi errori. Penso che ciò sia in parte dovuto al fatto che il campo delle statistiche può essere difficile (come si può vedere dai disaccordi tra molte delle sue grandi menti).

In secondo luogo, i lettori di un settore si aspettano di vedere le cose in un certo modo. In una recente esperienza, ho tracciato le probabilità da un modello, ma questo è stato abbattuto perché il mio collaboratore ha indovinato correttamente che i suoi lettori si sarebbero sentiti più a proprio agio con una trama di dati grezzi. In breve, molti lettori si aspettano di vedere i valori p accanto a una tabella di caratteristiche di base.

Non correlato alla tua domanda diretta, ma forse pertinente: i valori di p sono usati in quasi tutti i testi usando metodi di frequentista o di verosimiglianza. Gli autori hanno spesso contribuito in modo straordinario e hanno riflettuto a fondo sulle statistiche. Sebbene abusati dagli sperimentatori, hanno sicuramente un posto nelle statistiche.


grazie per questo commento Potrei portare la tua dichiarazione ancora di più; Penso che una percentuale incredibilmente ampia di risultati pubblicati contenga difetti statistici per vari motivi. Il mio supervisore dice spesso "il processo di revisione si basa sulla parola di un gentiluomo" Penso che sia abbastanza divertente.
Adam Robinsson,

1

Devo leggere spesso articoli di medicina e sento che il pendolo sembra oscillare da un estremo all'altro, piuttosto che rimanere nella zona centrale bilanciata.

L'approccio seguente sembra funzionare bene. Se il valore P è piccolo, è improbabile che la differenza osservata sia casuale. Dovremmo quindi esaminare l'entità della differenza e decidere se ha qualche significato pratico. Valori P molto piccoli si verificano con campioni di grandi dimensioni anche con differenze molto piccole che potrebbero non avere rilevanza pratica.

Non includere i valori P nella tabella dei dati di base può essere svantaggioso. Quindi, se in uno studio ci sono due gruppi con un'età media di 54 e 59 anni, voglio sapere se questa differenza può essere solo per caso. Se P è piccola, penso se questa differenza di 5 anni in 2 gruppi possa influenzare i risultati dello studio. Se P non è piccolo, non devo rispondere a questa domanda.

Il problema si verifica se si fa affidamento esclusivamente sul valore P e non si controlla l'entità della differenza (ad esempio, una semplice variazione percentuale). Alcuni ritengono che i valori di P debbano essere totalmente omessi in modo che rimanga e si veda solo la differenza. Una soluzione equilibrata sarebbe quella di enfatizzare la valutazione di entrambi e non di buttare via il valore P, che ha un significato limitato ma "significativo". È anche probabile che la dimensione dell'effetto sia strettamente correlata al valore P (proprio come gli intervalli di confidenza) ed è anche improbabile che sostituisca completamente i valori P dal panorama statistico. Come menzionato nel seguente articolo, ci sono molte virtù del test di ipotesi nulla a causa della quale rimane popolare:

ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS E DONALD GUTHRIE Dimensioni dell'effetto e valori p: cosa dovrebbe essere riportato e cosa dovrebbe essere replicato? Psicofisiologia, 33 (1996). 175-183.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.