Statistiche pubblicate su articoli accademici


44

Ho letto molti articoli accademici evolutivi / ecologici, a volte con lo scopo specifico di vedere come le statistiche vengono utilizzate "nel mondo reale" al di fuori del libro di testo. Normalmente prendo le statistiche negli articoli come vangelo e uso gli articoli per aiutarmi nel mio apprendimento statistico. Dopotutto, se un articolo ha impiegato anni per scrivere e ha subito una rigorosa revisione tra pari, allora le statistiche saranno sicuramente solide? Ma negli ultimi giorni, ho messo in dubbio la mia ipotesi e mi chiedevo con quale frequenza si sospetta l'analisi statistica pubblicata sui documenti accademici? In particolare, ci si potrebbe aspettare che quelli in settori come l'ecologia e l'evoluzione abbiano trascorso meno tempo a imparare le statistiche e più tempo a imparare i loro campi.

Con quale frequenza le persone trovano statistiche sospette nei documenti accademici?



18
I revisori sono spesso persone che non sanno molto di più sulle statistiche rispetto a quelle che scrivono il documento, quindi spesso può essere facile pubblicare statistiche scadenti.
Behacad,

9
Pubblicare un documento è il primo passo verso la sua accettazione da parte della comunità scientifica, non l'ultimo. La maggior parte degli articoli pubblicati presenterà difetti significativi in ​​alcune aree, l'uso delle statistiche non fa eccezione.
Dikran Marsupial,

3
Il tuo presupposto che i documenti "impiegano anni per scrivere" è lontano dal segno. La raccolta dei dati potrebbe richiedere molto tempo, ma l'analisi dei dati e la scrittura è in genere settimane anziché anni.
David Richerby,

2
Al giorno d'oggi è risaputo che le statistiche in molti articoli di psicologia e medicina sono per lo meno discutibili, chiaramente sbagliate o nemmeno abbastanza spesso. L'uso povero di valori p e NHST è un esempio evidente dei problemi, vedi questa nota .
Quarzo,

Risposte:


38

Dopotutto, se un articolo ha impiegato anni per scrivere e ha subito una rigorosa revisione tra pari, allora le statistiche saranno sicuramente solide?

La mia esperienza nella lettura di articoli che tentano di applicare le statistiche in una vasta gamma di settori (scienze politiche, economia, psicologia, medicina, biologia, finanza, scienze attuariali, contabilità, ottica, astronomia e molti, molti altri) è che la qualità di l'analisi statistica può essere ovunque nello spettro da eccellente e ben fatto a sciocchezze egregie. Ho visto una buona analisi in ciascuna delle aree che ho citato e un'analisi abbastanza scarsamente eseguita in quasi tutte.

Alcuni diari sono generalmente piuttosto buoni, e alcuni possono essere più simili a giocare a freccette con una benda sugli occhi - potresti ottenere molti di loro non troppo terribilmente lontano dal bersaglio, ma ce ne saranno alcuni nel muro, nel pavimento e nel soffitto. E forse il gatto.

Non ho intenzione di nominare alcun colpevole, ma dirò di aver visto carriere accademiche costruite su un uso errato delle statistiche (cioè dove gli stessi errori e incomprensioni sono stati ripetuti su carta dopo carta, per più di un decennio).

Quindi il mio consiglio è di fare attenzione al lettore ; non fidarti che gli editor e i peer review sappiano cosa stanno facendo. Con il passare del tempo potresti avere un'idea di quali autori si possano fare affidamento per non fare nulla di troppo scioccante e quali dovrebbero essere trattati in modo particolarmente cauto. Potresti avere la sensazione che alcune riviste in genere abbiano standard molto elevati per le loro statistiche.

Ma anche un autore in genere bravo può fare un errore, oppure arbitri ed editori non riescono a rilevare errori che normalmente potrebbero trovare; un diario in genere buono può pubblicare un ululato.

[A volte, vedrai persino documenti davvero pessimi vincere premi o riconoscimenti ... il che non dice molto per la qualità delle persone che giudicano il premio.]

Non vorrei indovinare quale sia la frazione di "cattive" statistiche che avrei potuto vedere (in varie forme e in ogni fase dalla definizione della domanda, alla progettazione dello studio, alla raccolta, alla gestione dei dati, ... fino a analisi e conclusioni), ma non è abbastanza piccolo per sentirmi a mio agio.

Potrei indicare esempi, ma non credo che questo sia il forum giusto per farlo. (Sarebbe bello se ci fosse un buon forum per quello, in realtà, ma di nuovo, probabilmente diventerebbe molto "politicizzato" abbastanza rapidamente, e presto non riuscirà a servire al suo scopo.)

Ho passato un po 'di tempo a gironzolare per PLOS ONE ... e ancora, non ho intenzione di indicare documenti specifici. Alcune cose che ho notato: sembra che una grande percentuale di articoli contenga statistiche, probabilmente più della metà ha test di ipotesi. I principali pericoli sembrano essere molti test, sia con un elevato come 0,05 su ciascuno (il che non è automaticamente un problema finché si capisce che un numero piuttosto limitato di effetti molto piccoli potrebbe apparire significativo per caso), o un incredibile basso livello di significatività individuale, che tenderà a dare bassa potenza. Ho anche visto un numero di casi in cui circa una mezza dozzina di test diversiαapparentemente furono applicati per risolvere esattamente la stessa domanda. Questo mi sembra un'idea generalmente negativa. Nel complesso, lo standard era piuttosto buono su alcune dozzine di articoli, ma in passato ho visto un articolo assolutamente terribile lì.

[Forse potrei indulgere in un solo esempio, indirettamente. Questa domanda fa di uno che fa qualcosa di piuttosto dubbio. È tutt'altro che la cosa peggiore che abbia mai visto.]

D'altra parte, vedo anche (anche più frequentemente) casi in cui le persone sono costrette a saltare attraverso tutti i tipi di cerchi inutili per ottenere la loro analisi accettata; le cose perfettamente ragionevoli da fare non sono accettate perché esiste un modo "giusto" per fare le cose secondo un revisore o un editore o un supervisore, o semplicemente nella cultura non detta di una determinata area.


2
" Caveat lector ", dato il numero crescente di riviste ad accesso aperto?
Scortchi - Ripristina Monica

1
@scortchi Ho deciso di evitare del tutto il problema semplicemente scrivendo in inglese. È un miglioramento.
Glen_b,

10
Senza nominare colpevoli specifici, penso che faculty.vassar.edu/abbaird/about/publications/pdfs/… meriti una menzione. Per dimostrare un punto sull'uso improprio delle statistiche nel loro campo, hanno usato un protocollo statistico ampiamente utilizzato per analizzare i risultati di una scansione fMRI di un salmone morto. Hanno trovato un'attività cerebrale "statisticamente significativa". statisticsdonewrong.com rende anche la lettura interessante.
James_pic,

1
@James_pic, ha dovuto unirsi al +1 per quel commento per il link delle statistiche sbagliato; la discussione sull'errore di base è particolarmente interessante.
Dan Bryant,

1
@KennyPeanuts: Nemmeno - sottolineando che al giorno d'oggi molti lettori non sono nemmeno indirettamente emptores .
Scortchi - Ripristina Monica

16

Rispetto la posizione di @ Glen_b sul modo giusto di rispondere qui (e certamente non intendo sminuirlo), ma non posso resistere del tutto a indicare un esempio particolarmente divertente vicino a casa mia. A rischio di politicizzare le cose e di fare un disservizio allo scopo di questa domanda, raccomando Wagenmakers, Wetzels, Boorsboom e Van Der Maas (2011) . L'ho citato in un post correlato su Cognitive Sciences beta SE (In che modo la scienza cognitiva spiega l'intenzionalità distante e la funzione cerebrale nei destinatari? ), Che considera un altro esempio di "un dardo che colpisce il gatto". L'articolo di Wagenmakers e dei colleghi commenta direttamente un vero "ululato": è stato pubblicato su JPSP (una delle più grandi riviste di psicologia) alcuni anni fa. Sostengono anche più in generale a favore dell'analisi bayesiana e che:

Al fine di convincere un pubblico scettico di un'affermazione controversa, è necessario condurre studi rigorosamente di conferma e analizzare i risultati con test statistici conservativi piuttosto che liberali.

Probabilmente non ho bisogno di dirti che questo non si è rivelato esattamente come una predicazione al coro. FWIW, c'è anche una confutazione (come sembra sempre esserci tra bayesiani e frequentisti; ( Bem, Utts, & Johnson, 2011 ) , ma ho la sensazione che non abbia dato scacco matto al dibattito .

La psicologia come comunità scientifica è stata recentemente sottoposta a un po 'di replicazione, in parte a causa di questo e altri difetti metodologici di alto profilo. Altri commenti qui puntano a casi simili a quello che una volta erano conosciuti come correlazioni voodoo in neuroscienze sociali (come sta che per il politicamente scorretto BTW la carta è stata retitled;? Vul, Harris, Winkielman, e Pashler 2009 ). Anche questo ha attirato la sua confutazione , che è possibile verificare per ulteriori dibattiti su pratiche altamente discutibili.

Per ulteriori edutainment a spese (più spersonalizzate) degli statistici (pseudo) che si comportano male, vedere la nostra domanda attualmente più ottava sul CV qui con un altro titolo (dichiaratamente) politicamente scorretto, " Quali sono i peccati statistici comuni? " @MikeLawrence attribuisce la sua ispirazione al suo studio parallelo di psicologia e statistica. È uno dei miei preferiti personali e le sue risposte sono molto utili per evitare da soli le innumerevoli insidie.


Dal punto di vista personale, ho trascorso gran parte dei miei ultimi cinque mesi qui soprattutto perché è incredibilmente difficile ottenere statistiche solide su determinate domande di analisi dei dati. Francamente, la revisione tra pari spesso non è affatto molto rigorosa, soprattutto in termini di controllo statistico della ricerca nelle scienze più giovani con domande complesse e molte complicazioni epistemiche. Quindi ho sentito la necessità di assumermi la responsabilità personale di lucidare i metodi nel mio lavoro.

Nel presentare la mia ricerca di tesi , ho avuto un'idea di quanto sia importante la responsabilità personale per il controllo statistico. Due psicologi eccezionali della mia alma mater hanno intercettato che stavo commettendo uno dei peccati più elementari nelle mie interpretazioni delle correlazioni. Ci avevo pensato sopra, e avevo già insegnato agli studenti a riguardo più volte, ma ci andavo ancora, e mi hanno chiamato (presto, grazie al cielo). Sono andato lì perché la ricerca che stavo rivedendo e replicando è andata lì! Così ho finito per aggiungere diverse sezioni alla mia tesi ciò ha richiamato quegli altri ricercatori ad assumere la causalità da studi longitudinali quasi sperimentali (a volte anche da correlazioni trasversali) e ad ignorare prematuramente spiegazioni alternative.

La mia tesi di laurea è stata accettata senza revisioni dal mio comitato, che includeva un altro psicometrico eccezionale e il futuro presidente di SPSP (che pubblica JPSP), ma per essere sincero ancora una volta, non mi sto vantando di dirlo. Da allora sono riuscito a colpire diverse tane di coniglio nei miei metodi nonostante abbia superato il processo di revisione esterno con revisori perfettamente validi. Ora sono caduto nel profondo delle statistiche nel tentativo di inserirle con metodi più appropriati per la modellazione predittiva dei rating di Likert come SEM, IRT e analisi non parametriche (vedi Test di regressione dopo riduzione dimensionale). Sto optando volontariamente per passare anni su un documento che probabilmente potrei semplicemente pubblicare così com'è invece ... Penso che mi resta da fare uno studio di simulazione prima di poter procedere coscienziosamente.

Eppure sottolineo che questo è facoltativo - forse anche troppo zelante e un lusso costoso tra la cultura editoriale o perire che spesso enfatizza la quantità rispetto alla qualità nei registri di lavoro della prima carriera. L'applicazione errata di modelli parametrici per dati continui a distribuzioni di dati ordinali che violano l'assunzione è fin troppo comune nel mio campo, così come l'interpretazione errata e la rappresentazione errata di significatività statistica (vedi Accomodamento di viste trincerate di valori p ). Potrei assolutamente cavarmela (a breve termine) ... e non è poi così difficile fare di meglio. Immagino di avere molti anni recenti di incredibili progressi nei programmi R da ringraziare per questo! Spero che i tempi stiano cambiando.


Riferimenti
· Bem, DJ, Utts, J., & Johnson, WO (2011). Gli psicologi devono cambiare il modo in cui analizzano i loro dati? Journal of Personality and Social Psychology, 101 (4), 716–719. Estratto da http://deanradin.com/evidence/Bem2011.pdf .
· Vul, E., Harris, C., Winkielman, P., e Pashler, H. (2009). Correlazioni sorprendentemente alte negli studi di risonanza magnetica di emozione, personalità e cognizione sociale. Perspectives on Psychological Science, 4 (3), 274–290. Estratto da http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .
·Wagenmakers, EJ, Wetzels, R., Borsboom, D., e Van der Maas, H. (2011). Perché gli psicologi devono cambiare il modo in cui analizzano i loro dati: il caso della psi. Journal of Personality and Social Psychology, 100 , 426–432. Estratto da http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf .



1
@Scortchi: grazie per il riferimento, e ameba: grazie per il contesto. Non vedo l'affermazione in Witzum et al. che McKay et al. si fanno beffe del loro astratto, ma sottolineano sicuramente molti altri gravi difetti. Roba buona. "Mentre i dati reali possono confondere le aspettative degli scienziati anche quando le loro ipotesi sono corrette, quelli i cui esperimenti sono sistematicamente distorti verso le loro aspettative sono meno spesso delusi (Rosenthal, 1976)." È uno dei ragazzi che mi ha chiamato per inferenza causale basata su quasi esperimenti ... uno psicologo davvero eccezionale. Anche Bem ha un po 'di credito.
Nick Stauner,

2
+1 Post eccellente. " quanto sia importante la responsabilità personale per il controllo statistico " - devo applaudire. In definitiva, è qui che deve risiedere la responsabilità, per quanto onerosa possa essere per qualcuno che sta già cercando di svolgere un lavoro in un'area di ricerca a cui desidera applicare le statistiche.
Glen_b,

1
@NickStauner: McKay et al. dire nel loro abstract che Witzum et al. rivendicare "il testo ebraico del Libro della Genesi codifica eventi che non si sono verificati fino a millenni dopo la stesura del testo". Leggera iperbole forse, dato che sono tra poco più di due millenni tra la scrittura della Torah e la data di nascita dell'ultimo rabbino dalla loro lista, ma un riassunto abbastanza giusto. (Suppongo che potresti anche vedere il documento Witztum et al. Come prova della recente paternità del Libro della Genesi, anche se per quanto ne so nessuno ha fatto.)
Scortchi - Reinstate Monica

1
Sì, credo di non riuscire a capire Witzum et al. abbastanza bene da riconoscere che stavano facendo questa affermazione. Per una volta suppongo di poter essere grato per la scrittura ottusa degli autori ... Si presenta come un po 'più interessante al valore nominale perché l'affermazione più importante è che lo schema non è dovuto al caso, non a ciò che si suppone sia dovuto a loro avviso. Avrebbe potuto invitare interpretazioni più interessanti come la tua se non fosse stato esagerato come McKay et al. dire che lo fa ... almeno fino a quando McKay et al. abbatterli per motivi metodologici, senza lasciare nulla da interpretare.
Nick Stauner,

5

Ricordo che all'università era stato chiesto da alcuni studenti dell'ultimo anno di scienze sociali in diverse occasioni (uno di loro aveva ottenuto un primo) come elaborare una media per il loro progetto che aveva avuto una manciata di punti dati. (Quindi non avevano problemi con l'uso del software, ma solo con il concetto di come fare i calcoli con una calcolatrice.)

Mi danno solo sguardi vuoti quando chiedo loro che tipo di media hanno voluto.

Eppure tutti hanno sentito il bisogno di mettere alcune statistiche nel loro rapporto, dato che era una cosa fatta - mi aspetto che abbiano letto tutti 101 articoli che avevano statistiche senza pensare a cosa significassero le statistiche.

È chiaro che il ricercatore che ha insegnato loro nel corso dei 3 anni non si è preoccupato della correttezza delle statistiche abbastanza da distillare qualsiasi comprensione negli studenti.

(All'epoca ero uno studente di scienze informatiche. Sto pubblicando questo come risposta in quanto è un po 'lungo per un commento.)


Gli studenti sono un intero altro barile di scimmie, l'IMO. Non darei la colpa immediatamente all'insegnante per la sua mancanza di comprensione senza ulteriori prove ... ma se è chiaro come dici che è colpa dell'insegnante, non sarei sorpreso.
Nick Stauner,

@NickStauner, incolpo l'insegnante per non essersi preoccupato abbastanza delle statistiche; se a loro importava ci sarebbe almeno una domanda su ogni documento d'esame che necessitava di una certa comprensione delle statistiche, a livello di "Come mentire con le statistiche". Non mi interessa se gli studenti di scienze sociali sanno come fare il calcolo, ma dovrebbero sapere come non essere fuorvianti.
Ian Ringrose,

Sono d'accordo sul fatto che dovrebbero saperlo, ma non si può garantire che faranno la domanda giusta!
Nick Stauner,

@NickStauner, Sì, ma ottieni solo ciò che è la misura, quindi non otterrai studenti che capiscono qualcosa sulle statistiche se non lo metti negli esami.
Ian Ringrose,

Ancora una volta, tendo a dare agli insegnanti meno credito per i risultati degli studenti. Molti studenti (okay, forse non "in abbondanza", ma alcuni) si preoccuperanno abbastanza da imparare per se stessi, e alcuni verranno in classe già conoscendo molto del materiale. Perdonami se interpreto il tuo commento troppo assolutamente però; Concordo sul fatto che spesso è un male necessario forzare la motivazione ad apprendere sugli studenti e che i test sono un modo migliore per imparare rispetto allo studio / alle lezioni regolari e ripetitivi.
Nick Stauner,

0

Come un elenco terribilmente incompleto, trovo le statistiche più frequentemente corrette in 1) documenti di fisica seguiti da 2) documenti statistici e il più miserabile in 3) documenti medici. Le ragioni di ciò sono chiare e hanno a che fare con la completezza dei requisiti imposti al modello prototipico in ciascun campo.

Negli articoli di fisica, le equazioni e le statistiche applicate devono prestare attenzione alle unità bilanciate e avere il verificarsi più frequente di relazioni causali e test sugli standard fisici.

In statistica, 1) le unità e la causalità sono talvolta ignorate, le ipotesi sono talvolta euristiche e il test fisico è troppo spesso ignorato, ma l'uguaglianza (o la disuguaglianza), cioè la logica è generalmente preservata lungo un percorso induttivo, dove quest'ultima non può correggere per ipotesi non fisiche.

In medicina, in genere le unità vengono ignorate, le equazioni e le assunzioni sono in genere euristiche, in genere non testate e spesso spurie.

Naturalmente, un campo come la meccanica statistica ha maggiori probabilità di avere ipotesi verificabili rispetto, diciamo, all'economia e che non riflettono sui talenti dei futuri autori in quei campi. È più correlato a quanto di ciò che viene fatto è effettivamente testabile e a quanti test sono stati fatti storicamente in ciascun campo.


-7

Qualsiasi documento che smentisce l'ipotesi nulla nulla utilizza statistiche inutili (la stragrande maggioranza di ciò che ho visto). Questo processo non può fornire informazioni non già fornite dalla dimensione dell'effetto. Inoltre non ci dice nulla sul fatto che un risultato significativo sia effettivamente dovuto alla causa teorizzata dal ricercatore. Ciò richiede un'attenta analisi dei dati per l'evidenza di confusione. Molto spesso, se presente, la più forte di queste prove viene persino gettata via come "valori anomali".

Non ho molta familiarità con l'evoluzione / ecologia, ma nel caso della ricerca medica e medica definirei il livello di comprensione statistica "gravemente confuso" e "un ostacolo al progresso scientifico". Le persone dovrebbero smentire qualcosa previsto dalla loro teoria, non il contrario (zero differenza / effetto).

Sono stati scritti migliaia di articoli su questo argomento. Cerca polemiche ibride NHST.

Modifica: E intendo che il test di significatività dell'ipotesi nulla nulla ha un valore scientifico massimo pari a zero. Questa persona colpisce l'unghia sulla testa:

http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/

Inoltre: Paul Meehl. 1967. Test di teoria in psicologia e fisica: un paradosso metodologico

Modifica 3:

Se qualcuno ha argomenti a favore dell'utilità di Strawman NHST che non richiedono il pensiero "respingi l'ipotesi che il tasso di riscaldamento sia lo stesso, ma NON prenderlo per implicare che il tasso di riscaldamento è lo stesso" è un razionale dichiarazione, accolgo con favore i tuoi commenti.

Modifica 4:

Che cosa intendeva Fisher con la seguente citazione? Suggerisce che pensava "Se il modello / teoria A è incompatibile con i dati, possiamo dire che A è falso, ma nulla sul fatto che A non sia vero"?

"è certo che l'interesse dei test statistici per i lavoratori scientifici dipende interamente dal loro uso nel respingere le ipotesi che sono quindi ritenute incompatibili con le osservazioni".

...

Pertanto, si aggiungerebbe molto alla chiarezza con cui vengono considerati i test di significatività se si comprendesse in generale che i test di significatività, se usati con precisione, sono in grado di respingere o invalidare ipotesi, nella misura in cui queste sono contraddette dai dati ; ma che non sono mai in grado di stabilirli come certamente veri

Karl Pearson e RA Fisher su test statistici: uno scambio del 1935 dalla natura

Supponeva che la gente avrebbe solo tentato di invalidare ipotesi plausibili piuttosto che uomini di paglia? O mi sbaglio?


7
"Questo processo non può fornire informazioni non già fornite dalla dimensione dell'effetto." ciò non è corretto, il valore p fornisce alcune informazioni su quanto insolita questa dimensione dell'effetto sarebbe sotto l'ipotesi nulla, quindi fornisce un elemento di calibrazione della dimensione dell'effetto. Non fraintendetemi, penso che i fattori di Bayes siano più utili, ma è iperbole dire che il valore p è una statistica senza valore.
Dikran Marsupial,

3
"Trovo che valga la pena menzionare tutti gli schemi che io (e altri) noti" questo è esattamente il problema che sorge nella discussione sul clima nei blog, l'occhio umano è molto bravo a vedere schemi nei dati che si rivelano solo rumore, e il rapporto segnale-rumore nel dibattito non serve affatto a non avere qualche ostacolo per far passare un'idea prima di pubblicarla su un blog! È un'area della scienza in cui le statistiche sono spesso molto scarse.
Dikran Marsupial,

2
Livido, ti ho dato un esempio concreto di come eseguire un NHST appropriato con un "uomo di paglia" H0 sarebbe utile per la discussione di un argomento scientifico. Ciò fornisce un chiaro controesempio che dimostra che la tua visione è errata: i NHST, per quanto imperfetti, svolgono comunque una funzione utile nella scienza e nella statistica. Ora, se riesci a dimostrare che il mio controesempio è corretto, ciò potrebbe andare in qualche modo verso la risoluzione del problema.
Dikran Marsupial

2
@Livid, NHST svolge una funzione scientificamente e statisticamente, non socialmente desiderabile (anche se non in modo ottimale) e non pone un ostacolo arbitrario, l'ostacolo è generalmente definito dalla sua opposizione a H1 e non comporta l'impegno "affermando il conseguente errori "poiché rifiutare H0 non implica che H1 sia vero. Quindi no, non è preciso.
Dikran Marsupial,

3
Ti manca il punto. Se hai un ostacolo basso, allora nessuno è sorpreso se riesci a negoziarlo con successo. Tuttavia, se hai un ostacolo basso, ma non riesci ancora a superarlo, questo ti dice qualcosa. Come ho ripetutamente detto, rifiutare il nulla non implica che H1 sia vero, quindi rifiutare H0 non significa che c'è sicuramente una pausa, non ti dice perché c'è stata una pausa. Ma se non riesci a superare l'ostacolo di poter respingere H0, suggerisce che forse non ci sono prove sufficienti per affermare H1 come fatto (che è ciò che sta accadendo in questo caso).
Dikran Marsupial,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.