Esistono documenti molto citati sulle statistiche che hanno effettivamente diffuso cattive pratiche statistiche?


13

Esistono ovviamente molti modi per abusare dei metodi statistici. Sei a conoscenza di esempi di cattive pratiche statistiche che sono state pubblicate per la prima volta come consigli espliciti (ad esempio "dovresti usare questo metodo per ..."), in rinomate riviste accademiche che poi sono state più volte citate?

Un esempio potrebbe essere la regola dei 10 eventi per predittore che viene spesso invocata per i modelli di regressione logistica o Cox PH ( LINK ).

Per essere chiari, non intendo documenti molto citati che hanno usato metodi con statistiche scadenti - questi sono banalmente comuni, sfortunatamente.


3
Sei alla ricerca di pubblicazioni originali su riviste statistiche ? Non c'è fine alle cattive pratiche statistiche che si propagano nelle riviste non statistiche (e quando un revisore sottolinea che qualcosa non va, gli autori di solito sostengono di lasciarlo in "legare il nostro documento alla ricerca precedente"). Tuttavia, può essere difficile capire qualsiasi pubblicazione originale per cose come la discretizzazione dei risultati continui, poiché le cattive idee emergono in modo indipendente.
Stephan Kolassa,

Voglio dire dichiarato come esplicito consiglio, ad esempio "fai questo ...". Ho modificato la domanda per chiarire. Grazie.
DL Dahly,

2
Spesso non vedi comandi espliciti "fai questo" nelle riviste di statistica. Lo vedi in alcune aree di applicazione, in particolare quando è scritto da persone che criticano alcune pratiche problematiche (dove a volte dicono "non fare A, fai B" - ma possono dare loro stessi dei consigli abbastanza dubbiosi. il genere di cose che stai cercando? Non leggo così tanto riviste in altre aree ma in passato ho visto alcuni articoli del genere. (Anche se potessi ricordare esattamente dove, però, non posso dire di sapere se qualcuno di loro era altamente citato) ... ctd
Glen_b -Reinstate Monica

1
ctd ... Pur non essendo un documento, posso indicare alcuni dubbi in un libro di testo che sembra essere popolare tra le persone che imparano a fare statistiche per la ricerca nell'area di applicazione.
Glen_b

2
Spiega cosa intendi per "falsità statistica". Questo non è un concetto standard nelle statistiche, che riguarda piuttosto la raccomandazione di procedure più o meno appropriate per un determinato compito. Sì, alcune procedure sono note per essere più povere di altre, ma è difficile interpretarle come una "menzogna". Per "menzogna" vorresti dire una sorta di interpretazione fuorviante, o un consiglio per usare una procedura inammissibile, o un consiglio basato su un errore matematico, o ... cosa?
whuber

Risposte:


4

RA Fisher, "La disposizione degli esperimenti sul campo". Diario del Ministero dell'Agricoltura della Gran Bretagna. 33: 503–513. 1926.

Secondo varie fonti su Internet, questo documento è l'origine dell'uso α=0.05 come soglia di significatività in un test statistico arbitrario.

... è conveniente tracciare la linea al livello al quale possiamo dire: "O c'è qualcosa nel trattamento, o si è verificata una coincidenza come non si verifica più di una volta in venti prove".

... Se uno su venti non sembra abbastanza alto, possiamo, se lo preferiamo, tracciare la linea a uno su cinquanta (il punto 2 per cento), o uno su cento (il punto 1 per cento). Personalmente, lo scrittore preferisce fissare un basso livello di significatività al 5% , e ignorare del tutto tutti i risultati che non riescono a raggiungere questo livello. Un fatto scientifico dovrebbe essere considerato come stabilito sperimentalmente solo se un esperimento correttamente progettato raramente non riesce a dare questo livello di significato.


3

In econometria, puoi certamente trovare alcuni esempi di metodi propagati di econometrici famosi (e altamente qualificati) pubblicati su riviste decenti. Non sono a conoscenza di un documento teorico, ma Lalonde (1986) è abbastanza famoso per indicare che i metodi attualmente utilizzati non funzionano bene: confronta per lo stesso set di dati metodi sperimentali con quelli osservativi e trova grandi differenze nel campo del trattamento (causale) valutazione . C'è una grande letteratura che ha propagato questi metodi non sperimentali che sono stati utilizzati all'epoca e che sono spesso ancora utilizzati oggi.

Successivamente, c'è stato (e penso che lo sia ancora) un dibattito sul fatto che la corrispondenza del punteggio di propensione sia una possibile soluzione (vedere ad esempio qui ).

Inoltre, vi sono molte controversie sulla stima delle variabili strumentali . Le conclusioni di documenti originali citati sono state contestate. Questo è probabilmente l'esempio più vicino alla tua domanda. Bound e Jaeger (1996 e successivi articoli) hanno messo in dubbio i risultati del noto articolo di Angrist e Krueger (1991; 2700 citazioni secondo Google Scholar) che fondamentalmente stabilirono il metodo della variabile strumentale nella letteratura di econometria applicata.

Vi è anche un ampio dibattito sull'adeguatezza delle stime della cosiddetta forma ridotta per stabilire la causalità, vedi ad esempio Imbens (2010) .

Un altro grande argomento riguarda ovviamente l'errore standard. Si può forse trovare un noto documento che propaga valori p. In econometria, l'errore standard per serie temporali più lunghe è stato spesso calcolato male (nella progettazione della differenza in differenza ) a causa di metodi esistenti errati, vedere qui . Non sono tuttavia a conoscenza di un documento molto citato originale che proponga questi metodi in quel contesto, ma sono sicuro che troverai alcuni esempi in questo settore.

fonti:

Angrist, Joshua D. e Alan B. Keueger. "La frequenza scolastica obbligatoria influisce sull'istruzione e sui guadagni?" The Quarterly Journal of Economics 106, n. 4 (1991): 979-1014.

Bertrand, Marianne, Esther Duflo e Sendhil Mullainathan. "Quanto dovremmo fidarci delle stime delle differenze nelle differenze?" La rivista trimestrale di economia 119, n. 1 (2004): 249-275.

Bound, John e David A. Jaeger. Sulla validità della stagione della nascita come strumento di equazione salariale: un commento su Angrist & Krueger "La frequenza scolastica obbligatoria influisce su Scho. No. w5835. National Bureau of Economic Research, 1996.

Dehejia, Rajeev. "Corrispondenza pratica del punteggio di propensione: una risposta a Smith e Todd." Journal of econometrics 125, n. 1-2 (2005): 355-364.

Imbens, Guido W. "Meglio tardi che niente: alcuni commenti su Deaton (2009) e Heckman e Urzua (2009)." Rivista di letteratura economica 48, n. 2 (2010): 399-423.

LaLonde, Robert J. "Valutazione delle valutazioni econometriche dei programmi di formazione con dati sperimentali". La rivista economica americana (1986): 604-620. *


1

Ci provo (anche se non così forte):

L'utilissimo [Cameron, AC, & Miller, DL (2015). Una guida per professionisti all'inferenza robusta del cluster. Journal of Human Resources, 50 (2), 317-372.] // già 1900 citazioni di studiosi di Google // fornisce consigli sul livello appropriato di raggruppamento di errori standard:

"Il consenso è di essere prudenti ed evitare distorsioni e di utilizzare cluster più grandi e più aggregati quando possibile, fino al punto in cui vi è la preoccupazione di avere troppi cluster".

Tuttavia, [Abadie, A., Athey, S., Imbens, GW e Wooldridge, J. (2017). Quando è necessario regolare gli errori standard per il clustering? (No. w24003). National Bureau of Economic Research.] Mostra che "vi è di fatto un danno nel raggruppamento a un livello troppo aggregato". Si prega di consultare la pagina 1 di seguito: https://economics.mit.edu/files/13927

Forse potresti anche essere in grado di presentare un caso più forte a partire dalle due idee sbagliate evidenziate da Abadie et al (2017).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.