Come infastidire un arbitro statistico?


102

Di recente ho posto una domanda relativa ai principi generali relativi alla revisione delle statistiche nei documenti . Quello che vorrei ora chiederti è ciò che ti irrita particolarmente quando rivedi un articolo, ovvero qual è il modo migliore per infastidire davvero un arbitro statistico!

Un esempio per risposta, per favore.


Si estende alle giustificazioni ricevute in risposta a una revisione iniziale (in cui sono state chieste revisioni minori e / o importanti)?
chl

@chl: Sì, perché no.
csgillespie,

Risposte:


69

Ciò che mi irrita particolarmente personalmente sono le persone che hanno chiaramente usato pacchetti scritti dall'utente per software statistico ma non li citano correttamente, o per nulla, non dando così credito agli autori. Ciò è particolarmente importante quando gli autori sono nel mondo accademico e il loro lavoro dipende da pubblicazioni editoriali che vengono citate . (Forse dovrei aggiungere che, nel mio campo, molti dei colpevoli non sono statistici.)


2
+1 per me. Questo mi frustra, specialmente quando citano la cosa sbagliata e ho fornito i dettagli rilevanti su come citare i pacchetti
Gavin Simpson,

3
Domanda: quando citi un pacchetto, citi la vignetta (se ne esiste una) o il pacchetto stesso?
Brandon Bertelsen,

7
@Brandon: se l'autore del pacchetto si prende abbastanza cura di guidarti, allora hanno dato la risposta in un modulo che verrà raccolto per citazione ("pacchetto_un_saggio")
Ben Bolker

2
A parte avere un documento di riferimento, che non è così facile da fare, il modo più semplice per ottenere citazioni è quello di lasciare almeno un errore nel tuo documento. Quindi è possibile pubblicare una correzione, che cita il documento originale. Lascia un errore nella correzione e puoi pubblicare una correzione che fa riferimento alla correzione originale e al documento originale (ho visto una cosa come uno studente di primo anno). Il numero di citazioni cresce come un processo O (N ^ 2), dove N è il numero di correzioni.
Mark L. Stone,

67

Dio mio, mi vengono in mente tante cose ...

  • Regressione graduale

  • Dividere i dati continui in gruppi

  • Fornire valori p ma nessuna misura della dimensione dell'effetto

  • Descrivere i dati usando la media e la deviazione standard senza indicare se i dati erano più o meno simmetrici e unimodali

  • Cifre senza didascalie chiare (quelle barre di errore sono errori standard della media o deviazioni standard all'interno dei gruppi o cosa?)


5
Sono un po 'curioso del proiettile di regressione graduale. Cosa rende così grave la regressione graduale? È il problema del dragaggio dei dati e dei confronti multipli?
Christopher Aden,

17
Il problema è che le procedure graduali invalidano completamente tutte le ipotesi e i presupposti per le statistiche inferenziali "normali" basate su valori p, che sono quindi fortemente distorte (verso il basso per essere "più significative"). Quindi, in sostanza, la risposta è "sì", con l'avvertenza che si potrebbe in linea di principio correggere per tutti questi confronti multipli (ma che non ho mai visto fatto). Credo fermamente che questa sia la ragione più importante per cui vedo così tante ricerche in psicologia che non possono essere replicate, il che a sua volta porta a un enorme spreco di risorse.
Stephan Kolassa,

10
@Stephan: sono d'accordo, stepwise è una cattiva idea. Tuttavia, mentre potrebbero non aver ancora raggiunto metodi psicologici, ma ci sono una varietà di procedure di selezione che si adattano alla distorsione legata al sovra-adattamento regolando le stime e gli errori standard. Questo non è in genere considerato un problema di confronti multipli. Sono conosciuti come metodi di contrazione. Vedi la mia risposta in questo thread < stats.stackexchange.com/questions/499/… > e nelle "Strategie di modellizzazione della regressione" di Harrell o Tibshirani sul lazo.
Brett,

5
@ Brett Magill: +1 su questo, e sì, so di restringimento e lazo. Ora tutto ciò di cui ho bisogno è un modo per convincere gli psicologi che hanno un senso ... ma le persone hanno combattuto con un successo molto limitato solo per convincere gli psicologi a riferire intervalli di confidenza, quindi non sono troppo ottimista sull'accettazione del restringimento degli psicologi nel prossimo venti anni.
Stephan Kolassa,

10
Direi anche che in psicologia l'ottimizzazione della previsione non è in genere l'obiettivo teorico, tuttavia la regressione graduale riguarda la massimizzazione della previsione, sebbene in modo quasi parsimonioso. Pertanto, esiste in genere una disconnessione tra procedura e domanda.
Jeromy Anglim,


32

Il codice utilizzato per generare i risultati simulati non viene fornito. Dopo aver richiesto il codice, richiede ulteriore lavoro per farlo funzionare su un set di dati generato dall'arbitro.


2
Ed è mal formattato, non commentato e usa nomi di variabili e funzioni indecifrabili. Ooooh sì
naught101,

30

Plagio (teorico o metodologico). La mia prima recensione è stata davvero per un articolo che illustrava molti copia / incolla senza referenze da un documento metodologico ben consolidato pubblicato 10 anni fa.

Ho appena trovato un paio di articoli interessanti su questo argomento: autore e plagio nella scienza .

Allo stesso modo, trovo la falsificazione (di dati o risultati) il peggiore di tutti.


20
Mi ricorda che nei miei primi giorni come un arbitro ho trascorso gran lunga troppo tempo la revisione di un documento statistico che era stata rifiutata da quel particolare rivista, ma gli altri arbitri e ho suggerito un'applicazione più utile per il metodo, e ho anche abbozzato una dimostrazione algebrica per sostituire uno studio di simulazione insoddisfacente nel manoscritto. Da allora gli autori hanno ottenuto due articoli pubblicati. Non ne sono infastidito , ma un riconoscimento come "ringraziamo gli arbitri di una versione precedente del documento per commenti utili" sarebbe stato di buone maniere.
onestop

1
@onestop Sì, posso immaginare quanto possa essere deludente una situazione del genere ...
chl

24
Qualche settimana fa mi è stato dato un documento da rivedere e ho scoperto che l'85% era stato pubblicato su un altro giornale ... dagli stessi autori. Anche questo è ancora considerato plagio. Negli ultimi anni ho regolarmente inviato pezzi di documenti - in particolare abstract, introduzioni e conclusioni - ai motori di ricerca Web prima di fare qualsiasi recensione. Voglio essere sicuro che il lavoro sia originale prima di investire qualsiasi momento nella lettura.
whuber

7
+1, @whuber. Come redattore di una rivista metodologica, ho spesso questo duro lavoro di capire se il contributo (di regola, di autori affermati; gli autori più giovani non sono ancora arrivati ​​a quella traiettoria) merita la pubblicazione dato che tutti loro ' ho fatto è che hanno riassemblato in modo diverso gli otto blocchi Lego che comprendevano i loro precedenti cinque documenti. Questo mi porta a mettere in discussione il contributo dei precedenti cinquanta articoli pubblicati anche da questi autori :(.
StasK

26

Quando chiediamo agli autori

  1. piccolo commento su un'idea che abbiamo (in questo senso, questo non è considerato come un motivo per rifiutare il documento ma solo per essere sicuri che gli autori siano in grado di discutere un altro POV), oppure
  2. risultati poco chiari o contraddittori,

e che gli autori non rispondono realmente nel caso (1) o che i risultati incriminati in (2) scompaiano dalla SM.


7
I risultati misteriosamente a scomparsa dovrebbero essere il rifiuto automatico, imo. Sono sicuro che questo accade molto "dietro le quinte" (cioè prima che il documento sia presentato), ma questa è una chiara prova della "raccolta delle ciliegie" che i normali lettori del giornale non avrebbero mai saputo.
Macro

3
Un altro motivo per un sistema di revisione tra pari aperto.
segna il

24

Valori p confusi e dimensione dell'effetto (cioè affermare che il mio effetto è grande perché ho un valore p davvero minuscolo).

Leggermente diverso dalla risposta di Stephan di escludere le dimensioni degli effetti ma dare valori p. Sono d'accordo che dovresti dare entrambi (e speriamo di capire la differenza!)


23

Non comprese le dimensioni degli effetti.

In tutta la ricerca (devo riconoscere il mio professore di scuola di specializzazione preferito per quella linea).

Dare un numero assurdo di cifre (i maschi hanno guadagnato 3.102019 sterline in più rispetto alle femmine)

Non includere i numeri di pagina (che rende più difficile la revisione)

Figure e tabelle in numero errato

(come già accennato - graduale e categorizzare le variabili continue)


7
(+1) scoppiò a ridere "Dando un numero assurdo di cifre (i maschi guadagnavano 3.102019 sterline in più rispetto alle femmine)".
Macro

19

Quando non spiegano sufficientemente la loro analisi e / o includono semplici errori che rendono difficile capire cosa è stato effettivamente fatto. Ciò include spesso gettare un sacco di gergo, a titolo di spiegazione, che è più ambiguo di quanto l'autore sembri realizzare e potrebbe anche essere utilizzato in modo improprio.


D'accordo: lottare per capire cosa significano gli autori prima ancora di valutare il contenuto scientifico è davvero fastidioso.
Laurent,

5
Sono d'accordo, ma lo trovo ancora più fastidioso quando un revisore ti dice di omettere (o passare a materiali suppl.) Quali sono, realisticamente, dettagli molto cruciali sull'analisi. Questo problema fa sì che molti articoli di scienze / scienze sociali che eseguono anche le analisi leggermente più complicate siano piuttosto criptici in questo senso.
Macro,

16

L'uso del linguaggio causale per descrivere le associazioni nei dati osservazionali quando le variabili omesse sono quasi certamente una preoccupazione seria.


3
Concordo sul fatto che i ricercatori dovrebbero comprendere le responsabilità dei progetti di ricerca osservazionale, in particolare quelli relativi alle variabili omesse, ma non credo che evitare il linguaggio causale faccia questo. Vedi il lavoro di Hubert Blalock, in particolare il suo libro Inferenze causali nella ricerca non sperimentale per un argomento più dettagliato in difesa dell'uso del linguaggio causale.
Andy W,

3
(+1) Questo potrebbe essere il mio più grande problema con la ricerca epidemiologica.
Macro,

14

Quando gli autori usano un test statistico che conoscono (nel mio campo, di solito un test t o un ANOVA), all'infinito, indipendentemente dal fatto che sia appropriato. Di recente ho recensito un documento in cui gli autori volevano confrontare una dozzina di diversi gruppi di trattamento, quindi avevano fatto un test t a due campioni per ogni possibile coppia di trattamenti ...


13

Trovare nuove parole per i concetti esistenti o, viceversa, usare i termini esistenti per indicare qualcosa di diverso.

Alcuni dei differenziali terminologici esistenti si sono a lungo stabiliti in letteratura: dati longitudinali in biostatistica rispetto a dati panel in econometria; indicatori di causa ed effetto in sociologia contro indicatori formativi e riflessivi in ​​psicologia; ecc. Li odio ancora, ma almeno puoi trovare alcune migliaia di riferimenti a ciascuno di essi nelle rispettive letterature. La più recente è tutta questa parte del lavoro sui grafici aciclici diretti nella letteratura causale: la maggior parte, se non tutta, della teoria dell'identificazione e della stima in queste è stata sviluppata dagli econometrici negli anni '50 sotto il nome di equazioni simultanee.

Il termine che ha un significato doppio, se non triplo, è "robusto" e i diversi significati sono spesso contraddittori. Gli errori standard "robusti" non sono robusti per i valori anomali lontani; inoltre, non sono robusti per contrastare qualsiasi cosa tranne la presunta deviazione dal modello, e spesso hanno prestazioni mediocri del campione. Gli errori standard di White non sono robusti rispetto alle correlazioni seriali o di cluster; errori standard "robusti" in SEM non sono robusti rispetto alle errate specifiche della struttura del modello (percorsi o variabili omessi). Proprio come con l'idea del test di significatività dell'ipotesi nulla, è impossibile puntare il dito su chiunque e dire: "Sei responsabile di confondere diverse generazioni di ricercatori per aver coniato questo concetto che non si distingue davvero per il suo nome".


1
Devo ammettere di aver commesso entrambi i peccati: descrivo i miei dati come "aventi una struttura gerarchica: quando ho livelli con relazioni 1: n (molte misurazioni di ciascun campione, più campioni per paziente). Ad un certo punto ho piuttosto accidentalmente appreso che questo si chiama struttura di dati "raggruppata" - ora uso entrambi i termini, ma non so ancora come avrei potuto trovare quel termine, ho cercato disperatamente la parola per descrivere la mia struttura di dati ... Al contrario: Uso tecniche che si chiamano classificazione soft nel telerilevamento e il mio campo (chemiometria) lo usa con un significato abbastanza diverso
cbeleites

2
Va tutto bene: puoi aggiungere "multilivello" al tuo elenco di modi per fare riferimento anche a questa struttura. "Raggruppato" di solito significa che le osservazioni sono note per essere correlate, ma a nessuno interessa modellare tale correlazione poiché non è di interesse primario e elimina metodi che sono robusti a tale correlazione, come GEE. Quello che hai è qualcosa come misure ripetute MANOVA. C'è un pacchetto Stata gllammche considera i tuoi dati come dati multilivello / gerarchici, ma la maggior parte degli altri pacchetti penserebbe a misurazioni multiple come variabili / colonne e campioni come osservazioni / righe.
Attacco

Grazie per l'input. Bene, oggigiorno ovviamente chiederei qui come si chiama ... Misurazioni non esattamente ripetute: di solito misuro un numero (ordine di grandezza: tra 10 ^ 2 e 10 ^ 4) punti diversi sul campione per produce mappe in falsi colori di diversi componenti e ogni misura ha già 10 ^ 2 - 10 ^ 3 osservazioni (lunghezze d'onda nello spettro). All'interno di ciascun campione, molti spettri sono altamente correlati, ma non tutti: i campioni non sono omogenei. ...
cbeleites l'

1
... La tua descrizione di "cluster" suona molto simile a ciò che facciamo. Ma mi occupo di dividere i campioni per la convalida, dire che non ho idea delle dimensioni effettive del campione (oltre al fatto che è almeno il numero di campioni reali coinvolti), e talvolta mostra che avere tutte quelle misurazioni di ciascuno campione aiuta effettivamente per l'addestramento del modello.
cbeleites,

1
Dati interessanti e stimolanti, di sicuro.
Attacco

11

Zero considerazione dei dati mancanti.

Molte applicazioni pratiche utilizzano dati per i quali ci sono almeno alcuni valori mancanti. Questo è certamente vero in epidemiologia. I dati mancanti presentano problemi per molti metodi statistici, inclusi i modelli lineari. I dati mancanti con modelli lineari vengono spesso gestiti attraverso la cancellazione di casi con dati mancanti su qualsiasi covariata. Questo è un problema, a meno che non manchino i dati partendo dal presupposto che i dati manchino completamente a caso (MCAR).

Forse 10 anni fa, era ragionevole pubblicare risultati da modelli lineari senza ulteriori considerazioni sulla mancanza. Sono certamente colpevole di questo. Tuttavia, sono ora disponibili ottimi consigli su come gestire i dati mancanti con imputazione multipla, così come pacchetti / modelli / librerie / etc statistici. facilitare analisi più appropriate in base a presupposti più ragionevoli quando è presente la mancanza.


1
Nello spirito di cercare di educare, puoi elaboorare di più? Cosa consideri considerazione: ammetterlo esiste o aggiustare l'analisi statistica di fronte (ad es. Imputazione). Quando applicabile, provo a includere supp. tabelle di valori mancanti da parte delle covariate di interesse, ma non è chiaro se ciò sia sufficiente per "essere considerato" da questa osservazione.
Andy W,

8

Segnalare effetti che "si avvicinano alla significatività (p <.10 per esempio) e poi scrivono su di loro come se avessero raggiunto la significatività a un livello più rigoroso e accettabile. Esecuzione di più modelli di equazioni strutturali che non erano nidificati e quindi scrivendo su di essi come se erano nidificati. Prendendo una strategia analitica ben consolidata e presentandola come se nessuno avesse mai pensato di usarla prima. Forse questo si qualifica come plagio all'ennesima potenza.


Forse sta reinventando la ruota piuttosto che il plagio?
Gerrit,

7

Raccomando i seguenti due articoli:

Martin Bland:
come sconvolgere l'arbitro statistico
Si basa su una serie di discorsi tenuti da Martin Bland, insieme ai dati di altri arbitri statistici ("un campione di convenienza con un basso tasso di risposta"). Termina con un elenco di 11 punti di "[h] ow per evitare di turbare l'arbitro statistico".

Stian Lydersen:
Revisione statistica: commenti frequentemente forniti
Questo recente documento (pubblicato 2014/2015) elenca i 14 commenti di revisione più comuni dell'autore, basati su ca. 200 revisioni statistiche di articoli scientifici (in una particolare rivista). Ogni commento ha una breve spiegazione del problema e istruzioni su come eseguire correttamente l'analisi / reportistica. L'elenco dei riferimenti citati è un tesoro di documenti interessanti.


L'elenco di Lydersen è interessante. Penso di non essere d'accordo con una manciata di loro. . .
StatStudent

6

Sono più (e più frequentemente) infastidito dalla "convalida" che mira all'errore di generalizzazione dei modelli predittivi in ​​cui i dati del test non sono indipendenti (ad esempio, in genere misurazioni multiple per paziente nei dati, fuori dal bagagliaio o misurazioni di suddivisione incrociata non pazienti ).

Ancora più fastidiosi, documenti che danno risultati così errati di convalida incrociata oltre a un set di test indipendente che dimostra la distorsione eccessiva della convalida incrociata, ma non una sola parola che il design della convalida incrociata è sbagliato ...

(Sarei perfettamente felice se gli stessi dati venissero presentati "sappiamo che la validazione incrociata dovrebbe dividere i pazienti, ma siamo bloccati con un software che non lo consente. Pertanto abbiamo testato un set di pazienti test davvero indipendenti ")

(Sono anche consapevole che il bootstrap = ricampionamento con sostituzione di solito funziona meglio della validazione incrociata = ricampionamento senza sostituzione. Tuttavia, abbiamo trovato dati spettroscopici (spettri simulati e configurazione del modello leggermente artificiale ma spettri reali) che ripetevano / ripetevano la convalida incrociata e l'output -of-bootstrap aveva un'incertezza generale simile; oob aveva più preconcetti ma meno varianza - per il rewieving, sto osservando questo da una prospettiva molto pragmatica: la convalida incrociata ripetuta rispetto al bootstrap non importa fino a quando molti documenti non dividere in base al paziente né riferire / discutere / menzionare l'incertezza casuale a causa delle dimensioni limitate del campione del test.)

Oltre ad avere torto, questo ha anche l'effetto collaterale che le persone che fanno una corretta validazione spesso devono difendere il motivo per cui i loro risultati sono molto peggio di tutti gli altri risultati in letteratura.


1
Non sono sicuro di voler dire questo, ma il bootstrap "ottimismo" è uno dei modi migliori per convalidare un modello e i suoi campioni di addestramento e test si sovrappongono.
Frank Harrell,

1
@Frank Harrell - Non sono sicuro di aver capito il tuo punto. Forse la difficoltà è che nella chemiometria la "convalida di un modello predittivo" riguarda sempre le prestazioni per casi nuovi, sconosciuti e futuri (nell'esempio: diagnosticare nuovi pazienti). Uso continuamente la convalida incrociata ripetuta / ripetuta fuori dal bootstrap. Puoi spiegare quale sia il vantaggio di avere la sovrapposizione di set di test e treni rispetto alla divisione a livello del paziente (suppongo che "sovrapposizione" significhi dividere le misurazioni in modo che le misurazioni di test e allenamento possano appartenere allo stesso paziente, parlando sempre di un modello tra pazienti )?
cbeleites,

... E sì, è possibile rispondere ad alcuni punti della validazione del modello senza dividere i dati in casi di test e training distinti (ad es. Stabilità del modello in termini di coefficienti). Ma già modello di stabilità. le previsioni dovrebbero essere misurate utilizzando pazienti sconosciuti (sconosciuto: mai apparso nel processo di costruzione del modello, incluso qualsiasi pre-elaborazione basata sui dati che tenga conto di tutti i casi). In realtà, per una quantificazione tradizionale in chemiometria, la validazione ha fasi che richiedono ulteriori dati di test misurati indipendentemente: ...
cbeleites

la buona pratica richiede che l'operatore sconosciuto dello strumento e una caratteristica importante del metodo analitico da determinare durante la convalida sia la frequenza con cui è necessario ripetere la calibrazione (o mostrare che la deriva strumentale è trascurabile per un certo periodo di tempo) - alcuni gli autori parlano addirittura di un "abuso del ricampionamento" che porta a trascurare tali set di test indipendenti .
cbeleites,

1
Se l'apparecchiatura o le tecniche di misurazione necessitano di validazione, è necessario un campione indipendente. Ma un errore comune è utilizzare la suddivisione dei dati per provare a simulare una convalida indipendente. Questa è ancora una convalida interna. Per rispondere alla domanda @cbeleites sopra, i campioni sovrapposti coinvolti nel bootstrap comporteranno stime più accurate delle prestazioni future del modello rispetto alla suddivisione dei dati nella maggior parte dei set di dati che è probabile che si verifichino. La suddivisione dei dati ha avuto prestazioni scarse con n = 17.000 e 0,30 di frequenza degli eventi.
Frank Harrell,

4

Utilizzo dei "dati" in un senso singolare. I dati SONO, non lo sono mai.


2
Probabilmente uno statistico francese;)
Stéphane Laurent,

9
Devo ammettere che di recente ho abbandonato l'uso plurimo dei dati dopo essermi aggrappato ad esso per circa 10 anni. In genere scrivo per un pubblico non tecnico ed ero preoccupato di venire pomposo. L'APA sembra avere ancora una lettura rigorosa sul suo essere plurale, ma è interessante notare che la Royal Statistical Society non sembra avere una visione particolare. C'è una discussione interessante qui: guardian.co.uk/news/datablog/2010/jul/16/data-plural-singular
Chris Beeley,

1
Non sono un madrelingua inglese, ma il problema con opere come "dati" o "media" al singolare è che l'inglese ha preso in prestito molte altre parole latine e devi usare tutte le parole latine in modo coerente. Qual è il prossimo? "Curricula is" o "Curriculum are"? "I medium sono"? Se "data" è latino, allora è plurale. Fine della discussione. Non importa quante persone vogliono ignorarlo ora.
Fran,

Forse lo sto abusando, ma passo dal singolare al plurar a seconda del contesto.
StatStudent,

L'uso della parola "dato" è basso e solo in una specie di circostanze specializzate, penso che la parola "dati" sia qualcosa di equivalente alla parola "branco" in relazione a "lupi". È certamente accettabile usare la parola "branco" nel singolare per descrivere più lupi. La parola "Dati" si sta gradualmente trasformando nel suo nome collettivo ...
Robert de Graaf,

3

Per me è di gran lunga attribuire la causa senza un'adeguata analisi causale o quando c'è un'inferenza causale impropria.

Lo odio anche quando non si presta attenzione a come sono stati gestiti i dati mancanti. Vedo anche molti articoli in cui gli autori eseguono semplicemente un'analisi completa dei casi e non menzionano se i risultati sono generalizzabili alla popolazione con valori mancanti o come la popolazione con valori mancanti possa essere sistematicamente diversa dalla popolazione con dati completi.


3

Utilizzo di Microsoft Word anziché di LaTeX.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.