Stiamo esagerando l'importanza dell'assunzione e della valutazione dei modelli in un'epoca in cui le analisi sono spesso condotte dai laici


54

In conclusione , più imparo sulle statistiche, meno mi fido degli articoli pubblicati nel mio campo; Credo semplicemente che i ricercatori non stiano facendo abbastanza bene le loro statistiche.


Sono un laico, per così dire. Sono addestrato in biologia ma non ho un'istruzione formale in statistica o matematica. Mi piace R e spesso faccio uno sforzo per leggere (e capire ...) alcune delle basi teoriche dei metodi che applico quando faccio ricerca. Non mi sorprenderebbe se la maggior parte delle persone che eseguono analisi oggi non fossero formalmente formate. Ho pubblicato circa 20 articoli originali, alcuni dei quali sono stati accettati da riviste e statistici noti e sono stati spesso coinvolti nel processo di revisione. Le mie analisi includono comunemente analisi di sopravvivenza, regressione lineare, regressione logistica, modelli misti. Mai un revisore ha mai fatto domande su ipotesi, adattamento o valutazione del modello.

Pertanto, non mi sono mai preoccupato troppo delle ipotesi, dell'adattamento e della valutazione del modello. Comincio con un'ipotesi, eseguo la regressione e quindi presento i risultati. In alcuni casi ho fatto uno sforzo per valutare queste cose, ma ho sempre finito per " bene non ha soddisfatto tutti i presupposti, ma mi fido dei risultati (" conoscenza della materia ") e sono plausibili, quindi va bene " e quando consultavano uno statistico sembravano sempre d'accordo.

Ora, ho parlato con altri statistici e non statistici (chimici, medici e biologi) che eseguono analisi da soli; sembra che le persone non si preoccupino troppo di tutte queste ipotesi e valutazioni formali. Ma qui sul CV, c'è un'abbondanza di persone che chiedono di residui, adattamento del modello, modi per valutarlo, autovalori, vettori e l'elenco continua. Lasciami in questo modo, quando lme4 mette in guardia su autovalori di grandi dimensioni, dubito davvero che molti dei suoi utenti si preoccupino di affrontare ...

Vale la pena lo sforzo extra? Non è probabile che la maggior parte dei risultati pubblicati non rispetti questi presupposti e forse non li abbia nemmeno valutati? Questo è probabilmente un problema crescente dal momento che i database crescono ogni giorno di più e c'è l'idea che più grandi sono i dati, meno importanti sono le ipotesi e le valutazioni.

Potrei sbagliarmi assolutamente, ma è così che l'ho percepito.

Aggiornamento: citazione presa in prestito da StasK (sotto): http://www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509


34
Vorrei avvertire che la chiusura di questa domanda chiuderebbe un'importante opportunità per discutere di come le statistiche vengono utilizzate nel "mondo reale" al di fuori delle mura dei dipartimenti statistici. Il CV è uno dei pochi luoghi in cui le persone e gli statistici del mondo reale si mescolano e mantenere aperte le linee di comunicazione è un'importante, seppur implicita, missione del CV. Concordo pienamente con coloro che hanno fatto clic su "chiudi" in quanto questo è molto ampio e basato sull'opinione, ma spero ancora di poter continuare questa discussione.
StasK

5
Il fatto che molte pubblicazioni, ricercatori o persino interi campi trattino casualmente ipotesi suggerirebbe che non ci importa abbastanza ? È anche possibile che statistici e libri di testo esagerino la loro importanza, ma sicuramente la loro popolarità con i praticanti e i laici non può essere il parametro di riferimento. Anche le convenzioni e gli standard variano abbastanza. Alcune discipline probabilmente si preoccupano più di questo rispetto a quelle a cui hai familiarità, mentre altre probabilmente non si preoccupano molto di cose che sono molto importanti per essere pubblicate nel tuo campo.
Gala

6
Avendo scritto un articolo di commento che criticava uno studio precedente in cui le ipotesi del modello erano state consapevolmente violate e tratte conclusioni errate, il mio consiglio sarebbe di non fidarmi dei risultati e di essere un autocritico come potete.
Dikran Marsupial

7
"Più grandi sono i dati, meno importanti sono le ipotesi" non vale per la crescita effettiva dei dati: ciò che cresce è (principalmente) il numero di osservazioni / caratteristiche dipendenti a causa dei progressi nelle tecniche di misurazione. Al contrario, il numero di osservazioni indipendenti, ovvero unità sperimentali o probandi, rimane piuttosto limitato (poiché le popolazioni non aumentano con i progressi tecnici ...). Sfortunatamente, solo l'indipendenza dai big data rende le ipotesi (spesso, non sempre) meno importanti a causa del teorema del limite centrale.
Horst Grünbusch,

3
@AdamRobinsson: mi piace la conclusione che hai pubblicato in cima alla tua domanda. Sarei ancora più diffidente nei confronti degli articoli pubblicati da Big Names o sostenuti da Big Institutions. Quando vedo articoli con 15 autori senior di rispettate istituzioni su riviste di alto livello, il mio primo istinto è in realtà quello di esaminare ancora di più il documento , perché esiste la possibilità che il documento sia stato pubblicato a causa del peso degli autori / istituzioni. Questi documenti tendono anche ad avere implicazioni politiche di vasta portata. Un esempio del mio campo (sanità pubblica) sono stati la circoncisione maschile per gli studi sulla prevenzione dell'HIV (cont.)
Marchese de Carabas,

Risposte:


26

Sono addestrato come statistico e non come biologo o medico. Ma faccio un bel po 'di ricerca medica (lavorando con biologi e medici), come parte della mia ricerca ho imparato parecchio sul trattamento di diverse malattie. Questo significa che se un amico mi chiede di una malattia che ho studiato, posso semplicemente scrivere loro una prescrizione per un farmaco che so essere comunemente usato per quella particolare malattia? Se dovessi farlo (non lo faccio), in molti casi probabilmente funzionerebbe bene (dal momento che un medico avrebbe semplicemente prescritto lo stesso farmaco), ma c'è sempre la possibilità che abbiano un'allergia / droga interazione / altro che un dottore avrebbe saputo chiedere, che non lo faccio e finisco per causare molti più danni che benefici.

Se stai facendo statistiche senza capire cosa stai assumendo e cosa potrebbe andare storto (o consultando uno statistico lungo il percorso che cercherà queste cose) allora stai praticando una cattiva pratica statistica. Il più delle volte probabilmente andrà bene, ma per quanto riguarda l'occasione in cui un presupposto importante non regge, ma semplicemente lo ignori?

Lavoro con alcuni medici ragionevolmente statisticamente competenti e possono fare gran parte della loro analisi, ma continueranno a superarmi. Spesso confermo che hanno fatto la cosa giusta e che possono fare da soli l'analisi (e sono generalmente grati per la conferma) ma a volte faranno qualcosa di più complesso e quando menzionerò un approccio migliore di solito girano l'analisi a me o alla mia squadra, o almeno portami a ricoprire un ruolo più attivo.

Quindi la mia risposta alla domanda sul titolo è "No", non stiamo esagerando, piuttosto dovremmo sottolineare alcune cose in modo che i laici abbiano maggiori probabilità di controllare almeno due volte le loro procedure / risultati con uno statistico.

modificare

Questa è un'aggiunta basata sul commento di Adam qui sotto (sarà un po 'lungo per un altro commento).

Adam, grazie per il tuo commento. La risposta breve è "Non lo so". Penso che si stiano compiendo progressi nel miglioramento della qualità statistica degli articoli, ma le cose si sono mosse così rapidamente in molti modi diversi che ci vorrà un po 'per recuperare e garantire la qualità. Parte della soluzione si concentra sulle ipotesi e sulle conseguenze delle violazioni nei corsi di introduzione alle statistiche. Questo è più probabile che accada quando le lezioni sono tenute da statistici, ma deve avvenire in tutte le classi.

Alcune riviste stanno andando meglio, ma mi piacerebbe vedere un revisore statistico specifico diventare lo standard. Qualche anno fa c'era un articolo (scusate non ho il riferimento a portata di mano, ma era in JAMA o nel New England Journal of Medicine) che mostrava una maggiore probabilità di essere pubblicato (anche se non così grande come dovrebbe essere) in JAMA o NEJM se un biostatista o epidemiologo era uno dei coautori.

Un articolo interessante che è uscito di recente è: http://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412 che discute alcune delle stesse questioni.


1
Condivido il tuo punto di vista, Greg. Penso che la tua risposta lo spieghi chiaramente. Ma vorrei citarti: "[...] allora stai praticando una cattiva pratica statistica. Il più delle volte probabilmente andrà bene". C'è il rischio che questa nozione si stia diffondendo e che la gente la percepisca come: chiunque può fare statistiche (il che è fondamentalmente sbagliato se me lo chiedi, chi ha graffiato un po 'sulla superficie delle statistiche). La domanda è: come possiamo garantire che i lavori pubblicati siano corretti in termini di analisi statistiche? Perché sto iniziando a chiedermi quanti articoli là fuori non hanno superato uno statistico ...
Adam Robinsson,

@AdamRobinsson, vedi la mia aggiunta sopra.
Greg Snow,

Questo è piuttosto elitario. Concordo sul fatto che gli statistici professionisti potrebbero avere la competenza e l'esperienza per eseguire analisi statistiche, ma anche gli scienziati. In effetti, alcuni dei rivoluzionari progressi nelle statistiche provengono da scienziati (ad es. Fisher e Jeffrey) che praticano le statistiche nel mondo reale.
Innisfree

È anche strano dire che ciò che costituisce la negligenza statistica dipende non solo dalla qualità o dai risultati dell'analisi statistica, ma da giudizi soggettivi sulla forza della comprensione delle statistiche da parte degli analisti
innisfree

@innisfree, non capisco i tuoi commenti o forse non capisci la mia posizione. Non sto dicendo che solo gli statistici possono guardare alle ipotesi / condizioni, solo che sono importanti e che uno statistico dovrebbe essere consultato, oppure lo / gli scienziato / i non statistico / i dovrebbero imparare abbastanza statistiche per comprendere i problemi oltre a collegare semplicemente i numeri in una formula / computer. Personalmente vorrei vedere molti più minori di statistica con esperienza in medicina / ingegneria / ecc., Ma anche con una migliore comprensione delle idee alla base della statistica.
Greg Snow,

28

Bene, sì, le ipotesi contano: se non avessero alcuna importanza, non avremmo bisogno di farle, vero?

La domanda è quanto contano - questo varia tra procedure e ipotesi e cosa vuoi rivendicare sui tuoi risultati (e anche quanto il tuo pubblico sia tollerante di approssimazione - anche inesattezza - in tali affermazioni).

Quindi, per un esempio di una situazione in cui un'ipotesi è critica, considerare l'assunzione di normalità in un test F di varianze; anche cambiamenti abbastanza modesti nella distribuzione possono avere effetti abbastanza drammatici sulle proprietà (livello di significatività e potenza effettivi) della procedura. Se affermi di eseguire un test al 5% quando è veramente al 28%, in un certo senso stai facendo lo stesso tipo di mentire su come hai condotto i tuoi esperimenti. Se non ritieni che tali problemi statistici siano importanti, fai argomenti che non si basano su di essi. D'altra parte, se si desidera utilizzare le informazioni statistiche come supporto, non è possibile rappresentare in modo errato tale supporto.

In altri casi, ipotesi particolari possono essere molto meno critiche. Se stai valutando il coefficiente in una regressione lineare e non ti importa se è statisticamente significativo e non ti importa dell'efficienza, beh, non importa se il presupposto di omoschedasticità vale. Ma se vuoi dire che è statisticamente significativo o mostrare un intervallo di confidenza, sì, sicuramente può importare.


2
Il commento di Glen_b è ben detto dall'approccio statistico all'importanza delle ipotesi. Penso che si dovrebbe anche notare, tuttavia, che ai fini della pubblicazione il controllo delle assunzioni è una questione leggermente diversa, in quanto la violazione delle assunzioni è importante tanto quanto i revisori o i redattori si preoccupano che contino. Ad esempio, la teoria alla base del risultato può fornire un merito sufficiente per la pubblicazione, dove la speranza è che i problemi con l'analisi possano essere risolti da pubblicazioni future.
Jonathan Lisic,

Bene, anche se i revisori controllano il documento, la responsabilità degli errori spetta agli autori. Quindi, nel tuo interesse, dovresti controllare ...
kjetil b halvorsen

In effetti, la responsabilità rimarrà sempre con gli autori. Ma gli autori in questi giorni sono spinti da driver inappropriati che li costringono a pubblicare, non di rado in modo rapido e sporco. Vorrei vedere un processo di revisione che impone la dichiarazione delle ipotesi statistiche più critiche. Oggi è scontato che l'analisi statistica sia stata fatta secondo il libro, ma che ritengo sia più rara del comune.
Adam Robinsson,

3
+1 "La domanda è quanto contano" - questo in sostanza mette l'intero problema in breve. Vorrei anche sottolineare che nell'applicazione dell'inferenza statistica non è possibile sapere fino a che punto vengono violate determinate ipotesi statistiche. Possiamo solo postulare o considerare la solidità dell'analisi se lo sono, e questo è un aspetto essenziale ma spesso trascurato della pratica statistica.
heropup,

18

Mentre Glen_b ha dato un'ottima risposta , vorrei aggiungere un paio di centesimi a questo.

Una considerazione è se vuoi davvero ottenere la verità scientifica, che richiederebbe di lucidare i tuoi risultati e di capire tutti i dettagli di se il tuo approccio è difendibile, rispetto alla pubblicazione nel "ah bene, nessuno controlla questi autovalori nella mia disciplina comunque" modalità. In altre parole, dovresti chiedere alla tua coscienza professionale interiore se stai facendo il miglior lavoro possibile. Fare riferimento alla bassa alfabetizzazione statistica e alle pratiche statistiche lassiste nella propria disciplina non fornisce argomentazioni convincenti. I revisori sono spesso nella migliore delle ipotesi utili se provengono dalla stessa disciplina con questi standard lassisti, anche se alcuni dei migliori punti vendita hanno iniziative esplicite per portare l'esperienza statistica nel processo di revisione.

Ma anche se sei una cinica affettatrice "pubblica o perisci", l'altra considerazione è sostanzialmente la sicurezza della tua reputazione di ricerca. Se il tuo modello fallisce e non lo conosci, ti stai esponendo al rischio di confutazione da parte di coloro che possono venire e guidare l'ascia nelle fessure dei controlli del modello con strumenti più raffinati. Certo, la possibilità di ciò sembra essere bassa, poiché la comunità scientifica, nonostante i requisiti filosofici nominali di reputazione e riproducibilità, raramente si impegna nei tentativi di riprodurre la ricerca di qualcun altro. (Sono stato coinvolto nella stesura di un paio di articoli che fondamentalmente sono iniziati con "oh mio Dio, lo hanno fatto davveroscriverlo? ", e ha offerto una critica e un perfezionamento di un approccio semi-statistico pubblicato peer-review.) Tuttavia, i fallimenti delle analisi statistiche, quando esposti , spesso producono grandi e spiacevoli schizzi.


Mi piace molto l'approccio: la coscienza professionale, e credo che molti abbiano coscienza ma non ne abbiano ancora la conoscenza; ma non impedirà loro di presentare i dati come se fossero stati perfettamente eseguiti. È interessante notare che stai citando un articolo di Science che lo spiega chiaramente: "[...] diffusa preoccupazione che gli errori di base nell'analisi dei dati stanno contribuendo all'irriproducibilità di molti risultati di ricerca pubblicati". Penso davvero che noi laici, non rispettiamo realmente la difficoltà dei metodi statistici e dovrebbe essere un problema crescente come spiegato sopra.
Adam Robinsson,

1
Nel mio attuale gruppo di ricerca, siamo 15 ricercatori (biologi, medici) e alcuni di loro sono davvero produttivi, ma nessuno è uno statistico. Tutti i ricercatori junior hanno installato R o SAS ed eseguono calcoli, in genere dopo aver letto solo pochi tutorial su Internet. Questo è un grosso problema.
Adam Robinsson,

4
@AdamRobinsson, il solo fatto che tu l'abbia chiesto su questo CV parla della tua coscienza. Un altro link Nature da consultare, su una questione in qualche modo correlata di calcolo scientifico (e mancanza di implementazione delle migliori pratiche nello sviluppo del software da parte degli scienziati che scrivono il proprio codice C / Fortran / R) - nature.com/news/2010 /101013/full/467775a.html .
StasK,

3
poiché la comunità scientifica, nonostante i requisiti filosofici nominali di reputazione e riproducibilità, raramente si impegna nei tentativi di riprodurre le ricerche di qualcun altro, sono pienamente d'accordo con tale affermazione.
Robert Smith,

software-carpentry.org , "un'organizzazione volontaria senza scopo di lucro dedicata all'insegnamento delle capacità informatiche di base ai ricercatori", ha esercitazioni e seminari piuttosto validi.
denis

9

La natura delle violazioni delle ipotesi può essere un indizio importante per la ricerca futura. Ad esempio, una violazione dell'assunzione dei rischi proporzionali nell'analisi della sopravvivenza di Cox potrebbe essere dovuta a una variabile con un grande effetto sulla sopravvivenza a breve termine ma uno scarso effetto a lungo termine. Questo è il tipo di informazioni inattese ma potenzialmente importanti che puoi ottenere esaminando la validità delle tue assunzioni in un test statistico.

Quindi fai te stesso, non solo la letteratura, un potenziale disservizio se non collaudi le ipotesi sottostanti. Poiché le riviste di alta qualità iniziano a richiedere una revisione statistica più sofisticata, ti ritroverai più frequentemente invitato a farlo. Non vuoi essere in una posizione in cui un test richiesto da un revisore statistico mina ciò che pensavi fosse stato un punto chiave del tuo documento.


Concordo pienamente con questo commento, che ritengo molto importante.
Adam Robinsson,

9

Risponderò da una prospettiva intermedia. Non sono uno statistico, sono un chimico. Tuttavia, ho trascorso gli ultimi 10 anni specializzandomi in chemiometria = analisi dei dati statistici per i dati relativi alla chimica.

Credo semplicemente che i ricercatori non stiano facendo abbastanza bene le loro statistiche.

Questo è probabilmente il caso.


Versione breve:

Ora sui presupposti. IMHO la situazione qui è troppo eterogenea per affrontarla in una sola dichiarazione. Comprendere sia esattamente ciò di cui il presupposto è necessario sia in che modo è probabile che venga violato dall'applicazione è necessario al fine di giudicare se la violazione è innocua o critica. E ciò richiede sia le statistiche che la conoscenza dell'applicazione.
Come praticante di fronte a ipotesi irraggiungibili, tuttavia, ho bisogno anche di qualcos'altro: mi piacerebbe avere una "seconda linea di difesa" che, ad esempio, mi permetta di giudicare se la violazione sta effettivamente causando problemi o se è innocua.


Versione lunga:

  • Da un punto di vista pratico, alcune ipotesi tipiche non vengono quasi mai soddisfatte. A volte posso formulare ipotesi sensate sui dati, ma spesso i problemi diventano così complicati da un punto di vista statistico che le soluzioni non sono ancora note. Ormai credo che fare scienza significhi che colpirai i confini di ciò che è noto probabilmente non solo nella tua particolare disciplina, ma forse anche in altre discipline (qui: statistiche applicate).

  • Esistono altre situazioni in cui alcune violazioni sono generalmente innocue, ad esempio la normalità multivariata con uguale covarianza per l'ADL è necessaria per dimostrare che l'ADL è ottimale, ma è risaputo che la proiezione segue un'euristica che spesso si comporta bene anche se il l'ipotesi non è soddisfatta. E quali violazioni possono causare problemi: è anche noto che code pesanti nella distribuzione portano in pratica problemi con LDA.
    Sfortunatamente, tale conoscenza raramente arriva alla scrittura condensata di un documento, quindi il lettore non ha idea se gli autori abbiano deciso per il loro modello dopo aver ben considerato le proprietà dell'applicazione e del modello o se hanno appena scelto qualsiasi modello si sono imbattuti.

  • A volte si evolvono approcci pratici (euristica) che risultano molto utili da un punto di vista pratico, anche se ci vogliono decenni prima che le loro proprietà statistiche siano comprese (sto pensando al PLS).

  • L'altra cosa che accade (e dovrebbe succedere di più) è che le possibili conseguenze della violazione possono essere monitorate (misurate), il che consente di decidere se c'è un problema o meno. Per l'applicazione, forse non mi interessa se il mio modello è ottimale purché sia ​​sufficientemente buono.
    In chemiometria, ci concentriamo piuttosto sulla previsione. E questo offre una via di fuga molto piacevole nel caso in cui le ipotesi di modellazione non siano soddisfatte: indipendentemente da tali ipotesi, possiamo misurare se il modello funziona bene. Dal punto di vista di un praticante, direi che ti è permesso fare tutto ciò che ti piace durante la tua modellazione se lo fai e riferisci un'onesta validazione all'avanguardia.
    Per l'analisi chemiometrica dei dati spettroscopici, siamo in un punto in cui non guardiamo i residui perché sappiamo che i modelli si adattano facilmente. Consideriamo invece le prestazioni dei dati di test (e forse la differenza rispetto alle prestazioni di previsione dei dati di training).

  • Vi sono altre situazioni in cui, sebbene non siamo in grado di prevedere con precisione quanta violazione di quale presupposto porta a una scomposizione del modello, ma siamo in grado di misurare piuttosto direttamente le conseguenze di gravi violazioni del presupposto.
    Prossimo esempio: i dati di studio di cui mi occupo in genere sono ordini di grandezza al di sotto delle dimensioni del campione che le regole empiriche statistiche raccomandano per i casi per variabile (al fine di garantire stime stabili). Ma i libri di statistica in genere non si preoccupano molto di cosa fare in pratica se questa ipotesi non può essere soddisfatta. Né come misurare se effettivamente sei nei guai in questo senso. Ma: tali domande sono trattate nelle discipline più applicate. Risulta, spesso è abbastanza facile misurare direttamente la stabilità del modello o almeno se le tue previsioni sono instabili (leggi qui sul CV sul ricampionamento della convalida e della stabilità del modello). E ci sono modi per stabilizzare modelli instabili (es. Insaccamento).

  • Come esempio della "seconda linea di difesa", prendere in considerazione il ricampionamento della validazione. Il presupposto abituale e più forte è che tutti i modelli surrogati sono equivalenti a un modello addestrato sull'intero set di dati. Se questa ipotesi viene violata, otteniamo il noto pregiudizio pessimistico. La seconda linea è che almeno i modelli surrogati sono equivalenti tra loro, quindi possiamo raggruppare i risultati del test.


Ultimo ma non meno importante, vorrei incoraggiare gli "scienziati dei clienti" e gli statistici a parlare di più tra loro . L'analisi dei dati statistici IMHO non è qualcosa che può essere fatto in modo unidirezionale. Ad un certo punto, ciascuna parte dovrà acquisire una certa conoscenza dell'altra parte. Qualche volta aiuto a "tradurre" tra statistici, chimici e biologi. Uno statistico può sapere che il modello necessita di regolarizzazione. Ma per scegliere, per esempio, tra LASSO e una cresta, devono conoscere le proprietà dei dati che solo il chimico, il fisico o il biologo possono conoscere.


6

Dato che il CV è popolato da statistici e persone curiose, se non competenti, delle statistiche, non sono sorpreso di tutte le risposte che sottolineano la necessità di comprendere le ipotesi. Concordo anche con queste risposte in linea di principio.

Tuttavia, quando si tiene conto della pressione per la pubblicazione e del basso livello di integrità statistica attualmente, devo dire che queste risposte sono abbastanza ingenue. Siamo in grado di dire alle persone cosa dovrebbero fare tutto il giorno (ad esempio, controllare la tua ipotesi), ma cosa faranno dipende esclusivamente dagli incentivi istituzionali. Lo stesso OP afferma di riuscire a pubblicare 20 articoli senza comprendere il presupposto del modello. Data la mia esperienza, non lo trovo difficile da credere.

Quindi voglio interpretare il difensore del diavolo, rispondendo direttamente alla domanda di OP. Questa non è affatto una risposta che promuove la "buona pratica", ma è una risposta che riflette come le cose vengono praticate con un pizzico di satira.

Vale la pena lo sforzo extra?

No, se l'obiettivo è pubblicare, non vale la pena dedicare tutto il tempo alla comprensione del modello. Basta seguire il modello prevalente in letteratura. In questo modo, 1) il tuo documento passerà le recensioni più facilmente e 2) il rischio di essere esposto per "incompetenza statistica" è piccolo, perché esporsi significa esporre l'intero campo, comprese molte persone anziane.

Non è probabile che la maggior parte dei risultati pubblicati non rispetti questi presupposti e forse non li abbia nemmeno valutati? Questo è probabilmente un problema crescente dal momento che i database crescono ogni giorno di più e c'è l'idea che più grandi sono i dati, meno importanti sono le ipotesi e le valutazioni.

Sì, è probabile che la maggior parte dei risultati pubblicati non siano veri. Più sono coinvolto nella ricerca reale, più penso che sia probabile.


1
Penso che tu abbia alcuni punti molto buoni che non sono menzionati sopra; vale a dire la pressione per la pubblicazione e la stampa per trovare articoli per riempire il diario. È un incubo per gli editori non avere articoli da pubblicare e i ricercatori devono pubblicare per la loro mera esistenza. Tuttavia, da un punto di vista metodologico, più sono coinvolto nella ricerca, più credo che la maggior parte dei risultati pubblicati siano errati / meno corretti / imperfetti in misura diversa (da un punto di vista statistico).
Adam Robinsson,

4

La risposta breve è "no". Metodi statistici sono stati sviluppati in base a serie di ipotesi che dovrebbero essere soddisfatte affinché i risultati siano validi. È logico, quindi, che se le ipotesi non fossero soddisfatte, i risultati potrebbero non essere validi. Certo, alcune stime potrebbero essere ancora valide nonostante le violazioni dei presupposti del modello. Ad esempio, il logit multinomiale sembra funzionare bene nonostante le violazioni del presupposto dell'AII (vedere la tesi di dottorato di Kropko [2011] nel riferimento sotto).

Come scienziati, abbiamo l'obbligo di garantire che i risultati che abbiamo pubblicato siano validi, anche se alle persone sul campo non importa se i presupposti sono stati soddisfatti. Questo perché la scienza si basa sul presupposto che gli scienziati faranno le cose nel modo giusto nella loro ricerca dei fatti. Noi confidiamo i nostri colleghi di controllare il loro lavoro prima di inviarlo alle riviste. Ci fidiamo gli arbitri di rivedere con competenza un manoscritto prima che sia pubblicato. noi assumiamoche sia i ricercatori che gli arbitri sappiano cosa stanno facendo, in modo che i risultati in articoli pubblicati su riviste peer-reviewed possano essere considerati attendibili. Sappiamo che questo non è sempre vero nel mondo reale in base alla mera quantità di articoli in letteratura in cui finisci per scuotere la testa e alzare gli occhi ai risultati ovviamente scelti dalla ciliegia in riviste rispettabili (" Jama ha pubblicato questo articolo ?! ").

Quindi no, l'importanza non può essere sopravvalutata, soprattutto perché le persone si fidano di te - l'esperto - per aver fatto la dovuta diligenza. Il minimo che puoi fare è parlare di queste violazioni nella sezione "Limitazioni" del tuo documento per aiutare le persone a interpretare la validità dei risultati.

Riferimento

Kropko, J. 2011. Nuovi approcci alla scelta discreta e alla metodologia delle sezioni temporali per la ricerca politica (tesi di laurea). UNC-Chapel Hill, Chapel Hill, Carolina del Nord.


Sono d'accordo con questi preziosi commenti. Ma non pensi che il "may" in "potrebbe non essere invalido" è il motivo per cui le persone potrebbero non preoccuparsi troppo di loro. Credo che la semplice esistenza di un'ipotesi possa indurre una distorsione dell'analisi pertinente a questo problema.
Adam Robinsson,

TIL Kropko è un utente CV.
Ripristina Monica

@AdamRobinsson, penso che le persone non si preoccupino di loro perché non comprendono appieno come o perché i risultati potrebbero non essere validi. Gran parte del problema risiede nell'educazione statistica in un campo "applicato". La mia formazione è in un campo applicato. Le mie lezioni di econometria lite non pretendevano di essere lezioni di econometria completa e venivano chiamate "metodi di ricerca avanzata" o qualcosa del genere. Poiché non vi erano prerequisiti statistici, i prof avrebbero sorvolato i presupposti dei modelli a favore di dedicare più tempo ai comandi di Stata e all'interpretazione dei risultati.
Marchese de Carabas,

@AdamRobinsson, La prima volta che ero in un corso di laurea, era anche per un campo applicato, ma le lezioni erano tenute da biostatisti. I biostatisti hanno insegnato a fondo sulle ipotesi del modello e sui vari controlli che dovremmo fare, perché alcuni studenti della classe erano studenti di biostatistica. Tuttavia, era chiaro che il resto degli studenti che erano in queste classi non capiva perché stessimo verificando quei presupposti, perché i prof non comunicavano l'importanza in una lingua che gli studenti capivano.
Marchese de Carabas,

1
@marquisdecarabas, d'accordo. Non capirli è un problema fondamentale, ovviamente. Tuttavia, a volte mi chiedo se non è stato a causa dell'immensa quantità di tempo speso per la manipolazione dei dati, che svuota la lussuria per assumere le ipotesi.
Adam Robinsson,

2

Se hai bisogno di statistiche molto avanzate è molto probabile perché i tuoi dati sono un disastro, come nel caso della maggior parte delle scienze sociali, per non parlare della psicologia. In quei campi in cui hai buoni dati hai bisogno di pochissime statistiche. La fisica è un ottimo esempio.

Considera questa citazione di Galileo sul suo famoso esperimento di accelerazione gravitazionale:

Fu preso un pezzo di legno modellato o sottile, lungo circa 12 cubiti, largo mezzo cubo e spesso largo tre dita; sul suo bordo era tagliato un canale poco più di un dito di larghezza; avendo reso questo solco molto dritto, liscio e lucido, e averlo rivestito di pergamena, anche il più liscio e lucido possibile, ci siamo fatti rotolare lungo una sfera di bronzo dura, liscia e molto rotonda. Avendo posto questa tavola in posizione inclinata, sollevando un'estremità di uno o due cubiti sopra l'altra, abbiamo fatto rotolare la palla, come stavo solo dicendo, lungo il canale, notando, in un modo che sarà attualmente descritto, il tempo richiesto per fare la discesa. Abbiamo ripetuto questo esperimento più di una volta al fine di misurare il tempo con una precisione tale che la deviazione tra due osservazioni non ha mai superato un decimo di battito. Avendo eseguito questa operazione e assicurandoci della sua affidabilità, ora abbiamo fatto rotolare la palla solo per un quarto della lunghezza del canale; e avendo misurato il tempo della sua discesa, l'abbiamo trovato esattamente la metà della prima. Successivamente abbiamo provato altre distanze, confrontando il tempo per l'intera lunghezza con quello per la metà, o con quello per i due terzi, o i tre quarti, o addirittura per qualsiasi frazione; in tali esperimenti, ripetuti cento volte, abbiamo sempre scoperto che gli spazi attraversati erano l'un l'altro come i quadrati dei tempi, e questo era vero per tutte le inclinazioni del piano, cioè del canale, lungo il quale abbiamo rotolato il palla. Abbiamo anche osservato che i tempi di discesa, per varie inclinazioni del piano, si annoiavano esattamente quel rapporto che, come vedremo più avanti,

Per la misurazione del tempo, abbiamo impiegato una grande nave d'acqua posta in una posizione elevata; sul fondo di questa nave era saldato un tubo di piccolo diametro che dava un sottile getto d'acqua che raccoglievamo in un piccolo bicchiere durante il tempo di ogni discesa, sia per l'intera lunghezza del canale sia per parte della sua lunghezza; l'acqua così raccolta veniva pesata, dopo ogni discesa, su una bilancia molto accurata; le differenze e i rapporti di questi pesi ci davano le differenze e i rapporti dei tempi, e questo con una precisione tale che sebbene l'operazione fosse ripetuta molte, molte volte, non vi era alcuna discrepanza apprezzabile nei risultati .

Nota il testo evidenziato da me. Ecco cosa sono i buoni dati. Viene da un esperimento ben pianificato basato su una buona teoria. Non hai bisogno di statistiche per estrarre ciò che ti interessa. Non c'erano statistiche in quel momento, né c'erano computer. Il risultato? Un rapporto piuttosto fondamentale, che è ancora valido e che può essere testato a casa da un sesto selezionatore.

Ho rubato la citazione da questa fantastica pagina .

χ2


2
"In quei campi in cui hai buoni dati hai bisogno di pochissime statistiche. La fisica è un ottimo esempio." Posso vedere il punto, ma vale la pena sottolineare che i fisici delle particelle hanno sia un'abbondanza di dati che hanno sviluppato una vasta gamma di tecniche statistiche avanzate per analizzarli.
Silverfish,

@Silverfish, puoi darmi un esempio di statistiche avanzate lì? Quello che ho visto non mi ha impressionato molto. Secondo me, uno studente di dottorato medio in econ conoscerà più statistiche del fisico di classe mondiale. Ciò in cui i fisici sono veramente bravi sono cose come la meccanica statistica, ma è molto diverso da ciò che chiameremmo "statistiche avanzate". Sono pienamente d'accordo con te sul fatto che i loro set di dati sono sbalorditivi, hanno iniziato i big data prima che i "big data" diventassero una fastidiosa parola d'ordine.
Aksakal,

1
Hanno un'interpretazione abbastanza interessante dell '"intervallo di confidenza", in particolare per i parametri che non possono essere negativi, vedi ad esempio en.wikipedia.org/wiki/CLs_upper_limits_%28particle_physics%29
Silverfish,

(Penso che potrebbe essere ingiusto prendere il primo giorno di un corso introduttivo come rappresentante di tutte le statistiche necessarie per essere un fisico delle particelle!)
Silverfish,

@Aksakal, la mia comprensione personale è che i metodi bayesiani fanno miracoli quando c'è poca incertezza del modello, cioè scienze dure in cui i modelli sono qualunque cosa l'equazione di Schrodinger ti dia, dopo un'integrazione di 5.000 dimensioni. In economia, l'approccio bayesiano difficilmente sopravviverà, vista l'attenzione dei ricercatori empirici sull'inferenza che è robusta per potenziali importanti errori di definizione del modello. (Sono un fisico laureato, anche se non ho fatto fisica per oltre 20 anni, e un scienziato sociale quantitativo per la linea di lavoro ora.)
StasK

2

Questa domanda sembra essere un caso di integrità professionale.

Il problema sembra essere che: (a) non esiste una valutazione critica sufficiente dell'analisi statistica da parte dei laici o (b) un caso di conoscenza comune non è sufficiente per identificare un errore statistico (come un errore di tipo 2)?

Conosco abbastanza sulla mia area di competenza per richiedere un input di esperti quando sono vicino al confine di tale competenza. Ho visto persone usare cose come il test F (e R-quadrato in Excel) senza una conoscenza sufficiente.

Nella mia esperienza, i sistemi educativi, nel nostro entusiasmo di promuovere le statistiche, hanno semplificato eccessivamente gli strumenti e minimizzato i rischi / i limiti. È un tema comune che altri hanno sperimentato e spiegherebbe la situazione?

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.