Raccomandazioni per articoli non tecnici ma profondi nelle statistiche


24

L'ispirazione per questa domanda proviene dal noto articolo di Leo-Breiman, Modellistica statistica: le due culture (accesso aperto disponibile). L'autore confronta ciò che vede come due approcci disparati all'analisi dei dati, toccando idee chiave nelle statistiche classiche e nell'apprendimento automatico. Tuttavia, l'articolo è comprensibile a un vasto pubblico, probabilmente a chiunque lavori con i dati, indipendentemente dal fatto che abbiano perseguito statistiche a livello di dottorato o abbiano solo seguito un corso introduttivo. Inoltre, l'articolo è stimolante . Cioè, genera prontamente discussioni (come è dimostrato dalla serie di vivaci commenti pubblicati nello stesso numero).

Sono curioso di scoprire altri articoli con queste qualità. Cioè, articoli che:

  • Tocca concetti fondamentali nelle statistiche / analisi dei dati
  • Può essere compreso da un vasto pubblico in termini di variazione del focus sulla ricerca e della formazione statistica formale
  • Stimolare la discussione, attraverso l'intuizione o la controversia

2
Le risposte finora sono state molto interessanti! Continua a farli venire. Certo, non accetterò nessuna delle risposte come da meta.stats.stackexchange.com/questions/409/…
Richard Border,

2
Non esiste Royal Road per le statistiche.
Aksakal,

Risposte:


15

Shmueli, Galit. "Per spiegare o prevedere ?." Scienze statistiche (2010): 289-310.

Credo che corrisponda ai tuoi tre punti elenco.

Parla di modellazioni esplicative e predittive (i termini dovrebbero essere autoesplicativi) e osserva che le differenze tra loro spesso non vengono riconosciute.

Ciò solleva il punto che, a seconda dell'obiettivo della modellazione (esplicativa o predittiva), potrebbero essere utilizzate diverse strategie di costruzione del modello e diversi modelli potrebbero essere selezionati come il modello "migliore".

È un documento piuttosto completo e una lettura piacevole. Una discussione di questo è riassunta nel post del blog di Rob J. Hyndman . Una discussione correlata su Cross Validated è in questo thread (con molti voti positivi). Un'altra domanda (senza risposta) sullo stesso argomento è questa .


12

Lehmann, Erich L. "Le teorie di Fisher, Neyman-Pearson per verificare le ipotesi: una teoria o due?" Journal of American Statistical Association 88.424 (1993): 1242-1249.

Non è noto a molti ma quando i giganti della professione erano ancora tra noi, non andavano d'accordo l'uno con l'altro. Il dibattito sui fondamenti del test delle ipotesi in particolare, sia esso induttivo o deduttivo, ha visto insulti piuttosto seri che volavano tra Fisher da un lato e Neyman-Pearson dall'altro. E il problema non è mai stato risolto durante la loro vita.

Molto tempo dopo che sono passati tutti, Lehmann cerca di colmare il divario e secondo me fa un buon lavoro poiché dimostra che gli approcci sono complementari piuttosto che si escludono a vicenda. Questo è ciò che gli studenti imparano oggi a proposito. È necessario conoscere alcune cose di base sul test delle ipotesi, ma in caso contrario è possibile seguire il documento senza problemi.


1
Grazie per la citazione Una volta ho posto una domanda sul presunto conflitto tra approcci F e NP: stats.stackexchange.com/questions/112769 , e nonostante molta attenzione e voti ricevuti non sono ancora convinto di nessuna delle risposte esistenti (e non accetta qualsiasi). Ho intenzione di tornare a quel thread e fare un po 'di lettura / mettere una taglia o qualcosa del genere, ma non trovo mai il tempo; se hai familiarità con il documento di Lehmann, ti incoraggio a contribuire con una risposta lì.
ameba dice di reintegrare Monica il

@amoeba Ho letto più volte il documento di Lehmann, è molto leggibile ma non credo di aver studiato la questione in modo approfondito come te. Quindi, ogni volta che hai tempo, sarebbe una buona idea andare oltre e vedere il suo punto di vista. Troverai particolarmente rivelatrice la discussione sul problema Behrens-Fisher.
JohnK,

Grazie per la condivisione. Forse tutto ciò che ho sentito è stato piuttosto unilaterale, ma tutto ciò che ho sentito su Sir Ron Fisher è che era un uomo piuttosto spiacevole con cui parlare, per non dire altro. Aveva anche alcune opinioni discutibili sul legame tra consumo di tabacco e cancro ai polmoni .
Phil

Un'alternativa "più leggera" all'articolo è Christensen, Ronald. "Test di Fisher, Neyman, Pearson e Bayes." The American Statistician 59.2 (2005): 121-126. L'ho trovato divertente.
Richard Hardy,

9

Wilk, MB e Gnanadesikan, R. 1968. Probabilità di tracciare metodi per l'analisi dei dati. Biometrika 55: 1-17. Collegamento Jstor se hai accesso

Questo documento ha, al momento della mia scrittura, quasi 50 anni ma sembra ancora fresco e innovativo. Utilizzando una ricca varietà di esempi interessanti e sostanziali, gli autori unificano ed estendono una varietà di idee per tracciare e confrontare le distribuzioni usando il framework di grafici QQ (quantile-quantile) e PP (probabilità-probabilità). Le distribuzioni qui significano in generale qualsiasi set di dati o di numeri (residui, contrasti, ecc.) Derivanti dalle loro analisi.

Le versioni particolari di questi grafici risalgono a diversi decenni fa, ovviamente le probabilità normali o i grafici dei punteggi normali. che sono in questi termini grafici quantile-quantile, ovvero grafici di quantili osservati rispetto a quantili attesi o teorici da un campione della stessa dimensione da una distribuzione normale (gaussiana). Ma gli autori mostrano, con modestia ma con sicurezza, che le stesse idee possono essere estese facilmente - e praticamente con il calcolo moderno - per esaminare altri tipi di quantili e tracciare automaticamente i risultati.

Gli autori, entrambi dei Bell Telephone Laboratories, godevano di strutture informatiche all'avanguardia e anche molte università e istituti di ricerca hanno impiegato circa un decennio per recuperare il ritardo. Anche ora, le idee in questo documento meritano un'applicazione più ampia di quanto ottengano. È un raro testo o corso introduttivo che include una di queste idee oltre alla normale trama QQ. Gli istogrammi e i grafici a scatole (ciascuno spesso molto utile, ma tuttavia ciascuno scomodo e limitato in diversi modi) continuano ad essere i punti principali quando vengono introdotti i grafici delle distribuzioni.

A livello personale, anche se le idee principali di questo documento sono state familiari per la maggior parte della mia carriera, mi piace rileggerlo ogni due anni circa. Una buona ragione è il piacere nel modo in cui gli autori danno buoni risultati con idee semplici ma potenti con esempi seri. Un'altra buona ragione è il modo in cui il documento, che è scritto in modo conciso, senza la minima traccia di bombast, accenna alle estensioni delle idee principali. Più di una volta, ho riscoperto colpi di scena sulle idee principali trattate esplicitamente in suggerimenti laterali e ulteriori commenti.

Questo non è solo un documento per coloro che sono particolarmente interessati alla grafica statistica, anche se a mio avviso dovrebbe includere tutti coloro che sono interessati a statistiche di qualsiasi tipo. Promuove modi di pensare alle distribuzioni che sono praticamente utili nello sviluppo delle capacità e delle intuizioni statistiche di chiunque.


2
Questa è un'ottima scelta L'ho letto diverse volte - non appena ho visto i nomi degli autori nella tua risposta, ho capito quale documento era e subito ho voluto rileggerlo. Penso di averne una copia qui da qualche parte ...
Glen_b -Restate Monica

6

Ioannidis, John PA "Perché la maggior parte dei risultati di ricerca pubblicati sono falsi." PLoS Medicine (2005)

Ioannidis, John PA "Come rendere più vera la ricerca pubblicata." PLoS Medicine (2014)

Deve leggere per ogni ricercatore / statistico / analista che vuole evitare i pericoli derivanti dall'uso e dall'interpretazione errata delle statistiche nella ricerca. L'articolo del 2005 è stato il più accessibile nella storia della Public Library of Science e ha stimolato molte controversie e discussioni.


6

Tukey, JW (1960) Conclusioni vs Decisioni Technometrics 2 (4): 423-433

Questo articolo si basa su un discorso post-cena di Tukey e c'è un commento secondo cui "è seguita una discussione considerevole", in modo che corrisponda almeno al terzo dei tuoi punti.

Ho letto per la prima volta questo documento quando stavo completando un dottorato in ingegneria e ho apprezzato la sua esplorazione delle funzionalità dell'analisi dei dati.


Il collegamento non funziona. Questo funziona
kjetil b halvorsen il

5

Efron e Morris, 1977, Stein's Paradox in Statistics .

Efron e Morris scrissero una serie di articoli tecnici sullo stimatore James-Stein negli anni '70, incorniciando il "paradosso" di Stein nel contesto di Empirical Bayes. Il documento del 1977 è popolare e pubblicato su Scientific American .

È un'ottima lettura.


3

Bene, nonostante il maggiore interesse per Roy Model sia tra gli economisti (ma potrei sbagliarmi), il suo documento originale "Some Thoughts on the Distribution of Earnings" del 1951, è una discussione perspicace e non tecnica sul problema dell'autoselezione. Questo documento è stato d'ispirazione per i modelli di selezione sviluppati dal premio nobel James Heckman. Anche se vecchio, penso che corrisponda ai tuoi tre punti elenco.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.