Intuizione statistica / senso dei dati


20

Sono uno studente universitario del secondo anno, sto studiando matematica e ho parlato con uno dei miei professori in merito alla differenza tra abilità matematica e capacità statistica. Una delle principali differenze che ha sollevato è stata il "senso dei dati", che ha spiegato come una combinazione di abilità tecnica durante il funzionamento all'interno di un insieme di quelle che chiamerò informalmente "restrizioni del senso comune", vale a dire non perdere di vista la realtà del problema in mezzo molta teoria. Questo è un esempio di ciò di cui stavo parlando, apparso sul blog di Gowers:

In diverse parti del Regno Unito la polizia ha raccolto statistiche su dove si sono verificati incidenti stradali, identificato punti neri sugli incidenti, messo lì autovelox e raccolto più statistiche. C'era una chiara tendenza al calo del numero di incidenti in questi punti neri dopo l'installazione degli autovelox. Ciò dimostra definitivamente che gli autovelox migliorano la sicurezza stradale?

La stessa persona che ha sostenuto la strategia randomizzata nel gioco delle trattative in pratica conosceva già la risposta a questa domanda. Ha detto di no, poiché se scegli i casi estremi, ti aspetteresti che siano meno estremi se esegui di nuovo l'esperimento. Ho deciso di passare rapidamente da questa domanda poiché non c'era molto altro da dire. Ma ho raccontato alla gente un piano che avevo avuto, che era quello di fare un falso esperimento di telepatia. Li indurrei a indovinare i risultati di 20 lanci di monete, che tenterei di trasmettere loro telepaticamente. Sceglierei quindi i tre migliori e i tre peggiori, e lancerei di nuovo le monete, questa volta chiedendo ai migliori di aiutarmi a trasmettere le risposte ai peggiori. La gente poteva vedere facilmente che le prestazioni avrebbero dovuto migliorare e che non avrebbe avuto nulla a che fare con la telepatia.

Quello che sto chiedendo è come imparare di più su questo "senso dei dati" , attraverso eventuali pubblicazioni sull'argomento, se esistono, o attraverso ciò che altri utenti hanno trovato utile nello sviluppo di questa abilità. Mi dispiace se questa domanda deve essere chiarita; in tal caso, pubblica le tue domande! Grazie.


Come mentire con le statistiche è un ottimo punto di partenza.
Martedì

The Drunkard's Walk colloca anche le statistiche in una struttura accessibile e di buon senso.
Marcus Morrisey,

Risposte:


10

Innanzitutto direi che non dovremmo leggere la matematica. È uno strumento importante nello sviluppo della teoria statistica e i metodi statistici sono giustificati dalla teoria. La teoria ti dice anche cosa c'è che non va e quali tecniche potrebbero essere migliori (ad esempio, più efficienti). Quindi penso che la conoscenza matematica e il pensiero siano importanti (quasi necessari) per essere un buon statistico. Ma sicuramente non è sufficiente. Penso che i libri citati nei commenti siano buoni. Lasciami dare qualcun altro.

Senso dei dati: una guida pratica all'analisi dei dati esplorativi e al data mining

Sense of Data II: una guida pratica alla visualizzazione dei dati, metodi avanzati di data mining e applicazioni

Pensiero statistico: migliorare le prestazioni aziendali

Il ruolo della statistica negli affari e nell'industria

Una carriera in statistica: oltre i numeri

I libri di Hahn e Snee sono particolarmente preziosi e interessanti perché sono famosi statistici industriali con le capacità matematiche e l'esperienza pratica.


7
Grazie per i collegamenti e i commenti. Penso che in generale le risposte possano essere migliorate usando il [manuscript title](uri) link markdown . Dopo una lunga giornata, trovo che trovare risposte con lunghi collegamenti ipertestuali possa essere inconsciamente sconcertante e, sfortunatamente, potrebbe distorcere un lettore contro una risposta altrimenti buona.
jthetzel,

@jthetzel Vedo perché è meglio avere un nome che sostituisca l'URL in un collegamento. Quando avrò tempo imparerò a farlo. So che è facile Ma ho dato tre o quattro link. non ci vuole quasi tempo per fare clic sul collegamento e vedere di cosa si tratta. quindi non capisco davvero perché così tanti membri della comunità facciano un grosso problema.
Michael R. Chernick,

6

Nell'esempio che citi, il problema principale è l'inferenza causale. Un buon punto di partenza per l'inferenza causale è questa tripla recensione di Andrew Gelman, e i libri in essa recensiti. Oltre a conoscere l'inferenza causale, dovresti conoscere il valore dell'analisi, della descrizione e della previsione dei dati esplorativi.

Ho imparato moltissimo ascoltando gli scienziati sociali criticare reciprocamente la ricerca in lavori pubblicati, blog , seminari e conversazioni personali - ci sono molti modi per imparare. Segui questo sito e il blog di Andrew Gelman.

Naturalmente, se si desidera il rilevamento dei dati, è necessario esercitarsi a lavorare con dati reali. Esistono capacità generali di rilevamento dei dati, ma esiste anche un rilevamento dei dati specifico per un'area problematica o, ancora più specificamente, un rilevamento dei dati specifico per un determinato set di dati.


5

Una bella risorsa gratuita è il Wiki di Chance News . Ha molti esempi tratti da esempi reali insieme a discussioni su aspetti positivi e negativi di come le persone interpretano dati e statistiche. Spesso ci sono anche domande di discussione (parte della motivazione della vista è quella di fornire agli insegnanti di statistiche esempi del mondo reale da discutere con gli studenti).


5

+1 per un'ottima domanda! (E +1 a tutti i rispondenti finora.)

Penso che esista una cosa come il senso dei dati, ma non credo che ci sia qualcosa di mistico. L'analogia che vorrei usare è guidare. Quando guidi lungo la strada, sai cosa sta succedendo con le altre macchine. Ad esempio, sai che il ragazzo di fronte a te sta cercando il segnale stradale dove dovrebbe girare, anche se non sta usando il suo segnale di svolta. Identifichi automaticamente il guidatore lento e troppo prudente e prevedi come reagiranno in diverse situazioni. Puoi individuare l'adolescente che vuole solo correre più veloce che può. Hai un senso basato sul riconoscimento di ciò che fanno tutte le auto. Questo è esattamente lo stesso del senso dei dati. Viene dall'esperienza, moltidi esperienza. Se conosci abbastanza la teoria, devi solo iniziare a giocare con set di dati reali. Potresti essere interessato ad esplorare un sito come DASL . Una condizione, tuttavia, è che non si dovrebbe semplicemente acquisire esperienza nel caricamento di un set di dati, nell'esecuzione di un test e nell'ottenimento di un valore p. Dovrai esplorare i dati, probabilmente tracciarli in modi diversi, adattarli ad alcuni modelli e pensare a cosa sta succedendo. (Si noti che EDA è stato un thread comune qui.)

Un fatto forse non ovvio su questo processo è che il rilevamento dei dati può essere localizzato in una data area attuale. Ad esempio, potresti avere molta esperienza lavorando con dati sperimentali e ANOVA, ma non necessariamente hai una buona idea di cosa sta succedendo quando guardi i dati di serie temporali o di sopravvivenza.

Consentitemi di aggiungere un'altra strategia che ho trovato estremamente utile: penso che valga la pena dedicare del tempo a imparare un po 'di programmazione (statistica). Non devi essere terribilmente bravo in questo (sono noto per aver scritto codice "comicamente inefficiente"). Tuttavia, una volta che è possibile scrivere un codice procedurale di base (diciamo in R), è possibile simulare . Sarebbe difficile per me enfatizzare eccessivamente quanto può essere d'aiuto condurre simulazioni anche molto semplici. Una cosa per cui puoi usarlo è, quando nel corso dei tuoi studi, leggi alcune proprietà che puoi esplorare. Ad esempio, se sai (astrattamente) che è difficile determinare empiricamente se un logit o un modello probit è migliore per un set di dati, puoi codificare semplici simulazioni di questoe gioca con loro per comprendere meglio l'idea. Questo ti fornirà anche esperienza, ma di un tipo leggermente diverso, e ti aiuterà anche a sviluppare il tuo senso dei dati.


+1 Per enfatizzare il valore dell'apprendimento dalle simulazioni.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.