Quali teorie dovrebbero sapere tutti gli statistici?


30

Ci sto pensando da una prospettiva di requisiti minimi e basilari. Quali sono le teorie chiave che uno statistico (non accademico) del settore dovrebbe conoscere, comprendere e utilizzare su base regolare?

Un grande che viene in mente è la legge di grandi numeri . Quali sono i più essenziali per l'applicazione della teoria statistica all'analisi dei dati?

Risposte:


41

Francamente, non credo che la legge dei grandi numeri abbia un ruolo enorme nell'industria. È utile comprendere le giustificazioni asintotiche delle procedure comuni, come le stime e i test della massima verosimiglianza (in particolare i GLM onnipotenti e la regressione logistica, in particolare), il bootstrap, ma si tratta di problemi distributivi piuttosto che di probabilità di colpire un campione difettoso .

Oltre agli argomenti già menzionati (GLM, inferenza, bootstrap), il modello statistico più comune è la regressione lineare, quindi è indispensabile una conoscenza approfondita del modello lineare. Non potresti mai gestire ANOVA nella tua vita industriale, ma se non lo capisci, non dovresti essere chiamato statistico.

Esistono diversi tipi di industrie. Nel settore farmaceutico, non puoi guadagnarti da vivere senza prove casuali e regressione logistica. Nelle statistiche del sondaggio, non puoi guadagnarti da vivere senza lo stimatore di Horvitz-Thompson e le rettifiche di mancata risposta. Nelle statistiche relative all'informatica, non è possibile guadagnarsi da vivere senza l'apprendimento statistico e il data mining. Nei think tank delle politiche pubbliche (e, sempre più, nelle statistiche sull'istruzione), non è possibile guadagnarsi da vivere senza la causalità e gli stimatori degli effetti del trattamento (che, sempre più spesso, coinvolgono studi randomizzati). Nella ricerca di marketing, è necessario disporre di un mix di background economico con la teoria della misurazione psicometrica (e non è possibile apprendere nessuno di essi in un tipico dipartimento di statistica). La statistica industriale opera con i suoi peculiari paradigmi six sigma che sono collegati in remoto alle statistiche tradizionali; un legame più forte può essere trovato nella progettazione del materiale degli esperimenti. Il materiale di Wall Street sarebbe econometria finanziaria, fino al calcolo stocastico. Queste sono abilità MOLTO disparate, e il termine "industria" è ancora più mal definito di "mondo accademico". Non credo che nessuno possa pretendere di conoscere più di due o tre di quanto sopra contemporaneamente.

Le migliori competenze, tuttavia, che sarebbero universalmente richieste nel "settore" (qualunque cosa ciò possa significare per te) sarebbero la gestione del tempo, la gestione dei progetti e la comunicazione con i clienti meno esperti di statistica. Quindi, se vuoi prepararti per il posizionamento nel settore, prendi lezioni in business school su questi argomenti.

AGGIORNAMENTO: il post originale è stato scritto nel febbraio 2012; in questi giorni (marzo 2014), probabilmente dovresti definirti "uno scienziato di dati" piuttosto che "uno statistico" per trovare un lavoro caldo nell'industria ... e meglio imparare un po 'di Hadoop da seguire con quell'autoproclamazione.


1
Bella risposta. Grazie per aver messo in evidenza alcune delle grandi differenze tra gli statistici all'interno dell'industria. Questo aiuta a motivare la mia domanda perché credo che molte persone abbiano un'idea diversa di cosa sia / faccia uno statistico. Immagino che stavo cercando di scoprire dove si intersecano tutti da una comprensione di base. Inoltre, apprezzo molto il tuo ultimo paragrafo sugli argomenti di business e quanto siano essenziali. Grandi punti, ma vorrei ancora vedere se qualcuno può aggiungere alla conversazione prima di accettare.
bnjmn,

Sono perplesso da questi "peculiari paradigmi Six Sigma", "collegati in remoto alle statistiche tradizionali" con cui si dice che le statistiche industriali operano. Mi sembra del tutto ortodosso, mettendo da parte le differenze terminologiche riscontrate tra tutti questi sottocampi.
Scortchi - Ripristina Monica

4
10-9

Abbastanza giusto: avrei detto analisi dei sistemi di misurazione (accordo inter-rater, calibri di riproducibilità e studi di ripetibilità), controllo statistico dei processi, analisi dell'affidabilità (aka analisi di sopravvivenza) e progettazione sperimentale ((frazionaria), disegni fattoriali, metodologia della superficie di risposta ) erano caratteristici delle statistiche industriali.
Scortchi - Ripristina Monica

12

Penso che una buona comprensione delle problematiche relative al compromesso di bias varianza . La maggior parte degli statistici finirà, ad un certo punto, analizzando un set di dati che è abbastanza piccolo da consentire alla varianza di uno stimatore o ai parametri del modello di essere sufficientemente elevati da considerare una distorsione.


11

Per sottolineare quello super evidente:

Teorema del limite centrale

pp

bootstrapping


8

Non direi che questo è molto simile a qualcosa come la legge dei grandi numeri o il teorema del limite centrale, ma poiché fare inferenze sulla causalità è spesso centrale, capire il lavoro di Judea Pearl sull'uso di grafici strutturati per modellare la causalità è qualcosa che le persone dovrebbero avere familiarità con. Fornisce un modo per capire perché gli studi sperimentali e osservazionali differiscono rispetto alle inferenze causali che offrono e offre modi per gestire i dati osservativi. Per una buona panoramica, il suo libro è qui .


2
C'è anche la struttura controfattuale di Rubin; ci sono anche modelli di equazioni strutturali e tecniche variabili strumentali econometriche ... alcune di quelle descritte nell'economia economicamente innocua quale dei migliori libri statistici scritti da non statistici.
StasK

7

Una solida comprensione del problema sostanziale da affrontare è importante quanto qualsiasi approccio statistico particolare. Un buon scienziato del settore è più probabile di uno statistico senza tali conoscenze per giungere a una soluzione ragionevole al loro problema. Uno statistico con conoscenze sostanziali può aiutare.


6

Il metodo Delta, come calcolare la varianza delle statistiche bizzarre e trovare la loro relativa efficienza asintotica, raccomandare cambiamenti di variabile e spiegare i miglioramenti dell'efficienza "stimando la cosa giusta". Insieme a ciò, la disuguaglianza di Jensen per la comprensione delle GLM e strani tipi di pregiudizio che sorgono in trasformazioni come sopra. E, ora che vengono menzionati pregiudizio e varianza, il concetto di compromesso di scostamento e MSE come misura oggettiva dell'accuratezza predittiva.


6

A mio avviso, l'inferenza statistica è molto importante per un professionista. L'inferenza ha due parti: 1) Stima e 2) Test di ipotesi. Il test di ipotesi è importante. Poiché nella stima è seguita principalmente una procedura unica, è stata seguita la stima della massima verosimiglianza ed è disponibile la maggior parte dei pacchetti statistici (quindi non c'è confusione).

Le domande frequenti dei professionisti riguardano test significativi della differenza o dell'analisi causale. Importanti test di ipotesi sono disponibili in questo link .

Conoscere i modelli lineari, la GLM o in generale la modellazione statistica è necessario per l'interpretazione della causalità. Presumo che il futuro dell'analisi dei dati includa l'inferenza bayesiana.


0

Inferenza casual è necessario. E come affrontare il problema fondamentale, non puoi tornare indietro nel tempo e non dare a qualcuno un trattamento. Leggi articoli su Rubin, Fisher, il fondatore dello studente di statistica moderna.) .... Cosa imparare ad affrontare questo problema, la corretta randomizzazione e come la Legge di grandi numeri dice che le cose sono opportunamente randomizzate, Test di ipotesi, Risultati potenziali (contro l'assunzione dell'etroscastistia) ed è ottimo con la mancanza), il matching (ottimo per la mancanza ma i risultati potenziali sono migliori perché è più generalizzato, intendo perché apprendere un sacco di cose complicate quando puoi imparare solo una cosa complicata), Bootstrap, ovviamente le statistiche bayesiane (regressione bayesiana , ingenua regressione bayesiana, fattori bayesiani) e alternative non papmetriche.

Normalmente in pratica basta seguire questi passaggi generali,

Per quanto riguarda un commento precedente, dovresti innanzitutto iniziare dapprima con un ANOVA (effetti casuali o effetti fissi e trasformare tipi continui in bin), quindi utilizzare una regressione (che se trasformi e modifichi a volte può essere buono come un ANOVA ma non batterlo mai) per vedere quali trattamenti specifici sono significativi, (fatto apposta per fare più test t e usare alcune correzioni come Holm methid) usare una regressione.

Nei casi in cui devi prevedere le cose usa la regressione bayasiana.

La mancanza di oltre il 5% utilizza risultati potenziali

Un altro ramo dell'analisi dei dati è l'apprendimento automatico supervisionato che deve essere menzionato

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.