Il matematico vuole la conoscenza equivalente di un grado di statistiche di qualità


77

So che la gente ama di chiudere i duplicati in modo da sto non per chiedere un riferimento per iniziare le statistiche di apprendimento (come qui ).

Ho un dottorato in matematica ma non ho mai imparato le statistiche. Qual è la strada più breve per la conoscenza equivalente a un livello di statistica BS di prim'ordine e come posso misurare quando ho raggiunto questo obiettivo.

Se un elenco di libri fosse sufficiente (supponendo che io faccia gli esercizi, diciamo), è fantastico. Sì, mi aspetto che la risoluzione dei problemi sia una parte implicita dell'apprendimento, ma voglio accelerare il più realisticamente possibile. Non sto cercando un trattamento follemente rigoroso a meno che ciò non faccia parte di ciò che le major statistiche generalmente apprendono.


1
quale campo di matematica hai ricevuto il dottorato? Questo potrebbe essere rilevante.
mpiktas,

7
Potresti condividere con noi perché vuoi imparare le statistiche? Curiosità? Necessario per un progetto o una ricerca? Vuoi cambiare lavoro? Hai bisogno di insegnare alcuni corsi? Vuoi collaborare con gli statistici come persona teorica?
whuber

5
Penso che sia quasi sempre importante sviluppare anche competenze specifiche del dominio. Molte statistiche stanno imparando i modelli rilevanti per campi specifici.
Tristan,

10
Prova a invertire "lo statistico vuole conoscenze equivalenti a un livello di matematica di qualità" - non è probabile che ci siano percorsi veloci.
Probislogic,

1
"So che la gente ama chiudere i duplicati" mi ha fatto ridere.
Mustafa S Eisa,

Risposte:


77

(Molto) racconto

Per farla breve, in un certo senso, la statistica è come qualsiasi altro campo tecnico: non esiste una corsia preferenziale .

Lunga storia

I programmi di laurea triennale in statistica sono relativamente rari negli Stati Uniti. Uno dei motivi per cui credo sia vero è che è abbastanza difficile impacchettare tutto ciò che è necessario per apprendere bene le statistiche in un curriculum universitario. Ciò è particolarmente vero nelle università che hanno importanti requisiti di istruzione generale.

Lo sviluppo delle abilità necessarie (matematiche, computazionali e intuitive) richiede molto impegno e tempo. Le statistiche possono iniziare a essere comprese a un livello "operativo" abbastanza decente quando lo studente ha imparato il calcolo e una discreta quantità di algebra lineare e matriciale. Tuttavia, qualsiasi statistico applicato sa che è abbastanza facile trovarsi in un territorio che non è conforme a un cookie cutter o ad un approccio basato sulla ricetta basato sulle statistiche. Capire veramente cosa sta succedendo sotto la superficie richiede come prerequisitomaturità matematica e, nel mondo di oggi, che sono realmente raggiungibili solo negli anni successivi della formazione universitaria. Questo è uno dei motivi per cui la vera formazione statistica inizia principalmente a livello di SM negli Stati Uniti (l'India, con la loro ISI dedicata, è una storia un po 'diversa. Un argomento simile potrebbe essere avanzato per un'istruzione canadese. Non ho abbastanza familiarità con Formazione universitaria in statistica europea o russa per avere un parere informato.)

Quasi ogni lavoro (interessante) richiederebbe un'istruzione a livello di SM e i lavori davvero interessanti (a mio avviso) richiedono essenzialmente un'istruzione a livello di dottorato.

Visto che hai un dottorato in matematica, anche se non sappiamo in quale area, ecco i miei suggerimenti per qualcosa di più vicino a un'istruzione a livello di SM. Includo alcune osservazioni tra parentesi per spiegare le scelte.

  1. D. Huff, come mentire con le statistiche . (Molto veloce, facile da leggere. Mostra molte idee concettuali e insidie, in particolare, nel presentare statistiche al laico.)
  2. Mood, Graybill e Boes, Introduzione alla teoria della statistica , 3a edizione, 1974. ( Introduzione a livello di MS alle statistiche teoriche. Imparerai a conoscere le distribuzioni campionarie, la stima puntuale e il test di ipotesi in un quadro classico e frequentista. l'opinione è che questo è generalmente migliore, e un po 'più avanzato, rispetto alle controparti moderne come Casella & Berger o Rice.)
  3. Seber & Lee, Linear Regression Analysis , 2a ed. (Fornisce la teoria alla base della stima puntuale e del test di ipotesi per i modelli lineari, che è probabilmente l'argomento più importante da comprendere nelle statistiche applicate. Dato che probabilmente hai un buon background di algebra lineare, dovresti essere immediatamente in grado di capire cosa sta succedendo geometricamente , che fornisce molte intuizioni. Ha anche buone informazioni relative a problemi di valutazione nella selezione dei modelli, discostamenti da ipotesi, previsione e versioni solide di modelli lineari.)
  4. Hastie, Tibshirani e Friedman, Elements of Statistical Learning , 2nd ed., 2009. (Questo libro ha una sensazione molto più applicata rispetto all'ultimo e tratta ampiamente molti argomenti di machine learning moderni. Il contributo maggiore qui è nel fornire interpretazioni statistiche di molte idee di apprendimento automatico, che paga in particolare nella quantificazione dell'incertezza in tali modelli. Questo è qualcosa che tende a non essere affrontato nei tipici libri di apprendimento automatico. Legalmente disponibile gratuitamente qui .)
  5. A. Agresti, Analisi categorica dei dati , 2a ed. (Buona presentazione di come trattare i dati discreti in un quadro statistico. Buona teoria e buoni esempi pratici. Forse per certi versi dal lato tradizionale.)
  6. Boyd & Vandenberghe, ottimizzazione convessa . (Molti dei più popolari problemi moderni di stima statistica e verifica delle ipotesi possono essere formulati come problemi di ottimizzazione convessa. Ciò vale anche per numerose tecniche di apprendimento automatico, ad esempio SVM. Avere una comprensione più ampia e la capacità di riconoscere tali problemi come programmi convessi è piuttosto prezioso, credo. Legalmente disponibile gratuitamente qui .)
  7. Efron e Tibshirani, un'introduzione al Bootstrap . (Dovresti almeno conoscere il bootstrap e le relative tecniche. Per un libro di testo, è una lettura semplice e veloce.)
  8. J. Liu, Monte Carlo Strategies in Scientific Computing o P. Glasserman, Monte Carlo Methods in Financial Engineering . (Quest'ultimo sembra molto diretto verso una particolare area di applicazione, ma penso che fornirà una buona panoramica ed esempi pratici di tutte le tecniche più importanti. Le applicazioni di ingegneria finanziaria hanno guidato una buona parte della ricerca di Monte Carlo negli ultimi dieci anni circa .)
  9. E. Tufte, Visual Display of Quantitative Information . (Una buona visualizzazione e presentazione dei dati è [altamente] sottovalutata, anche dagli statistici.)
  10. J. Tukey, analisi dei dati esplorativi . (Standard. Vecchio, ma buono. Qualcuno potrebbe dire obsoleto, ma vale comunque la pena dare un'occhiata.)

complementi

Ecco alcuni altri libri, per lo più di natura un po 'più avanzata, teorica e / o ausiliaria, che sono utili.

  1. FA Graybill, teoria e applicazione del modello lineare . (Tipografia vecchio stile, terribile, ma copre lo stesso terreno di Seber & Lee, e altro ancora. Dico vecchio stile perché i trattamenti più moderni probabilmente tenderebbero a utilizzare l'SVD per unificare e semplificare molte tecniche e prove.)
  2. FA Graybill, matrici con applicazioni in statistica . (Testo complementare a quanto sopra. Una ricchezza di algebra a matrice buona risulta utile per le statistiche qui. Ottimo riferimento sulla scrivania.)
  3. Devroye, Gyorfi e Lugosi, una teoria probabilistica del riconoscimento dei modelli . (Testo rigoroso e teorico sulla quantificazione delle prestazioni nei problemi di classificazione.)
  4. Brockwell & Davis, Serie storiche: teoria e metodi . (Analisi delle serie storiche classiche. Trattamento teorico. Per quelli più applicati, i testi di Box, Jenkins & Reinsel o Ruey Tsay sono decenti.)
  5. Motwani e Raghavan, algoritmi randomizzati . (Metodi probabilistici e analisi per algoritmi computazionali.)
  6. D. Williams, Probabilità e Martingala e / o R. Durrett, Probabilità: teoria ed esempi . (Nel caso in cui tu abbia visto la teoria della misura, diciamo, a livello di DL Cohn, ma forse non la teoria della probabilità. Entrambi sono buoni per accelerare rapidamente se conosci già la teoria della misura.)
  7. F. Harrell, Strategie di modellazione della regressione . (Non buono come Elements of Statistical Learning [ESL], ma ha un approccio diverso e interessante alle cose. Copre argomenti statistici applicati più "tradizionali" rispetto a ESL e quindi vale la pena conoscerli.)

Testi più avanzati (a livello di dottorato)

  1. Lehmann e Casella, teoria della stima puntuale . (Trattamento a livello di dottorato della stima puntuale. Parte della sfida di questo libro è leggerlo e capire cosa è un errore di battitura e cosa non lo è. Quando ti vedrai riconoscerli rapidamente, capirai che capisci. C'è molta pratica di questo tipo lì dentro, specialmente se ti immergi nei problemi.)

  2. Lehmann e Romano, Testing Ipotesi statistiche . (Trattamento a livello di dottorato di analisi delle ipotesi. Non tanti errori di battitura come TPE sopra.)

  3. A. van der Vaart, Statistica asintotica . (Un bellissimo libro sulla teoria asintotica della statistica con buoni suggerimenti sulle aree di applicazione. Tuttavia, non un libro applicato. Il mio unico cavillo è che viene usata una notazione piuttosto bizzarra e i dettagli sono a volte spazzolati sotto il tappeto.)


1
@cardinal, le ex università sovietiche hanno studi statistici separati sugli studi universitari. All'università di Vilnius, ad esempio, puoi ottenere una laurea in statistica. Da quello che vedo con gli studenti sono pienamente d'accordo sul fatto che l'istruzione a livello di master o persino di dottorato sia necessaria per lavori interessanti.
mpiktas,

1
+

2
@ John Salvatier, hai ragione sul fatto che questi metodi non sono trattati in questo testo. Poi di nuovo, questo mi sembra più una questione di gusti, soprattutto perché l'attenzione principale del testo non è sugli algoritmi. In altre parole, le tue preoccupazioni vengono affrontate direttamente dagli autori nell'introduzione (pag. 13).
cardinale il

2
@cardinal: le università scandinave di solito offrono anche gradi di laurea. Detto questo, penso che gli statistici si prendano un po 'troppo sul serio. Non sono d'accordo sul fatto che avresti bisogno di un dottorato per ottenere un lavoro "interessante". Credo che, man mano che la scienza e la ricerca diventano sempre più statistiche interdisciplinari sono state imposte agli studi in molti settori diversi. La metà degli articoli su riviste ad alto impatto ha alcune discutibili analisi statistiche, solo per soddisfare le esigenze, anche se potrebbe non avere alcun senso, dato nel contesto / dominio originale del problema.
posdef

1
Il libro @cardinal Mood è stato un grande suggerimento perché al giorno d'oggi è difficile trovare un libro introduttivo sulle statistiche che sia abbastanza formale per qualcuno con una preparazione in matematica. Qualcuno ha letto questo libro nuovo libro? Panateros, "Statistics for Mathematicians" springer.com/us/book/9783319283395
Igor Fobia,

11

Non posso parlare per le scuole più rigorose, ma sto facendo un BS in General Statistics (il più rigoroso nella mia scuola) presso l'Università della California, Davis, e c'è una quantità abbastanza pesante di dipendenza da rigore e derivazione. Un dottorato in matematica sarà utile, in quanto avrai un background molto forte in analisi reali e algebra lineare - abilità utili in statistica. Il mio programma statistico ha circa il 50% dei corsi a supporto dei fondamenti (algebra lineare, analisi reale, calcolo, probabilità, stima) e l'altro 50% si concentra su argomenti specializzati che si basano sui fondamenti (non parametrici, calcolo, ANOVA / Regressione, serie storiche, analisi bayesiana).
Una volta ottenuti i fondamenti, saltare ai dettagli non è di solito troppo difficile. La maggior parte delle persone nelle mie classi hanno difficoltà con le prove e le analisi reali e comprendono facilmente i concetti statistici, quindi provenire da un background matematico sarà sicuramente di aiuto. Detto questo, i seguenti due testi hanno una buona copertura di molti argomenti trattati nelle statistiche. Entrambi sono stati raccomandati nel collegamento che hai fornito, a proposito, quindi non direi che la tua domanda e quella che hai collegato sono necessariamente non correlate.

Metodi matematici di statistica , di Harald Cramer

Tutta la statistica: un corso conciso di inferenza statistica , di Larry Wasserman


3
+1 Tutte le statistiche: sarebbe un ottimo punto di partenza.
Simon Byrne,

1
il programma UC-Davis sembra buono e penso che otterrai un'ottima educazione lì. Non lo considero "meno rigoroso" rispetto ad altri posti. Ho pensato che il commento sulla loro pagina "laurea integrata in BS / MS" fosse interessante e pertinente alla discussione: "Vi è una forte domanda di statistici, ma le conoscenze e le abilità raggiunte da coloro che hanno una laurea in Statistica non sono spesso sufficienti per i bisogni sul posto di lavoro [governativo o industriale] ".
cardinale il

9

La Royal Statistical Society nel Regno Unito offre il Diploma di Laurea in Statistica, che è al livello di una buona laurea. Un programma, una lista di lettura e documenti precedenti sono disponibili sul loro sito web . Ho conosciuto che i matematici lo usano per mettersi al passo con le statistiche. Sostieni gli esami (ufficialmente o nel comfort del tuo studio) potrebbe essere un modo utile per misurare quando sei lì.


3
Gli esami di Diploma di Laurea sono effettivamente esami di laurea dell'ultimo anno; per scopi di "stadiazione" ci sono certificati di livello inferiore che possono essere presi per primi. Gli esami RSS sono disponibili, se ricordo bene, in tutto il mondo ad eccezione di Hong Kong (che ha la sua società statistica e gli esami). Un'alternativa è il Diploma di Laurea in Statistica offerto dall'apprendimento a distanza dalla Open University nel Regno Unito, ma di nuovo disponibile in tutto il mondo. Questo è di livello leggermente inferiore rispetto al Dip Grad di RSS, quindi può essere visto come una preparazione per esso. Come corso di insegnamento è sostanzialmente più costoso.
Silverfish,

5

Andrei sui siti web del curriculum delle migliori scuole di statistica, scrivo i libri che usano nei loro corsi di laurea, vedo quali sono i più votati su Amazon e li ordinano nella tua biblioteca pubblica / universitaria.

Alcune scuole da considerare:

Completa i testi con i vari siti di video di lezioni come MIT OCW e videolectures.net.

Caltech non ha una laurea in statistica, ma non sbaglierai seguendo il curriculum dei loro corsi di statistica per studenti.


1
questo sembra un po 'un elenco strano. Per quanto ne so, Carnegie Mellon è l' unica scuola in quella lista che (formalmente) offre un corso di laurea in statistica. Né Caltech né il MIT hanno nemmeno programmi di laurea in statistica.
cardinale il

@cardinale. perché devi dubitare di me? :) Ho inserito dei link ai corsi di statistica per studenti universitari in quelle belle istituzioni. Inoltre, mescolando e abbinando i corsi delle migliori scuole uscirà dopo un percorso di laurea da una scuola peggiore.
Neil McGuigan,

2
OCW è sicuramente una risorsa eccellente e una grande iniziativa. Questo non è dubbio. Per quanto riguarda la tua affermazione che mescolare e abbinare le "migliori scuole" è una soluzione superiore, lo trovo altamente sospetto, in particolare per gli studi universitari. Mentre uno studente altamente motivato è tenuto a ottenere un'istruzione universitaria molto buona in una di quelle scuole, un'istruzione universitaria come buona o migliore può essere trovata in molte, molte scuole "peggiori". Scuole come quelle che elenchi tendono a "vincere" per l'istruzione universitaria, direi.
cardinale il

2
In realtà, questa è stata la prima cosa che ho provato. Ho provato questo prima di pubblicare la domanda. Trovare un elenco di corsi non è stato difficile, ma trovare informazioni su quali libri sono stati effettivamente utilizzati per quei corsi e quali sezioni di quei libri sono stati trattati è stato molto più difficile.
John Robertson,

3

Ho visto Statistical Inference, di Silvey, usato dai matematici che avevano bisogno di una certa conoscenza quotidiana delle statistiche. È un piccolo libro e, per diritto, dovrebbe essere economico. Guardando http://www.amazon.com/Statistical-Inference-Monographs-Statistics-Probability/dp/0412138204/ref=sr_1_1?ie=UTF8&s=books&qid=1298750064&sr=1-1 , sembra essere di seconda mano a buon mercato.

È vecchio e si concentra sulle statistiche classiche. Sebbene non sia altamente astratto, è destinato a un pubblico ragionevolmente matematico - molti degli esercizi provengono dal Diploma di Cambridge (UK) in Mathematical Statistics, che è fondamentalmente un Master.


3

Per quanto riguarda la misurazione delle tue conoscenze: potresti partecipare ad alcuni concorsi di data mining / analisi dei dati, come 1 , 2 , 3 , 4 , e vedere come ottieni un punteggio rispetto ad altri.

Ci sono molti suggerimenti per i libri di testo sulle statistiche matematiche nelle risposte. Vorrei aggiungere argomenti pertinenti:

  • la componente empirica della ricerca sociale, che comprende la teoria del campionamento, gli standard sociodemografici e regionali
  • gestione dei dati, che include knowlegde su database (scrittura di query SQL, schemi di database comuni)
  • comunicazione, come presentare i risultati in modo che il pubblico rimanga sveglio (metodi di visualizzazione)

Disclaimer: non sono uno statistico, sono solo i miei 2 centesimi


3

ET Jaynes "Teoria della probabilità: la logica della scienza: principi e applicazioni elementari Vol 1", Cambridge University Press, 2003 è praticamente una lettura obbligata per il lato bayesiano delle statistiche, al livello giusto. Non vedo l'ora di ricevere raccomandazioni per il lato frequentista delle cose (ho un sacco di monografie, ma pochissimi buoni testi generali).


3
Suggerirei che è un must per chiunque voglia essere un buon statistico, frequentista, bayesiano o qualsiasi altra cosa.
Probislogic,

10
Non sono d'accordo, il libro di Jaynes è una terribile raccomandazione in questa circostanza: 1) la notazione è sciatta e non standard, il che rende difficile incrociare il riferimento con altre fonti, 2) è lungo e si impantana in argomenti sciocchi e irrilevanti (l'OP ha chiesto la "via più breve") 3) ci sono anche gli errori (come il paradosso dell'emarginazione)
Simon Byrne,

1
@Dikran Marsupial, possiedi il testo di Schervish sull'inferenza statistica? Sono stato sul recinto per quanto riguarda se acquistarlo o no, quindi era curioso, dal momento che sembra allinearti abbastanza fortemente con l'approccio bayesiano.
cardinale il

1
Non direi che ero fortemente allineato all'approccio bayesiano. È l'approccio che comprendo meglio, che non è la stessa cosa. Fondamentalmente sono un ingegnere e voglio entrambi gli strumenti nella mia cassetta degli attrezzi, mantenuti in ordine! Una corretta comprensione dei vantaggi e degli svantaggi di ciascun approccio è ciò a cui dovremmo puntare. Non ho un libro sugli Shervish, ma ho letto un suo articolo sui fattori di Bayes che mi è sembrato piuttosto imperfetto (vedrò se riesco a trovarlo e faccio una domanda a qualcuno per spiegarmelo!).
Dikran Marsupial,

@Dikran, la tua (potenziale) domanda sembra interessante. Non vedo l'ora di pubblicare un post.
cardinale

3

Vengo da un background informatico incentrato sull'apprendimento automatico. Tuttavia, ho davvero iniziato a capire (e più importante applicare) le statistiche dopo aver seguito un corso di riconoscimento dei modelli usando Bishop's Book https://www.microsoft.com/en-us/research/people/cmbishop/#!prml-book

ecco alcune slide del corso del MIT:
http://www.ai.mit.edu/courses/6.867-f03/lectures.html

Questo ti darà solo lo sfondo (+ un po 'di codice matlab) per usare le statistiche per problemi di lavoro reali ed è sicuramente più sul lato applicato.

Tuttavia, dipende molto da cosa vuoi fare con le tue conoscenze. Per ottenere una misura di quanto sei bravo potresti voler consultare i corsi aperti di alcune università per i corsi di statistica avanzata, per verificare se conosci gli argomenti trattati. Solo il mio 5 cent.


1

Penso che Stanford fornisca le migliori risorse in termini di flessibilità. Hanno anche un corso di apprendimento automatico online che ti fornirà una base di conoscenza rispettabile quando si tratta di progettare algoritmi in R. Cerca su Google e ti reindirizzerà alla loro pagina Lagunita dove hanno alcuni corsi interessanti, la maggior parte di essendo liberi. Ho i libri di Tibshirani, Introduzione all'apprendimento statistico 'e' Elementi di apprendimento statistico 'in formato PDF ed entrambi sono risorse estremamente buone.

Dato che sei un matematico, ti consiglierei comunque di non accelerare in quanto ciò non ti fornirebbe una solida base che potresti trovare molto utile in futuro se inizi a fare un serio apprendimento automatico. Tratta le statistiche come una branca della matematica per ottenere approfondimenti dai dati e ciò richiede un certo lavoro. Oltre a questo, ci sono tonnellate di risorse online, Johns Hopkins fornisce cose simili a Stanford. Sebbene l'esperienza paghi sempre, una credenziale rispettabile rafforzerà sempre quella base. Puoi anche pensare ai campi specifici che vorresti inserire; con ciò intendo se vuoi approfondire l'analisi del testo o applicare le tue abilità matematiche e statistiche in ambito finanziario. Vengo in quest'ultima categoria, quindi ho una laurea in econometria in cui abbiamo studiato finanza + statistica. Una combinazione può sempre essere molto buona.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.