(Molto) racconto
Per farla breve, in un certo senso, la statistica è come qualsiasi altro campo tecnico: non esiste una corsia preferenziale .
Lunga storia
I programmi di laurea triennale in statistica sono relativamente rari negli Stati Uniti. Uno dei motivi per cui credo sia vero è che è abbastanza difficile impacchettare tutto ciò che è necessario per apprendere bene le statistiche in un curriculum universitario. Ciò è particolarmente vero nelle università che hanno importanti requisiti di istruzione generale.
Lo sviluppo delle abilità necessarie (matematiche, computazionali e intuitive) richiede molto impegno e tempo. Le statistiche possono iniziare a essere comprese a un livello "operativo" abbastanza decente quando lo studente ha imparato il calcolo e una discreta quantità di algebra lineare e matriciale. Tuttavia, qualsiasi statistico applicato sa che è abbastanza facile trovarsi in un territorio che non è conforme a un cookie cutter o ad un approccio basato sulla ricetta basato sulle statistiche. Capire veramente cosa sta succedendo sotto la superficie richiede come prerequisitomaturità matematica e, nel mondo di oggi, che sono realmente raggiungibili solo negli anni successivi della formazione universitaria. Questo è uno dei motivi per cui la vera formazione statistica inizia principalmente a livello di SM negli Stati Uniti (l'India, con la loro ISI dedicata, è una storia un po 'diversa. Un argomento simile potrebbe essere avanzato per un'istruzione canadese. Non ho abbastanza familiarità con Formazione universitaria in statistica europea o russa per avere un parere informato.)
Quasi ogni lavoro (interessante) richiederebbe un'istruzione a livello di SM e i lavori davvero interessanti (a mio avviso) richiedono essenzialmente un'istruzione a livello di dottorato.
Visto che hai un dottorato in matematica, anche se non sappiamo in quale area, ecco i miei suggerimenti per qualcosa di più vicino a un'istruzione a livello di SM. Includo alcune osservazioni tra parentesi per spiegare le scelte.
- D. Huff, come mentire con le statistiche . (Molto veloce, facile da leggere. Mostra molte idee concettuali e insidie, in particolare, nel presentare statistiche al laico.)
- Mood, Graybill e Boes, Introduzione alla teoria della statistica , 3a edizione, 1974. ( Introduzione a livello di MS alle statistiche teoriche. Imparerai a conoscere le distribuzioni campionarie, la stima puntuale e il test di ipotesi in un quadro classico e frequentista. l'opinione è che questo è generalmente migliore, e un po 'più avanzato, rispetto alle controparti moderne come Casella & Berger o Rice.)
- Seber & Lee, Linear Regression Analysis , 2a ed. (Fornisce la teoria alla base della stima puntuale e del test di ipotesi per i modelli lineari, che è probabilmente l'argomento più importante da comprendere nelle statistiche applicate. Dato che probabilmente hai un buon background di algebra lineare, dovresti essere immediatamente in grado di capire cosa sta succedendo geometricamente , che fornisce molte intuizioni. Ha anche buone informazioni relative a problemi di valutazione nella selezione dei modelli, discostamenti da ipotesi, previsione e versioni solide di modelli lineari.)
- Hastie, Tibshirani e Friedman, Elements of Statistical Learning , 2nd ed., 2009. (Questo libro ha una sensazione molto più applicata rispetto all'ultimo e tratta ampiamente molti argomenti di machine learning moderni. Il contributo maggiore qui è nel fornire interpretazioni statistiche di molte idee di apprendimento automatico, che paga in particolare nella quantificazione dell'incertezza in tali modelli. Questo è qualcosa che tende a non essere affrontato nei tipici libri di apprendimento automatico. Legalmente disponibile gratuitamente qui .)
- A. Agresti, Analisi categorica dei dati , 2a ed. (Buona presentazione di come trattare i dati discreti in un quadro statistico. Buona teoria e buoni esempi pratici. Forse per certi versi dal lato tradizionale.)
- Boyd & Vandenberghe, ottimizzazione convessa . (Molti dei più popolari problemi moderni di stima statistica e verifica delle ipotesi possono essere formulati come problemi di ottimizzazione convessa. Ciò vale anche per numerose tecniche di apprendimento automatico, ad esempio SVM. Avere una comprensione più ampia e la capacità di riconoscere tali problemi come programmi convessi è piuttosto prezioso, credo. Legalmente disponibile gratuitamente qui .)
- Efron e Tibshirani, un'introduzione al Bootstrap . (Dovresti almeno conoscere il bootstrap e le relative tecniche. Per un libro di testo, è una lettura semplice e veloce.)
- J. Liu, Monte Carlo Strategies in Scientific Computing o P. Glasserman, Monte Carlo Methods in Financial Engineering . (Quest'ultimo sembra molto diretto verso una particolare area di applicazione, ma penso che fornirà una buona panoramica ed esempi pratici di tutte le tecniche più importanti. Le applicazioni di ingegneria finanziaria hanno guidato una buona parte della ricerca di Monte Carlo negli ultimi dieci anni circa .)
- E. Tufte, Visual Display of Quantitative Information . (Una buona visualizzazione e presentazione dei dati è [altamente] sottovalutata, anche dagli statistici.)
- J. Tukey, analisi dei dati esplorativi . (Standard. Vecchio, ma buono. Qualcuno potrebbe dire obsoleto, ma vale comunque la pena dare un'occhiata.)
complementi
Ecco alcuni altri libri, per lo più di natura un po 'più avanzata, teorica e / o ausiliaria, che sono utili.
- FA Graybill, teoria e applicazione del modello lineare . (Tipografia vecchio stile, terribile, ma copre lo stesso terreno di Seber & Lee, e altro ancora. Dico vecchio stile perché i trattamenti più moderni probabilmente tenderebbero a utilizzare l'SVD per unificare e semplificare molte tecniche e prove.)
- FA Graybill, matrici con applicazioni in statistica . (Testo complementare a quanto sopra. Una ricchezza di algebra a matrice buona risulta utile per le statistiche qui. Ottimo riferimento sulla scrivania.)
- Devroye, Gyorfi e Lugosi, una teoria probabilistica del riconoscimento dei modelli . (Testo rigoroso e teorico sulla quantificazione delle prestazioni nei problemi di classificazione.)
- Brockwell & Davis, Serie storiche: teoria e metodi . (Analisi delle serie storiche classiche. Trattamento teorico. Per quelli più applicati, i testi di Box, Jenkins & Reinsel o Ruey Tsay sono decenti.)
- Motwani e Raghavan, algoritmi randomizzati . (Metodi probabilistici e analisi per algoritmi computazionali.)
- D. Williams, Probabilità e Martingala e / o R. Durrett, Probabilità: teoria ed esempi . (Nel caso in cui tu abbia visto la teoria della misura, diciamo, a livello di DL Cohn, ma forse non la teoria della probabilità. Entrambi sono buoni per accelerare rapidamente se conosci già la teoria della misura.)
- F. Harrell, Strategie di modellazione della regressione . (Non buono come Elements of Statistical Learning [ESL], ma ha un approccio diverso e interessante alle cose. Copre argomenti statistici applicati più "tradizionali" rispetto a ESL e quindi vale la pena conoscerli.)
Testi più avanzati (a livello di dottorato)
Lehmann e Casella, teoria della stima puntuale . (Trattamento a livello di dottorato della stima puntuale. Parte della sfida di questo libro è leggerlo e capire cosa è un errore di battitura e cosa non lo è. Quando ti vedrai riconoscerli rapidamente, capirai che capisci. C'è molta pratica di questo tipo lì dentro, specialmente se ti immergi nei problemi.)
Lehmann e Romano, Testing Ipotesi statistiche . (Trattamento a livello di dottorato di analisi delle ipotesi. Non tanti errori di battitura come TPE sopra.)
A. van der Vaart, Statistica asintotica . (Un bellissimo libro sulla teoria asintotica della statistica con buoni suggerimenti sulle aree di applicazione. Tuttavia, non un libro applicato. Il mio unico cavillo è che viene usata una notazione piuttosto bizzarra e i dettagli sono a volte spazzolati sotto il tappeto.)