Da dove iniziare con le statistiche per uno sviluppatore esperto


47

Durante la prima metà del 2015 ho seguito il corso di Machine Learning (di Andrew Ng, GRANDE corso). E imparato le basi dell'apprendimento automatico (regressione lineare, regressione logistica, SVM, reti neuronali ...)

Inoltre sono uno sviluppatore da 10 anni, quindi imparare un nuovo linguaggio di programmazione non sarebbe un problema.

Ultimamente, ho iniziato a studiare R per implementare algoritmi di machine learning.

Tuttavia mi sono reso conto che se voglio continuare ad apprendere avrò bisogno di una conoscenza più formale delle statistiche, attualmente ne ho una conoscenza non formale, ma così limitata che, ad esempio, non potrei determinare correttamente quale dei diversi modelli lineari sarebbe meglio (normalmente tendo ad usare R-square per questo, ma a quanto pare non è una buona idea).

Quindi per me sembra abbastanza ovvio che ho bisogno di imparare le basi della statistica (l'ho studiato in uni ma ho dimenticato la maggior parte di esso), dove dovrei imparare, per favore nota che non ho davvero bisogno di un corso completo, solo qualcosa che entro un mese mi permette di sapere abbastanza in modo da poter diventare desideroso e saperne di più :).

Finora ho letto " Statistiche senza lacrime ", qualche altro suggerimento?


2
Per le statistiche: Casella, G. e RL Berger (2002): Statistical Inference, Duxbury. Per econometria: Hayashi, F. (2000): Econometria, Princeton University Press. Per un altro punto di vista: stats.stackexchange.com/questions/91863/…
Guilherme Salomé,

Ho aggiunto il referencestag. Potresti scannerizzare la prima pagina di hit su quell'argomento.
Glen_b,

3
Non vedo che questo dovrebbe essere chiuso. Vedo però un argomento per renderlo in CW.
gung - Ripristina Monica

2
Dal mio punto di vista, la conoscenza sarà distorta se inizi a imparare le statistiche senza conoscere le teorie della probabilità prima.
Metariat,

2
Vorrei aggiungere una parola di avvertimento. Sono sicuro che lo capisci già in una certa misura, ma voglio solo dirlo. Sono uno studente MD / PhD. Con la mia laurea in medicina, ho intenzione di praticare la medicina interna. Per il mio dottorato, sto studiando biostatistica. Voglio che tu sappia che non puoi più ottenere una padronanza delle statistiche in 1 mese di quanto tu possa avere una padronanza della medicina in un mese. Non sto assolutamente cercando di scoraggiarti dall'apprendimento delle statistiche. Al contrario, spero che lo capirai magnificamente. Ma basta capire che non è meno coinvolto del voler essere uno sviluppatore, per esempio.
Vincent Laufer,

Risposte:


26

Ti suggerirei una road map di base su come procedere:

Bonus:

Un sito meraviglioso per tali road map è Metacademy , che personalmente definirei una delle migliori risorse di data science sul web.

Gitxiv è un altro bellissimo sito che collega i documenti di ricerca di Arxiv su Data Science con le relative implementazioni / librerie open source.


2
OP ha già seguito il corso di Ng, questo è ciò che lo ha spinto a porre la domanda in primo luogo.
Aksakal,

4
@Aksakal L'ho notato. Ma l'ha incluso come parte della road map. Non farebbe davvero la differenza, quindi ho pensato che includerlo avrebbe aiutato gli altri a leggere questo post.
Dawny33,

12

Hai verificato Think Stats o Think Bayes : entrambi sono libri di statistiche (gratuiti) rivolti ai programmatori e con un sacco di codice Python.

Inoltre, se siete interessati a saperne di R poi CRAN ha un sacco di file PDF (gratuito) che si potrebbe desiderare di controllare, come Introduzione alla Probabilità e Statistica Uso R . C'è anche un corso Coursera che usa R che molte persone adorano davvero (usano questo libro di testo , che potresti voler controllare anche e hanno dei laboratori su DataCamp , credo).

Inoltre, se vuoi rispolverare alcuni argomenti delle statistiche, puoi sempre guardare un paio di video su Khan Academy .


Mi piacciono Think Stats e Think Bayes, ma evitano deliberatamente molta della teoria statistica formale a favore del completamento delle attività tramite il codice. Ottimo per avere una comprensione intuitiva dell'argomento, ma non altrettanto se il tuo obiettivo è comprendere la teoria di base.
Marius,

@Marius: so cosa intendi. Stavo pensando, tuttavia, perché è già un programmatore e anche perché sembrava voler "qualcosa di piccolo, semplice e veloce" che potesse essere più di quello che sta cercando.
Steve S,

8

Se mai, anche in un lontano passato, sei stato in grado di risolvere i problemi in questo elenco , allora dovresti provare a studiare le statistiche applicate "correttamente". Ti darò un semplice algoritmo in due fasi.

Innanzitutto, mettiti al passo con la teoria della probabilità. Ci sono molti grandi libri. Il mio preferito è il libro classico di Feller. Si chiama "Introduzione", ma non lasciarti ingannare dal titolo, è profondo come vorresti andare, ma molto ben scritto e semplice se vuoi solo sfiorare la superficie.

Il secondo passo sono le statistiche. Ancora una volta, ci sono un sacco di grandi libri. Te ne darò uno che ho usato, un discreto testo introduttivo del Gujarati "Basic Econometrics", Quarta Edizione. L'econometria è la statistica applicata all'economia. Per riferimento, un ragazzo che tutti pensano che il data scientist diventerà un lavoro più sexy nei prossimi 10 anni è Hal Varian, un economista di Berkeley. Molte cose di machine learning si basano su statistiche di base, regressioni, ecc. Tutto ciò che è trattato in questo libro, e non è necessario leggere tutto, è scritto in un modo che puoi scegliere i capitoli nel tuo ordine.

Rimarrai sorpreso di vedere quante lacune sono rimaste aperte dopo che la lezione di Ng si è riempita rapidamente durante la lettura di questi testi.

Come praticante, non hai bisogno di troppa teoria dopo questi due passaggi. Puoi continuare ad imparare le tecniche ML specificatamente leggendo i libri in questo campo. È importante non approfondire all'inizio la probabilità e le statistiche. Ottieni prima il tuo codice per ML e colma le lacune man mano che procedi.


4

Tutti raccomandano Casella & Berger, che viene quasi universalmente utilizzato nei programmi di statistica dei laureati. Non è un brutto libro di consultazione, ma non sono sicuro che farei altro che scansionare i primi 4-5 capitoli. Non credo che tu abbia bisogno della teoria di come costruire un test di tipo Neyman-Pearson prima di approfondire le "statistiche", ovvero l'analisi dei dati.

Invece, mi concentrerei sui metodi di apprendimento. Il mio corso di laurea ha usato i metodi statistici lineari applicati per i test dei frequentisti ed è un riferimento completo abbastanza decente, ma potrebbe non essere il libro più accessibile dal punto di vista dell'autodidatta. Un corso o due dal MIT o dalla corsia potrebbe essere un modo migliore per iniziare, perché otterrai una panoramica più ampia con più esempi di quanti ne potresti leggere leggendo un libro.

Per Bayes, il libro che ho visto usato più spesso è Doing Bayesian Data Analysis , che viene fornito con immagini di cuccioli (chiaramente, questo rende il libro superiore ad altri libri di testo introduttivi bayesiani). Non ho mai usato il libro da solo, ma l'ho sfogliato e sembra abbastanza decente - molto meglio del libro di Gelman, che ho trovato in qualche modo incomprensibile DOPO due lezioni nelle statistiche bayesiane - le spiegazioni sono terribili.


1
I primi 5 capitoli di C&B in realtà non sono affatto statistiche, più come uno sfondo ... Il concetto di statistica è affrontato all'inizio del capitolo 6! Più precisamente, i metodi di apprendimento probabilmente non aiuteranno questa persona specifica. lo aiuterebbe ad applicare le statistiche, non a comprenderle, che è ciò di cui ha bisogno. se ha una formazione matematica avanzata, probabilmente può saltare in una certa misura, ma la sua risposta suggerisce che attualmente non è in grado di capire le basi della ML ... il che suggerisce fortemente che la sua matematica è limitante (almeno per me). C&B potrebbe non essere un brutto posto per iniziare.
Vincent Laufer,

1
Potrebbero non essere statistiche, ma lo sfondo delle distribuzioni di probabilità è essenziale per fare qualsiasi tipo di modellistica: ad esempio, devi sapere cos'è una distribuzione di bernoulli e quali sono le sue proprietà prima di poter comprendere la regressione logistica. Di tanto in tanto faccio ancora riferimento a C&B, ma non credo di aver mai usato nulla oltre il capitolo 6 al di fuori della classe che ho preso in quel libro.
srvanderplas,

1
sono abbastanza d'accordo con quello che hai detto, ma si riferisce alla digressione anziché al punto principale - che è colpa mia per aver aggiunto la digressione in primo luogo. in ogni caso, il punto principale è che, come molti altri hanno suggerito, ciò che l'OP deve effettivamente fare è ottenere una migliore comprensione della matematica e delle statistiche teoriche. nessun posto nel post indica che ha bisogno di aiuto con l'applicazione di ulteriori test statistici. può farlo. desidera capirli più profondamente. per questo, C&B è meglio che imparare più mani sulla preparazione orientata all'applicazione.
Vincent Laufer,

3

Questa non vuole essere una risposta completa, è solo un suggerimento. Se vuoi saperne di più sulle statistiche (la base), puoi leggere:

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

Questo è un libro piuttosto standard per gli statistici e ha molti risultati interessanti. Non è necessario esaminare tutte le prove dei teoremi, ma potresti voler fare alcuni esercizi per sentirti più sicuro con i risultati.

Se vuoi saperne di più sull'econometria (modelli per i dati), puoi dare un'occhiata a:

Hayashi, F. (2000): Econometrics, Princeton University Press

Qualcun altro in realtà ha chiesto qualcosa di simile a quello che hai chiesto e ottenuto una bella risposta: cosa fare dopo "Casella & Berger" .

Inoltre, se hai davvero intenzione di leggere questi libri, questo programma di un corso di econometria può darti una buona direzione e un passo su cosa leggere (CB e Hayashi) e quando leggere.


Grazie per il suggerimento, tuttavia il primo libro di cui parli è di circa 660 pagine ... Ho letto libri più grandi, ma c'è qualcosa di piccolo, semplice e veloce in modo da poterne avere una conoscenza di base?
Juan Antonio Gomez Moriano,

3
Casella e Berger ti forniranno un pezzo della teoria della statistica, ma imparerai molto poco sull'analisi dei dati.
Glen_b,

1
@JuanAntonioGomezMoriano quanto eri piccolo dopo? Sono sempre stato un fan di Come mentire con le statistiche come punto di partenza.
icc97,

(-1) Sembrano scelte perfette per qualcuno che preferisce un approccio matematico o teorico alla statistica, praticamente l'opposto di quanto richiesto dal PO.
Gala,

1
Ha detto che aveva bisogno di una conoscenza più "formale" e di conoscenze di base sulle statistiche.
Guilherme Salomé,

2

Suggerirei un nuovo libro che è uscito dalla domanda originale: Ripensamento statistico: un corso bayesiano con esempi in R e Stan di Richard McElreath, CRC Press.

È scritto molto bene e usa un approccio bayesiano. È molto interattivo e vorrai risolvere i problemi o potresti riuscire a metà strada e iniziare a perderti.

Inizia molto di base e finisce con modelli multi-livello, ed è rivolto a scienziati abbastanza avanzati che hanno alcune conoscenze statistiche ma non si sentono a proprio agio con le statistiche come è stato loro insegnato. Quindi non posso dire esattamente che sia un libro per principianti, ma inizia in modo molto semplice e ha un arco e uno stile meravigliosi.

La parte "Stan" del titolo è uno strumento di campionamento bayesiano per tutti gli usi. In sostanza, è un linguaggio di programmazione che si compila automaticamente in C ++ e quindi viene compilato in un eseguibile. (L'inferenza bayesiana è generale, a differenza delle alternative, quindi puoi avere uno strumento generalizzato.)


1

Ho pensato di dare questa risposta ai posteri, anche se probabilmente è troppo tardi per esserti utile. All Of Statistics di Larry Wasserman è stato concepito come un corso per persone con un background in machine learning, altre discipline scientifiche o matematica che non avevano alcuna formazione formale in statistica - vale a dire, le persone praticamente nella tua situazione attuale. Avendo una simile mancanza di statistiche formali, alcuni amici e io abbiamo formato un gruppo di studio autonomo per passare attraverso la scuola di specializzazione. Penso di aver davvero beneficiato di quell'esperienza.

Gli argomenti extra che Wasserman approfondisce oltre al tipico materiale del corso "Probabilità e inferenza statistica", come i modelli grafici e il bootstrap, sono particolarmente rilevanti per chi lavora nell'apprendimento automatico. Dovrei dire che il libro può essere piuttosto conciso rispetto a qualcosa come Casella & Berger, quindi se vuoi maggiori dettagli o motivazione per alcune parti (in particolare le prove) potresti doverlo integrare con altro materiale di lettura. Detto questo, ho anche trovato il libro chiaramente scritto con un buon numero di problemi di pratica, ed è un eccellente riferimento rapido.

Un mese non è molto tempo. Se stabilisci un ritmo molto aggressivo, tuttavia, penso che puoi sicuramente trarre molto da questo testo in un semestre: per esempio, abbiamo fatto il nostro gruppo di autoapprendimento durante l'estate. Ciò è particolarmente vero se sei principalmente interessato alla modellazione lineare, che colpirai Ch. 13-14.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.