Richiesta di riferimento: statistiche classiche per scienziati dei dati di lavoro


10

Sono uno scienziato di dati di lavoro con una solida esperienza in regressione, altri algoritmi di tipo di apprendimento automatico e programmazione (sia per l'analisi dei dati che per lo sviluppo generale del software). La maggior parte della mia vita lavorativa si è concentrata sulla costruzione di modelli per l'accuratezza predittiva (lavorando sotto vari vincoli aziendali) e sulla costruzione di pipeline di dati per supportare il mio lavoro (e quello degli altri).

Non ho una formazione formale in statistica, la mia formazione universitaria si è concentrata sulla matematica pura. Come tale hanno perso l'apprendimento di molti degli argomenti classici, in particolare i vari test di ipotesi popolari e tecniche inferenziali.

Ci sono riferimenti per questi argomenti che sarebbero appropriati per qualcuno con il mio background e livello di esperienza? Sono in grado di gestire (e apprezzare) il rigore matematico e anche di godere di prospettive algoritmiche. Tendo ad amare i riferimenti che offrono al lettore esercizi guidati, con entrambi (o uno) un focus matematico e (o) di programmazione.


2
Come un altro Matt di origini matematiche, con una conoscenza approfondita delle statistiche, posso riferirmi! Ci sono aree / applicazioni particolari a cui sei interessato? Una cosa a cui prestare attenzione con le statistiche classiche è quali ipotesi vengono utilizzate.
GeoMatt22,

Risposte:


3

All of Statistics di Larry Wasserman è un bel libro per fare un giro vorticoso di statistiche matematiche. È stato il primo libro sulle statistiche matematiche che ho usato da solo. Include i classici come il test delle ipotesi e la stima della massima verosimiglianza, ma ha anche un'ampia copertura di argomenti sviluppati di recente ma ugualmente importanti come il bootstrap. Wasserman ha sempre un piede nelle statistiche e l'altro nell'apprendimento automatico, cosa che penso dovrebbero fare tutti gli analisti di dati contemporanei; se conosci solo un campo dei due, ti perderai molto. Inoltre, il libro ha molti buoni esercizi.

Se hai un background nell'analisi reale e vuoi le cose grezze e non tagliate, con cui intendo un trattamento teorico di misura della probabilità e delle statistiche, prova la teoria delle statistiche di Mark J. Schervish . Schervish è metà di DeGroot e Schervish, il cui libro meno tecnico Probabilità e statistica è forse il libro più popolare sulla statistica matematica oggi. Theory of Statistics è un libro molto utile per un argomento di solito riservato agli studenti laureati che dovrebbero svolgere tutto il lavoro da soli. Ad essere onesti, ho trovato questo libro molto difficile (anche se non così difficile come le statistiche matematiche di Jun Shao) e alla fine ho sentito l'immenso sforzo richiesto per padroneggiare non è stato un buon uso del mio tempo come analista di dati applicati. Ma ho ancora imparato molto e ho capito bene cos'è la teoria della misura e come può essere usata per ripulire le difficoltà teoriche pelose che sorgono nell'approccio tradizionale più ingenuo alla teoria della probabilità. Ho anche imparato ad apprezzare meglio le somiglianze e le differenze di scambiabilità e indipendenza.


2

A parte gli ottimi suggerimenti di Kodiologist (+1), consiglierei anche di esaminare l'argomento degli studi osservazionali . Penso che sia un campo molto poco apprezzato tra i data scientist nonostante il fatto che in molti casi i dati analizzati siano di natura osservativa. Penso che ciò sia dovuto al fatto che la maggior parte della bibliografia (specialmente in Biostatistica) presume che sia già in atto un progetto quasi sperimentale. I libri di Paul Rosenbaum, studi osservazionali e design degli studi osservazionali sono alcuni dei riferimenti più comunemente usati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.