Libri sulla "Scienza" in Data Science? [chiuso]


26

Quali sono i libri sulla scienza e la matematica dietro la scienza dei dati? Sembra che molti libri di "scienza dei dati" siano tutorial di programmazione e non tocchino cose come i processi di generazione dei dati e l'inferenza statistica. Posso già programmare, ciò su cui sono debole è la matematica / statistiche / teoria dietro ciò che sto facendo.

Se sono pronto a bruciare $ 1000 sui libri (quindi circa 10 libri ... sospiro), cosa potrei comprare?

Esempi: analisi categorica dei dati Agresti , modelli misti lineari per dati longitudinali , ecc ... ecc ...


Chiedere libri "buoni" attirerà risposte basate sull'opinione e quindi è fuori tema. Flagged.
Spacedman,

3
L'ho cambiato, quindi sto solo cercando libri. Niente di basato sull'opinione.
Anton,

È scritto nelle statistiche :) Attenersi a qualcosa di pragmatico che si concentra sulla previsione piuttosto che sull'inferenza. Entrambi gli elementi dell'apprendimento statistico e un'introduzione all'apprendimento statistico sono negli elenchi della maggior parte delle persone.
Dirk Eddelbuettel,

Non posso ancora aggiungere un commento, ma solo FYI ESL è disponibile gratuitamente online in formato pdf
idclark

1
Penso che questa domanda dovrebbe essere contrassegnata come wiki della comunità.
Shagun Sodhani,

Risposte:


21

13

Se solo potessi consigliarne uno a te, sarebbe: Gli elementi di apprendimento statistico e previsione di Hastie, Tibshirani e Friedman. Fornisce la matematica / statistica alla base di molte tecniche comunemente utilizzate nella scienza dei dati.

Per le tecniche bayesiane, l'analisi dei dati bayesiana di Gelman, Carlin, Stern, Dunson, Vehtari e Rubin è eccellente.

Statistical Inference di Casella e Berger è un buon libro di testo di livello universitario sulle basi teoriche della statistica. Questo libro richiede un livello piuttosto elevato di conforto con la matematica (la teoria della probabilità si basa sulla teoria della misura, che non è banale da capire).

Per quanto riguarda i processi di generazione dei dati, non ho una raccomandazione per un libro. Quello che posso dire è che una buona comprensione dei presupposti delle tecniche utilizzate e la garanzia che i dati siano stati raccolti o generati in un modo che non viola tali presupposti fa molta strada verso una buona analisi.


7

Altre risposte hanno raccomandato una buona serie di libri sulla matematica alla base della scienza dei dati. Ma come hai detto, la sua non è solo matematica e attività come la raccolta e l'inferenza dei dati hanno le loro regole e teorie, anche se non sono rigorose come le basi matematiche (ancora).

Per queste parti, suggerisco il libro Beautiful Data: The Stories Behind Elegant Data Solutions che contiene venti casi di studio come capitoli scritti da persone realmente impegnate con problemi di analisi dei dati nel mondo reale. Non contiene alcuna matematica, ma esplora aree come la raccolta di dati, la ricerca di modi pratici di utilizzo dei dati nelle analisi, il ridimensionamento e la selezione delle soluzioni migliori molto bene.

Un altro libro davvero interessante è Thinking with Data: How to Transform Information in Insights , che non è neanche tecnico (= tutorial di programmazione), ma tratta argomenti importanti su come utilizzare davvero il potere della scienza dei dati nel processo decisionale e nei problemi del mondo reale.


7

Mi piacciono i suggerimenti di Amir Ali Akbari e ne aggiungerò alcuni dei miei, concentrandomi su argomenti e abilità che non sono adeguatamente coperti nella maggior parte dei libri di apprendimento automatico e analisi dei dati incentrati sulla matematica e / o sulla programmazione.

Pulizia dei dati:

Analisi dei dati bayesiani (alternativa al test di significatività dell'ipotesi nulla in stile Fisher):

Inferenza di fronte a incertezza, incompletezza, contraddizioni, ambiguità, imprecisione, ignoranza, ecc .:

esperimenti:

Simulazione:

Richiesta di esperti, stima probabilistica:

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.