Un buon libro con uguale attenzione alla teoria e alla matematica


10

Ho avuto abbastanza corsi di statistica durante gli anni scolastici e all'università. Ho una buona comprensione dei concetti, come CI, i valori p, l'interpretazione del significato statistico, i test multipli, la correlazione, la regressione lineare semplice (con minimi quadrati) (modelli lineari generali) e tutti i test di ipotesi. Mi era stato presentato in gran parte dei giorni precedenti per lo più matematicamente. E ultimamente, con l'aiuto del libro Intuitive Biostatistics, ho colto una comprensione senza precedenti verso l'attuale teoria concettuale, credo.

Ora, ciò che mi manca è la comprensione dei modelli di adattamento (stima dei parametri al modello) e simili. In particolare, concetti come la stima della massima verosimiglianza, modelli lineari generalizzati , approcci bayesiani alla statistica inferenziale mi sembrano sempre estranei. Non ci sono abbastanza esempi o tutorial o concettualmente validi, come si potrebbe trovare su semplici modelli probabilistici o su altri argomenti (di base) su Internet.

Sono un bioinformatico e lavoro su dati RNA-Seq che trattano i conteggi di lettura grezzi per trovare, diciamo, espressione genica (o espressione genica differenziale). Dal mio background, anche se non ho familiarità con i modelli statistici, sono in grado di cogliere il motivo di un'ipotesi di distribuzione di Poisson e binomiali negativi e così via .. Ma alcuni documenti trattano modelli lineari generalizzati e stimano un MLE ecc. Che Credo di avere le basi necessarie per capire.

Immagino che quello che sto chiedendo sia un approccio che alcuni esperti tra di voi ritengono utile e (a) libro (i) che mi aiuti a cogliere questi concetti in un modo più intuitivo (non solo matematica rigorosa, ma teoria sostenuta con la matematica). Dato che per la maggior parte li applicherò, sarei soddisfatto (al momento) di capire cosa sia cosa e dopo, posso tornare a rigorose prove matematiche ... Qualcuno ha qualche consiglio? Non mi dispiace comprare più di un libro se gli argomenti che ho chiesto sono effettivamente sparsi per essere coperti in un libro.

Grazie mille!


Potresti consigliarmi alcune buone fonti per conoscere i dati RNA-Seq e le sfide statistiche in questo campo?
Biostat,

1
biostat, certo, il sito web seqanswers.com è un'ottima risorsa per NGS. Potresti iniziare con le diverse tecnologie e come funzionano da qui: goo.gl/NLuvJ Questi sono alcuni articoli che spiegano alcuni problemi statistici con i dati NGS. In breve, sono una stima della varianza tecnica e biologica (per quanto riguarda l'espressione genica). 1) Uno dei primi documenti che valutano la variazione tecnica: ncbi.nlm.nih.gov/pubmed/18550803 2) DESeq: uno strumento per il rilevamento dell'espressione genica: ncbi.nlm.nih.gov/pubmed?term=DESeq%20simon%20anders
Arun,

1
Convertito in CW perché sembra che verranno offerti un sacco di buoni suggerimenti e non esiste uno standard oggettivo apparente per decidere un "migliore" tra questi. Spero che ciò faciliterà anche il voto di molte risposte dei lettori :-).
whuber

whuber, certo! ha senso. Posso pubblicare un post wiki della community? o richiede privilegi di moderatore?
Arun,

Risposte:


5

Troverai tutto ciò che non hai chiesto a Bayesian al riguardo Frank Harrell's Regression Modeling Strategies . Lascerei raccomandazioni bayesiane a persone più competenti (anche se ho Gelman, Carlin, Stern e Rubin , così come Gilks, Richardson e Speigelhalter , nella mia libreria). Ci dovrebbero essere alcuni libri biostat bayesiani sul mercato.

Aggiornamento: McCullach e Nelder (1989) sono ovviamente un libro classico sui GLM. Era rivoluzionario per il suo tempo, ma lo trovo piuttosto noioso, francamente. Inoltre, non copre le aggiunte successive come la diagnostica residua, i modelli a zero zero o le estensioni multilivello / gerarchiche. Hardin e Hilbe (2007) descrivono alcuni di questi contenuti più recenti con buoni dettagli con esempi pratici in Stata (dove GLM ed estensioni sono molto ben implementate; Hardin lavorava in Stata Corp. scrivendo molti di questi comandi, oltre a contribuire alla stimatore sandwich).


Ciao StasK, grazie mille! Trovo che quello sulla modellazione di regressione soddisfi le mie esigenze. Quanto coprono i GLM? Vedo anche che i tuoi riferimenti sull'inferenza bayesiana sono quelli standard che trovo sempre raccomandati. Secondo te, quanto sono facili / difficili da seguire (come se il livello fosse troppo avanzato)? Inoltre, hai dato un'occhiata al libro Modelli lineari generalizzati ? Uno degli autori è JA Nelder. Inoltre, vorrei acquistare questo libro su modelli statistici . Hai qualche idea su questo? Grazie!
Arun,

Non ho visto questo libro di Freedman. È piuttosto interessante, anche se sembra essere piuttosto leggero in termini di rigore, e non sono sicuro di esserne contento. (Un libro molto leggero in matematica che parla di regressione senza algebra matriciale, ma MOLTO profondo sul rigore scientifico, è Mostly Harmless Econometrics di Angrist e Pischke, e se lavori con modelli causali, questo libro è un must.) conosci davvero il tuo background matematico / statistico, quindi sarà difficile per me giudicare se questi libri sarebbero difficili. Alcuni libri bayesiani potrebbero essere; tendono ad assumere che già conosci MLE e GLM.
StasK,

1
Ho aggiornato la mia risposta per includere i riferimenti di McCullach e Nelder.
StasK,

Sono un engr di elettronica. diventato bioinformatico. Ho avuto corsi di statistica (per la teoria della comunicazione), probabilità e processi casuali, mi sento a mio agio con il calcolo (anche se un po 'arrugginito) e anche con l'algebra lineare. Naturalmente questi sono per lo più a livello universitario ... Il mio obiettivo è essere concettualmente sani (più interpretazioni geometriche, comprensione dei metodi e, soprattutto, lo scopo) ecc ... Certo, non mi importa la matematica, se arriva con queste ricette. Grazie ancora per i tuoi consigli!
Arun,

3

Questi libri spiegano cose buone, ma non quelle che l'OP ha chiesto.
StasK,

@StasK, potresti spiegare quali cose non sono nei libri sopra?
Biostat,

Ho insegnato da HTF, e le cose che ho insegnato da esso riguardavano le funzioni di base, i gradi di libertà effettivi, la selezione del modello, il lazo, la convalida incrociata, ecc. MLE e GLM a cui l'OP era interessato sono menzionati nel passaggio, nella migliore delle ipotesi. Si presume che lo studente di statistiche abbia familiarità con queste cose dalla loro formazione statistica generale, o che gli studenti CS usino SVM piuttosto che la regressione logistica come reazione istintiva ai dati dei risultati binari. Le cose bayesiane sono anche menzionate solo nella misura in cui le regole delle decisioni bayesiane sono ottimali, in un certo senso; nessun MCMC o coniugazione, diciamo.
StasK,

Hai letto il libro "Metodi statistici per la bioinformatica"?
Biostat,

@biostat, no, non l'ho fatto. Non lavoro in bioinformatica, ma so che è un mondo leggermente diverso. Quindi non posso formulare raccomandazioni ragionevoli. A mio avviso, la branca della biostatistica che si occupa di modelli come GLM, GEE, modelli longitudinali e di sopravvivenza ha più in comune con l'econometria (quindi il libro di Wooldridge sui modelli di dati trasversali e panel potrebbe essere una buona raccomandazione per alcune persone che lavorano con biostat con questi modelli) che con la genetica statistica, il controllo del tasso di errore a livello familiare e il data mining, che sembra essere il tuo dominio di competenza.
StasK,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.