Cosa imparare dopo Casella e Berger?


22

Sono una studentessa di matematica pura con poca esperienza in matematica applicata. Dall'autunno scorso ho preso lezioni sul libro di Casella & Berger e ho finito centinaia (230+) di pagine di problemi di esercizio nel libro. In questo momento sono al capitolo 10.

Tuttavia, dal momento che non mi sono laureato in statistica o ho pianificato di essere un statistico, non credo che sarò in grado di investire regolarmente tempo per continuare ad apprendere l'analisi dei dati. La mia esperienza finora mi sta dicendo che, per essere uno statistico, bisogna sopportare un sacco di noiosi calcoli che coinvolgono varie distribuzioni (Weibull, Cauchy, , F ...). Ho scoperto che mentre le idee fondamentali sono semplici, l'implementazione (ad esempio il LRT nei test di ipotesi) può ancora essere difficile a causa dei tecnicismi.tF

La mia comprensione è corretta? Esiste un modo per apprendere probabilità e statistiche che non solo copre materiale più avanzato, ma può anche aiutare nel caso avessi bisogno di analisi dei dati nella vita reale? Dovrò spendere 20 ore settimanali su di esso come una volta?

Anche se credo che non ci sia una strada reale nell'apprendimento della matematica, spesso non posso fare a meno di chiedermi: il più delle volte non sappiamo quale sia la distribuzione per i dati della vita reale, quindi qual è lo scopo per noi di concentrarci esclusivamente su varie famiglie di distribuzioni ? Se la dimensione del campione è piccola e il teorema del limite centrale non si applica, come possiamo analizzare correttamente i dati oltre alla media del campione e alla varianza se la distribuzione è sconosciuta?

Il mio semestre finirà tra un mese e non voglio che le mie conoscenze evaporino dopo che ho iniziato a concentrarmi sulla mia ricerca di dottorato. Così ho deciso di chiedere. Sto imparando R e ho un po 'di background di programmazione, ma il mio livello è quasi lo stesso di una scimmia di codice.

Risposte:


24

Non credo che sarò in grado di dedicare regolarmente tempo all'investimento per continuare ad apprendere l'analisi dei dati

Non penso che Casella & Berger sia un luogo in cui imparare molto i dati in termini di analisi dei dati . È un posto dove imparare alcuni degli strumenti della teoria statistica.

La mia esperienza finora mi ha detto di essere una statistica che bisogna sopportare con un sacco di noiosi calcoli che coinvolgono varie distribuzioni (Weibull, Cauchy, t, F ...).

Ho trascorso molto tempo come statistico a fare analisi dei dati. Raramente (quasi mai) mi coinvolge in noiosi calcoli. A volte comporta un po 'di algebra semplice, ma i problemi comuni sono di solito risolti e non ho bisogno di fare alcuno sforzo per replicarlo ogni volta.

Il computer esegue tutti i noiosi calcoli.

Se mi trovo in una situazione in cui non sono disposto ad assumere un caso ragionevolmente standard (ad esempio, non sono disposto a utilizzare un GLM), in genere non ho abbastanza informazioni per assumere un'altra distribuzione, quindi la questione dei calcoli in LRT di solito è discutibile (posso farli quando ne ho bisogno, tendono solo a essere già risolti o escono così raramente che è un diversivo interessante).

Tendo a fare molta simulazione; Inoltre, provo spesso a utilizzare il ricampionamento in qualche forma a fianco o al posto di ipotesi parametriche.

Dovrò spendere 20 ore + a settimana come prima?

Dipende da cosa vuoi essere in grado di fare e da quanto tempo vuoi diventare bravo.

L'analisi dei dati è un'abilità e richiede pratica e un'ampia base di conoscenze. Avrai alcune delle conoscenze di cui hai già bisogno.

Se vuoi essere un buon praticante in una grande varietà di cose, ci vorrà molto tempo - ma per me è molto più divertente dell'algebra e di fare esercizi di Casella e Berger.

Alcune delle abilità che ho sviluppato affermano che i problemi di regressione sono utili con le serie storiche, ad esempio, ma sono necessarie molte nuove competenze. Quindi imparare ad interpretare i grafici residui e quelli QQ è utile, ma non mi dicono quanto devo preoccuparmi di un piccolo bump in un diagramma PACF e non mi danno strumenti come l'uso della previsione one-step-ahead errori.

Quindi, per esempio, non ho bisogno di spendere sforzi per capire come fare ragionevolmente ML per i tipici modelli gamma o weibull , perché sono abbastanza standard da risolvere problemi che sono già stati in gran parte messi in una forma conveniente.

Se vieni a fare ricerche , avrai bisogno di molte più abilità acquisite in posti come Casella e Berger (ma anche con quel tipo di abilità, dovresti anche leggere più di un libro).


Alcune cose suggerite:

Dovresti sicuramente sviluppare alcune abilità di regressione, anche se non fai nient'altro.

Esistono numerosi libri piuttosto validi, ma forse Draper & Smith ha applicato l'analisi di regressione applicata più Fox e Weisberg An R Companion to Applied Regression ; Suggerirei anche di prendere in considerazione di seguire le strategie di modellazione della regressione di Harrell

(Potresti sostituire un numero qualsiasi di buoni libri per Draper e Smith: trova uno o due adatti a te.)

Il secondo libro ha una serie di capitoli aggiuntivi online che vale davvero la pena leggere (e il suo pacchetto R)

-

Una buona seconda che serve sarebbe Venables e di Ripley moderna Statistica Applicata con S .

Questo è un po 'radicato in una vasta gamma di idee.

È possibile che tu abbia bisogno di altro materiale di base in alcuni argomenti (non conosco il tuo background).

Quindi dovresti iniziare a pensare a quali aree delle statistiche vuoi / necessiti - statistiche bayesiane, serie storiche, analisi multivariata, ecc. Ecc.


6

Il mio consiglio, proveniente dalla prospettiva opposta (studente di dottorato di statistica), è di elaborare un libro di testo di regressione. Questo sembra un punto di partenza naturale per qualcuno con un solido background teorico senza alcuna esperienza applicata. Conosco molti studenti laureati al di fuori del nostro dipartimento che iniziano un corso di regressione.

Una buona è la regressione lineare applicata di Sanford Weisberg . Credo che sia alla sua quarta versione. Probabilmente potresti trovare versioni precedenti relativamente economiche.

http://users.stat.umn.edu/~sandy/alr4ed/

Una cosa bella di questo libro di testo, in particolare data la tua relativa inesperienza con R, è il primer R disponibile tramite il link sopra. Fornisce istruzioni sufficienti per ricreare tutto ciò che è stato fatto nel libro. In questo modo, puoi effettivamente imparare la regressione (oltre ad alcune basi di GLM), senza la tua mancanza di programmazione R che ti trattiene (e probabilmente raccoglierai molte delle basi R lungo la strada).

Se si desidera un'introduzione completa a R, si potrebbe essere meglio serviti attraverso Fox and Weisberg's An R Companion to Applied Regression , ma sembra che preferiresti imparare le statistiche piuttosto che la programmazione (se queste due cose possono essere pensate separatamente).

Per quanto riguarda il tuo impegno in termini di tempo, non credo davvero che troverai questo libro di testo o materiale troppo difficile. A differenza di Casella-Berger, non ci sarà molto in termini di prove o derivazioni. È generalmente piuttosto semplice.

A parte questo, sembrano esserci soluzioni che fluttuano online (o lo erano ad un certo punto), quindi potresti provare a risolvere problemi, controllare soluzioni e tipo di velocità nel tuo libro.


4

Sto cercando in modo circolare di essere più uno statistico, ma sono principalmente uno psicologo che ha degli interessi quantitativi e metodologici. Per svolgere correttamente il lavoro psicometrico, ho studiato metodi avanzati (per uno psicologo) che non avrei mai immaginato di calcolare manualmente (molto meno saprei come). Sono stato sorpreso da quanto siano diventati accessibili e convenienti questi metodi attraverso tutti gli sforzi dedicati dei programmatori di pacchetti R negli ultimi dieci anni. Ho fatto analisi di vita reale con nuovi metodi che ho imparato a utilizzare in meno di 20 ore per metodo ... Potrei dedicare così tanto tempo a un nuovo metodo prima di essere pronto a pubblicare un risultato usando, ma certamente non è necessario fare un lavoro part-time di studio solo per fare progressi come ho fatto io. Fai quello che puoi mentre trovi il tempo per farlo; non è una ricerca del tutto o niente se non ne hai bisogno.

Certamente non mi sono concentrato esclusivamente su nessun argomento, per non parlare delle famiglie di distribuzioni; Dubito che qualsiasi statistico onesto alla bontà studierebbe così strettamente. Mi sono dilettato in distribuzioni teoriche per forse un'ora al giorno in alcune occasioni durante la scorsa settimana; è stato molto utile per dimostrarsi utile nelle applicazioni di dati reali. Per quanto ne so, l'idea non è tanto quella di classificare rigorosamente le distribuzioni; è riconoscere forme di distribuzione che assomigliano a teorie e usarle per aiutare a decidere le analisi appropriate e comprendere le dinamiche di base. Ho condiviso pensieri simili sulla mia risposta più recente a " È meglio selezionare distribuzioni basate su teoria, adattamento o qualcos'altro? "

Non hai detto quale analisi vuoi eseguire in quello che presumo fosse il tuo ipotetico scenario peggiore, ma ci sono modi per studiare la sensibilità di qualsiasi analisi all'errore di campionamento. Se il CLT non si applica, ci sono ancora diverse domande statistiche che puoi porre se sai come fare. I metodi non parametrici generalmente fanno ipotesi molto limitate sulle distribuzioni, quindi la conoscenza preliminare della forma della distribuzione di una popolazione non è necessariamente un grosso problema.

La conoscenza in generale non evapora davvero così rapidamente o completamente, ma se non la usi, ti sarà più difficile ricordare liberamente. Manterrai un vantaggio sul riconoscimento ancora più a lungo, che potrebbe tornare utile se mai dovessi studiare argomenti che hai studiato diversi anni prima ... ma se vuoi rimanere fluente in ciò che hai imparato, continua ad usarlo e continua ad imparare! R è sicuramente un buon posto per investire qualsiasi tempo libero di studio che hai. Dovrebbe aiutare anche con la tua pura matematica: vedi un'altra delle mie recenti risposte a "Il miglior software di visualizzazione di dati open source da utilizzare con PowerPoint ".


3

Mi sono imbattuto in questo nel 2019. I miei due centesimi.

Sono un professore di statistica con la tendenza a fare analisi dei dati di vario genere (ecco perché ho scelto le statistiche!). Per acquisire alcune conoscenze pratiche, consiglio a James, Witten, Hastie e Tibshirani "An Introduction to Statistical Learning". Hanno anche un MOOC basato su quello. Il libro utilizza molti esempi di "dati reali" ed è anche basato su R.


Hai qualcosa da suggerire oltre agli "elementi dell'apprendimento statistico"? Penso di avere familiarità con (parti di base di) il libro ora.
Bombyx mori,

2

Rispondere ad altri che vengono a questa domanda in seguito ...


analisi dei dati di vita reale

Scopri database (SQL), dplyr / panda, strumenti unix (sed, grep), scraping, scripting, pulizia dei dati e test del software. Le varie distribuzioni specializzate hanno scarso valore nell'industria.

Un libro di regressione applicato come Angrist & Pischke, Faraway o Weisberg, sarà un tipo di teoria più pratica.

il più delle volte non sappiamo quale sia la distribuzione per i dati della vita reale, quindi qual è lo scopo per noi di concentrarci esclusivamente su varie famiglie di distribuzioni

Da qui l'interesse per le statistiche non parametriche. Ma allo stesso tempo non parametrico senza ipotesi è troppo lento. Per rispondere alla tua domanda, le famiglie specializzate possono essere pensate come risposte a semplici domande che potresti, magari imbatterti. Ad esempio, penso a un gaussiano come a una stima puntuale "regolare". Poisson risponde a un'altra semplice domanda. Quando le persone costruiscono modelli matematici, questi speciali possono essere utili punti fulcro. (Ma gli accademici spesso prendono la ricerca della distribuzione principale nel modo sbagliato.)

OP: Spero ti sia divertito con la tua ricerca di dottorato!

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.