Esempi di modelli di regressione avanzata


22

Sto cercando un case study di regressione lineare avanzato che illustri i passaggi necessari per modellare relazioni complesse e multiple non lineari utilizzando GLM o OLS. È sorprendentemente difficile trovare risorse che vadano oltre gli esempi scolastici di base: la maggior parte dei libri che ho letto non andrà oltre una trasformazione logaritmica della risposta accoppiata con un BoxCox di un predittore, o una spline naturale nel migliore dei casi. Inoltre, tutti gli esempi che ho visto finora affrontano ogni problema di trasformazione dei dati in un modello separato, spesso in un singolo modello predittore.

So cos'è una trasformazione BoxCox o YeoJohnson. Quello che sto cercando è un case study dettagliato, nella vita reale, in cui la risposta / relazione non sono ben definite. Ad esempio, la risposta non è strettamente positiva (quindi non è possibile utilizzare log o BoxCox), i predittori hanno relazioni non lineari tra loro e contro la risposta e le trasformazioni di dati con la massima probabilità non sembrano implicare uno standard 0,33 o 0,5 esponente. Anche la varianza residua non è costante (non lo è mai), quindi anche la risposta deve essere trasformata e le scelte devono essere fatte tra una regressione della famiglia GLM non standard o una trasformazione della risposta. È probabile che il ricercatore opererà delle scelte per evitare un eccesso di dati.

MODIFICARE

Finora ho raccolto le seguenti risorse:

  • Strategie di modellizzazione della regressione, F. Harrell
  • Serie storiche econometriche applicate, W. Enders
  • Modelli lineari dinamici con R, G. Petris
  • Analisi di regressione applicata, D. Kleinbaum
  • Un'introduzione all'apprendimento statistico, G. James / D. Witten

Ho letto solo l'ultimo (ISLR) ed è un ottimo testo (un 5 cinque stelle sul mio orologio), anche se più orientato alla ML rispetto alla modellazione di regressione avanzata.

C'è anche questo buon post su CV che presenta un caso di regressione impegnativo.


8
Credo che il libro di Frank Harrells ( amazon.com/… ) possa essere utile.
Adam Robinsson,

@AdamRobinsson Vedo che il sommario sta toccando diversi argomenti rilevanti (modelli multivariati, spline, multicollinearità), ma queste metodologie sono illustrate insieme in un esempio di vita reale o ogni argomento è spiegato separatamente? Perché di solito negli esempi di vita reale tutti i problemi si presentano insieme e non è mai ovvio come gestirli bene.
Robert Kubrick,

1
Non ho ancora letto l'intero libro, ma le prime 150 pagine sono state assolutamente fantastiche (non sono uno statista, solo un appassionato). Gli esempi sono ampi ed elaborati. Il libro è accompagnato dal pacchetto RMS (strategie di modellazione della regressione) per R. Ho anche guardato il libro di David Kleinbaums (purtroppo dimenticato il titolo) ma conteneva molto meno strategie ed esempi (ed era due volte più costoso).
Adam Robinsson,

3
@RobertKubrick: "regressione multivariata" significa con più di una risposta (vedi il wiki per il tag che hai aggiunto, o qui ). "Regressione multipla" significa con più di un predittore.
Scortchi - Ripristina Monica

3
Potresti voler dare un'occhiata alle serie storiche econometriche applicate di Enders. La nuova versione copre modelli non lineari verso la fine del libro. Quasi tutti i dati sono disponibili pubblicamente sul sito Web di St. Louis Fed (accessibile tramite quantmod in R) in modo da poter seguire esempi di vita reale. Dynamic Linear Models con R ha anche alcuni esempi con dati reali che sono abbastanza decenti.
Eric Brady,

Risposte:


10

Le strategie di modellazione della regressione e ISLR, che sono già state menzionate da altri, sono due ottimi suggerimenti. Ne ho altri che potresti prendere in considerazione.

La modellazione predittiva applicata di Kuhn e Johnson contiene una serie di buoni casi di studio ed è piuttosto pratica.

-

Modelli di additivi generalizzati: un'introduzione con R di Simon Wood è un buon trattamento dei modelli di additivi generalizzati e di come li si adatta usando il suo mgcvpacchetto per R. Contiene alcuni esempi pratici non banali. L'uso dei modelli GAM è un'alternativa alla comprensione della trasformazione "corretta", poiché viene eseguita in modo adattivo ai dati tramite un'espansione spline e una stima penalizzata della massima verosimiglianza. Tuttavia, ci sono ancora altre scelte che devono essere fatte, ad esempio la scelta della funzione di collegamento.

Il pacchetto mboost per R si adatta anche ai modelli GAM ma utilizza un approccio diverso tramite il potenziamento. Consiglio il tutorial per il pacchetto (una delle vignette).

Parlerò anche di Empirical Model Discovery e Theory Evaluation di Hendry e Doornik, anche se non ho ancora letto questo libro da solo. Mi era stato consigliato.


Modellazione predittiva applicata ... così così. Preferisco ISLR.
Robert Kubrick,

5

Uno dei migliori materiali del corso che puoi trovare sulla regressione avanzata, multipla, complessa (inclusa quella non lineare) si basa sul libro Regressione Modeling Strategies di Frank E. Harrell Jr.

Il libro viene discusso nei commenti ma non in questo materiale, che a sua volta è una grande risorsa.


2

Consiglierei il libro Mostly Harmless Econometrics di Joshua D. Angrist e Jörn-Steffen Pischke

Questo è il mondo più reale, sale sulla terra, testo che possiedo ed è super economico, circa $ 26,00 nuovi. Il libro è scritto per lo statistico / economista laureato, quindi è molto avanzato.

Ora questo libro non è esattamente quello che stai chiedendo, nel senso che non si concentra su "relazioni complesse, multiple e non lineari", ma su fondamentali fondamentali come l'endogeneità, l'interpretazione e il disegno di regressione intelligente.

Ma sto offrendo questo libro per cercare di chiarire un punto. Cioè, quando si tratta di un'applicazione reale dell'analisi di regressione, i problemi più difficili in genere non hanno a che fare con il fatto che i nostri modelli non sono abbastanza complessi ... credetemi, siamo molto bravi a battere molto complessi Modelli! Piuttosto i problemi più grandi sono cose come

  1. Endogenità
  2. non avendo tutti i dati di cui abbiamo bisogno
  3. Dover avere molti dati ... ed è tutto un casino!
  4. Per molte persone non è possibile interpretare correttamente i propri modelli (un problema che diventa più frequente man mano che rendiamo i modelli più complessi)

Una solida conoscenza di GMM, filtri non lineari e regressione non parametrica copre praticamente tutti gli argomenti che hai elencato e può essere appreso mentre procedi. Tuttavia, con i dati del mondo reale, questi quadri hanno il potenziale per essere inutilmente complessi, spesso dannosamente.

Molto spesso è la capacità di essere abilmente semplice piuttosto che completamente generalizzata e altamente sofisticata, che ti avvantaggia maggiormente con l'analisi del mondo reale. Questo libro ti aiuterà con il primo.


1

Puoi fare riferimento a Introduzione all'apprendimento statistico con R (ISLR), il libro parla di spline e regressione polinomiale in dettaglio con casi.


1

Non sono sicuro di quale sia l'obiettivo della tua domanda. Posso consigliare il testo di analisi econometrica di Greene . Ha un sacco di riferimenti a documenti all'interno. Praticamente ogni esempio nel libro fa riferimento a un documento pubblicato.

Per darti un'idea, guarda l'Esempio 7.6 "Effetti di interazione in un modello loglineare per reddito" a p.195. Si riferisce a un articolo e al set di dati: Regina T. Riphahn, Achim Wambach e Andreas Million, " Effetti di incentivazione nella domanda di assistenza sanitaria: una stima dei dati del conteggio dei panel bivariati ", Journal of Applied Econometrics, Vol. 18, n. 4, 2003, pagg. 387-405.

L'esempio riguarda l'uso dei modelli loglineari e gli effetti di interazione. Puoi leggere l'intero documento o questa descrizione dei libri di testo. Questo non è un caso d'uso inventato. È una vera ricerca pubblicata. Ecco come le persone usano effettivamente i metodi statistici nella ricerca economica.

Come ho scritto il libro è infastidito da casi d'uso come questo sull'uso di metodi statistici avanzati.


0

Hai esaminato alcuni dei corsi / libri di analisi delle serie temporali finanziarie scritti da Ruey Tsay (UChicago)?

http://faculty.chicagobooth.edu/ruey.tsay/teaching/

Le lezioni di Ruey Tsays e il libro di testo forniscono molteplici esempi del mondo reale in Finanza di regressioni complesse del tipo creato per l'uso nei mercati finanziari. Il capitolo 1 inizia con i modelli di regressione a più fattori e si espande ai modelli stagionali autoregressivi delle serie temporali in base al capitolo 5 o 6.


2
Sì, l'ho fatto e non mi piace per niente. È molto ampio (qualsiasi cosa, dai modelli di volatilità all'alta frequenza ad ARIMA ...), tocca ogni argomento con leggerezza (come non potrebbe con così tanti argomenti a portata di mano) e gli studi e le sfide R sono ridotti al minimo. È un ripasso di documenti accademici e di teorie / modelli già affermati che puoi trovare altrove. Questo è esattamente ciò che intendo per casi scolastici che non affrontano mai la complessità di molteplici sfide in un problema avanzato del mondo reale.
Robert Kubrick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.