Sto cercando un case study di regressione lineare avanzato che illustri i passaggi necessari per modellare relazioni complesse e multiple non lineari utilizzando GLM o OLS. È sorprendentemente difficile trovare risorse che vadano oltre gli esempi scolastici di base: la maggior parte dei libri che ho letto non andrà oltre una trasformazione logaritmica della risposta accoppiata con un BoxCox di un predittore, o una spline naturale nel migliore dei casi. Inoltre, tutti gli esempi che ho visto finora affrontano ogni problema di trasformazione dei dati in un modello separato, spesso in un singolo modello predittore.
So cos'è una trasformazione BoxCox o YeoJohnson. Quello che sto cercando è un case study dettagliato, nella vita reale, in cui la risposta / relazione non sono ben definite. Ad esempio, la risposta non è strettamente positiva (quindi non è possibile utilizzare log o BoxCox), i predittori hanno relazioni non lineari tra loro e contro la risposta e le trasformazioni di dati con la massima probabilità non sembrano implicare uno standard 0,33 o 0,5 esponente. Anche la varianza residua non è costante (non lo è mai), quindi anche la risposta deve essere trasformata e le scelte devono essere fatte tra una regressione della famiglia GLM non standard o una trasformazione della risposta. È probabile che il ricercatore opererà delle scelte per evitare un eccesso di dati.
MODIFICARE
Finora ho raccolto le seguenti risorse:
- Strategie di modellizzazione della regressione, F. Harrell
- Serie storiche econometriche applicate, W. Enders
- Modelli lineari dinamici con R, G. Petris
- Analisi di regressione applicata, D. Kleinbaum
- Un'introduzione all'apprendimento statistico, G. James / D. Witten
Ho letto solo l'ultimo (ISLR) ed è un ottimo testo (un 5 cinque stelle sul mio orologio), anche se più orientato alla ML rispetto alla modellazione di regressione avanzata.
C'è anche questo buon post su CV che presenta un caso di regressione impegnativo.