Quali sono le alternative moderne e facilmente utilizzabili alla regressione graduale?


76

Ho un set di dati con circa 30 variabili indipendenti e vorrei costruire un modello lineare generalizzato (GLM) per esplorare la relazione tra loro e la variabile dipendente.

Sono consapevole che il metodo che mi è stato insegnato per questa situazione, la regressione graduale, è ora considerato un peccato statistico .

Quali metodi moderni di selezione dei modelli dovrebbero essere usati in questa situazione?


4
Altre persone menzionano procedure statistiche che possono essere utili, ma prima vorrei chiederti se hai qualche teoria sulla forza e sulla forma della relazione tra variabili. Quanto è grande il tuo campione? Hai motivi per evitare modelli complessi?
Michael Bishop,

2
Qualcuno ha considerato la media dei modelli come un'alternativa per combattere il problema di pregiudizio pre-test e i problemi di specifica mancata? In parole povere tutte le variabili sono potenziali predittori e potresti stimare la probabilità che siano utili. Pertanto, lo stimatore combinato non solo migliora le prestazioni di previsione, ma produce anche stime di buone proprietà per i parametri delle variabili in "ambito".
Dmitrij Celov,

1
Ritiro. Nessuno usa più il
gradino

Risposte:


56

Esistono diverse alternative alla regressione graduale . I più usati che ho visto sono:

  • Parere dell'esperto per decidere quali variabili includere nel modello.
  • Regressione dei minimi quadrati parziali . In sostanza ottieni variabili latenti e fai una regressione con esse. Puoi anche fare PCA da solo e quindi utilizzare le variabili principali.
  • Operatore di selezione e ritiro minimo assoluto (LASSO).

Sia la regressione PLS che LASSO sono implementate in pacchetti R come

PLS : http://cran.r-project.org/web/packages/pls/ e

LARS : http://cran.r-project.org/web/packages/lars/index.html

Se vuoi solo esplorare la relazione tra la tua variabile dipendente e le variabili indipendenti (ad es. Non hai bisogno di test di significatività statistica), consiglierei anche metodi di Machine Learning come foreste casuali o alberi di classificazione / regressione . Le foreste casuali possono anche approssimare relazioni complesse non lineari tra le tue variabili dipendenti e indipendenti, che potrebbero non essere state rivelate da tecniche lineari (come la regressione lineare ).

Un buon punto di partenza per l' apprendimento automatico potrebbe essere la vista dell'attività di Apprendimento automatico su CRAN:

Visualizzazione attività di Machine Learning : http://cran.r-project.org/web/views/MachineLearning.html


10
Il pacchetto glmnet è anche un'implementazione molto veloce del lazo
David J. Harris,

2
Vorrei avvertire che all'interno della comunità variabile latente, i PLSer formano una loro cricca molto isolata e non sono mai stati in grado di penetrare nella letteratura seria (con il quale intendo, ad esempio, la teoria asintotica degli stimatori dei minimi quadrati nelle opere di Michael Browne, Peter Bentler, Albert Satorra e Alex Shapiro, e modellistica variabile strumentale di Ken Bollen, per nominare i pochi più importanti). Stranamente, tuttavia, il PLS sembra essere un metodo accettabile nei circoli statistici, che generalmente ha sostenuto uno standard di rigore più elevato rispetto alla comunità di modellazione a variabili latenti.
Attacco

6
Gli elementi dell'apprendimento statistico hanno un confronto tra diversi metodi di selezione e riduzione delle variabili: (OLS,) miglior sottoinsieme, cresta, lazo, PLS, PCR.
cbeleites,

19

Un'altra opzione che potresti prendere in considerazione per la selezione e la regolarizzazione delle variabili è la rete elastica . È implementato in R tramite il pacchetto glmnet .


16

La media del modello è una strada da percorrere (un approccio teorico-informativo). Il pacchetto R glmulti può eseguire modelli lineari per ogni combinazione di variabili predittive ed eseguire la media dei modelli per questi risultati.

Vedi http://sites.google.com/site/mcgillbgsa/workshops/glmulti

Non dimenticare di indagare prima sulla collinearità tra le variabili predittive. I fattori di inflazione della varianza (disponibili nel pacchetto R "auto") sono utili qui.


Grazie. Si adatta davvero a tutti i modelli possibili? Anche senza interazioni, in questo caso sono circa un miliardo di modelli.
Peter Ellis,

AFAIK può, ma esiste un'opzione di algoritmo genetico che riduce considerevolmente il tempo necessario per valutare tutti i modelli. Vedi www.jstatsoft.org/v34/i12/paper
OliP

3
inoltre MuMIn, i AICcmodavgpacchetti, sebbene glmultisiano più intelligenti sui set di modelli di grandi dimensioni.
Ben Bolker,

8

@johannes ha dato una risposta eccellente. Se sei un utente SAS, LASSO è disponibile tramite PROC GLMSELECT e minimi quadrati parziali tramite PROC PLS.

David Cassell e io abbiamo fatto una presentazione su LASSO (e Least Angle Regression) in un paio di gruppi di utenti SAS. È disponibile qui


7

Discussione interessante Etichettare la regressione graduale come peccato statistico è un po 'un'affermazione religiosa - fintanto che si sa cosa stanno facendo e che gli obiettivi dell'esercizio sono chiari, è sicuramente un ottimo approccio con il proprio set di ipotesi e, certamente di parte, e non garantisce ottimalità, ecc. Tuttavia, lo stesso si può dire di molte altre cose che facciamo. Non ho visto CCA menzionato, che affronta il problema più fondamentale della struttura di correlazione nello spazio covariato, garantisce l'ottimalità, è stato in giro per un bel po 'e ha in qualche modo una curva di apprendimento. È implementato su una varietà di piattaforme tra cui R.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.