Calcolo del miglior sottoinsieme di predittori per la regressione lineare


9

Per la selezione dei predittori nella regressione lineare multivariata con predittori adatti , quali metodi sono disponibili per trovare un sottoinsieme "ottimale" dei predittori senza testare esplicitamente tutti i sottoinsiemi ? In "Applied Survival Analysis", Hosmer e Lemeshow fanno riferimento al metodo di Kuk, ma non riesco a trovare il documento originale. Qualcuno può descrivere questo metodo o, ancora meglio, una tecnica più moderna? Si possono assumere errori normalmente distribuiti.2 pp2p


1
Ti riferisci al seguente documento? Kuk, AYC (1984) Regressione di tutti i sottoinsiemi in un modello di rischi proporzionali. Biometrika, 71, 587-592
chl

si Certamente. Immagino che dovrò scavare quel foglio in qualche modo. Sembra vecchio, tuttavia.
shabbychef,

2
Trova questo articolo nel frattempo, Il metodo lazo per la selezione delle variabili nel modello cox, da Tibshirani (Stat. Med. 1997 16: 385-395), j.mp/bw0mB9 . HTH
chl

1
e questo più recente (strettamente collegato al penalizedpacchetto R), j.mp/cooIT3 . Forse anche questo, j.mp/bkDQUj . Cin cin
CHL

Risposte:


12

Non ho mai sentito parlare del metodo di Kuk, ma l'argomento di tendenza in questi giorni è la minimizzazione di L1. La logica è che se si utilizza un termine di penalità del valore assoluto dei coefficienti di regressione, quelli non importanti dovrebbero andare a zero.

Queste tecniche hanno alcuni nomi divertenti: Lasso, LARS, selettore Dantzig. Puoi leggere gli articoli, ma un buon punto di partenza è Elements of Statistical Learning , Chapter 3.


2
A proposito, il pacchetto R penalizzato ( j.mp/bdQ0Rp ) include la stima penalizzata l1 / l2 per i modelli lineari e Cox generalizzati.
chl

bloccato in terra matlab, implementandolo da solo ...
shabbychef

LARS è fantastico, a proposito. roba molto bella. non sono sicuro di come posso inserirlo nel framework del modello di rischi proporzionali di Cox, anche se ...
shabbychef,

2
Il software Glmnet ha un modello lasso di Cox PH: cran.r-project.org/web/packages/glmnet/index.html esiste anche una versione MATLAB (non sono sicuro che faccia un modello cox): www-stat .stanford.edu / ~ tibs / glmnet-matlab
Simon Byrne,

3

Questo è un argomento enorme. Come accennato in precedenza, Hastie, Tibshirani e Friedman offrono una buona introduzione nel Ch3 di Elements of Statistical Learning.

Alcuni punti 1) Cosa intendi con "migliore" o "ottimale"? Ciò che è meglio in un certo senso potrebbe non esserlo in un altro. Due criteri comuni sono l'accuratezza predittiva (prevedere la variabile di risultato) e produrre stimatori imparziali dei coefficienti. Alcuni metodi, come la regressione del lasso e della cresta, producono inevitabilmente stimatori di coefficienti distorti.

2) La frase "migliori sottoinsiemi" può essere utilizzata in due sensi separati. Generalmente fare riferimento al miglior sottoinsieme tra tutti i predittori che ottimizza alcuni criteri di costruzione del modello. Più specificamente, può riferirsi all'algoritmo efficiente di Furnival e Wilson per trovare quel sottoinsieme tra un numero moderato (~ 50) di predittori lineari (Regressions by Jumps and Bounds. Technometrics, Vol. 16, No. 4 (Nov., 1974), pp. 499-51)

http://www.jstor.org/stable/1267601


1) sì, la domanda è alquanto ambigua; ci sono, come dici tu, molte definizioni di "ottimale": tramite criterio informativo, convalida incrociata, ecc. La maggior parte degli approcci euristici che ho visto al problema procede con l'aggiunta / rimozione del predittore graduale: aggiunta o sottrazione con un unico passaggio in avanti, ecc. Tuttavia, Hosmer e Lemeshow fanno riferimento a questo metodo (una variante del lavoro di Lawless & Singhal), che in qualche modo 'magicamente' seleziona i predittori mediante un singolo calcolo di un MLR (modulo alcune altre cose). Sono molto curioso di questo metodo ...
shabbychef,

0

Quello che ho imparato che in primo luogo usa il miglior approccio dei sottoinsiemi come strumento di screening, quindi le procedure di selezione graduale possono aiutarti finalmente a decidere quali modelli potrebbero essere i migliori modelli di sottoinsieme (in questo momento il numero di tali modelli è piuttosto piccolo da gestire). Se uno dei modelli soddisfa le condizioni del modello, fa un buon lavoro di riepilogo dell'andamento dei dati e, soprattutto, consente di rispondere alla domanda di ricerca, quindi si congratula con il lavoro svolto.


1
Penso che potresti non ricordare questo. I migliori sottoinsiemi sono molto più costosi dal punto di vista computazionale rispetto a quelli graduali, ma catturerebbero necessariamente qualsiasi cosa graduale, quindi useresti gradualmente per schermare e i migliori sottoinsiemi dopo. FWIW, non sono d'accordo con l'uso ingenuo di queste strategie, per i motivi che discuto nella mia risposta qui: algoritmi per la selezione automatica del modello .
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.