Perché è necessaria la selezione delle variabili?


31

Le comuni procedure di selezione delle variabili basate su dati (ad esempio, avanti, indietro, per gradi, tutti i sottoinsiemi) tendono a produrre modelli con proprietà indesiderate, tra cui:

  1. Coefficienti distorti da zero.
  2. Errori standard troppo piccoli e intervalli di confidenza troppo stretti.
  3. Testare statistiche e valori p che non hanno il significato pubblicizzato.
  4. Stime di adattamento del modello eccessivamente ottimistiche.
  5. Termini inclusi che possono essere insignificanti (ad esempio, esclusione di termini di ordine inferiore).

Tuttavia, persistono procedure di selezione variabili. Dati i problemi con la selezione delle variabili, perché sono necessarie queste procedure? Cosa motiva il loro uso?

Alcune proposte per iniziare la discussione ....

  • Il desiderio di coefficienti di regressione interpretabili? (Sbagliato in un modello con molti IV?)
  • Eliminare la varianza introdotta da variabili irrilevanti?
  • Eliminare inutili covarianze / ridondanze tra le variabili indipendenti?
  • Ridurre il numero di stime dei parametri (problemi di potenza, dimensione del campione)

Ce ne sono altri? I problemi affrontati dalle tecniche di selezione delle variabili sono più o meno importanti di quelli che introducono le procedure di selezione delle variabili? Quando dovrebbero essere usati? Quando non dovrebbero essere usati?


A mio avviso, per discutere chiaramente di un problema, dobbiamo prima specificarlo in qualche modo e poi formularlo in una forma matematica appropriata in modo da poter avere un quadro in cui il problema sia chiaramente discusso. Per il problema di selezione delle variabili, ad esempio per i modelli di regressione lineare. Sembra ragionevole prima fissare un modello e studiare (i) i vantaggi / gli svantaggi (ad es. Miglioramento / peggioramento della stima o previsione) della selezione delle variabili? (ii) i vantaggi della procedura di selezione variabile rispetto alla stima LS?

Risposte:


17

La selezione delle variabili (senza penalità) non fa che peggiorare le cose. La selezione delle variabili non ha quasi alcuna possibilità di trovare le variabili "giuste" e si traduce in grandi sopravvalutazioni degli effetti delle variabili rimanenti e in un'enorme sottovalutazione degli errori standard. È un errore credere che la selezione delle variabili fatta nel solito modo aiuti a aggirare il problema "large p small n". La linea di fondo è che il modello finale è fuorviante in ogni modo. Ciò è correlato a un'affermazione sorprendente che ho letto in un documento di epidemiologia: "Non avevamo una dimensione del campione adeguata per sviluppare un modello multivariabile, quindi abbiamo eseguito tutti i test possibili per le tabelle 2x2".

Ogni volta che il set di dati a portata di mano viene utilizzato per eliminare le variabili, mentre si utilizza Y per prendere la decisione, tutte le quantità statistiche saranno distorte. La selezione tipica delle variabili è un miraggio.

Modifica : (Copia dei commenti dal basso nascosti dal pieghevole)

Non voglio essere egoista, ma il mio libro Regressione Modeling Strategies approfondisce questo argomento. I materiali online, compresi i volantini, sono disponibili nella mia pagina web . Alcuni metodi disponibili sono la penalizzazione (regressione della cresta), la penalizzazione (lazo) e la cosiddetta rete elastica (combinazione di e ). O utilizzare la riduzione dei dati (accecato dalla risposta ) prima di eseguire la regressione. Il mio libro dedica più spazio a questo che alla penalizzazione.L 1 L 1 L 2 YL2L1L1L2Y


6
Penso che questa risposta sarebbe migliorata fornendo alcuni suggerimenti su come procedere. La risposta fa affermazioni molto ampie e definitive (molte delle quali sono generalmente d'accordo) senza fare riferimento a risorse che potrebbero sostenere le affermazioni. Certamente anche la penalizzazione non è una panacea e ci sono molte scelte da fare se si percorre quella strada.
cardinale

3
Vedi sopra dove ho fornito ulteriori informazioni. Il modo più breve per affermare il problema è che il motivo principale per cui una variabile è "selezionata" è perché il suo effetto è stato sopravvalutato.
Frank Harrell,

2
Sì, sono d'accordo che il tuo libro abbia del buon materiale su questo, così come, ad esempio, ESL. (Detto questo, ci sono almeno un paio di casi in ESL in cui viene impiegata anche una qualche forma di selezione all'indietro.) Si menziona la penalizzazione ( nota anche come regressione della cresta), ma in genere non si ottiene uno troppo lontano in termini di variabile / modello selezione di per sé. La rete elastica ha un comportamento ok, ma il mio svantaggio è che, indipendentemente da come la guardi, non ammette un'interpretazione "statistica" molto piacevole o naturale, mentre in entrambi i sensi entrambe le penalità e fanno. L 1 L 2L2L1L2
cardinale

2
Aspetti positivi, anche se penso che dia un'interpretazione naturale perché è solo un altro modo di stimare gli stessi coefficienti del modello. Hai ragione sul fatto che senza non rimuove alcuna variabile. Lo facciamo per prestazioni predittiva superiore e per gestire la grande piccola caso. L 2 L 1 p nL2L2L1pn
Frank Harrell,

2
Forse il mio commento non è stato così chiaro come volevo. Sì, sono d'accordo sul fatto che la penalizzazione da sola ha diverse interpretazioni gradevoli, anche se non comporta alcuna selezione di variabili. È la rete elastica che non trovo particolarmente motivata o naturale da una prospettiva statistica al di là del fatto che in alcuni casi si ottengono prestazioni predittive migliori. L2
cardinale

14

Prima di tutto, gli svantaggi che hai citato sono gli effetti della selezione delle caratteristiche fatta in modo errato , vale a dire sovraccarico, incompiuto o superamento.

L'FS "ideale" ha due passaggi; il primo è la rimozione di tutte le variabili non correlate al DV (il cosiddetto problema rilevante , compito molto difficile, non correlato al modello / classificatore utilizzato), il secondo è limitare l'insieme solo a quelle variabili che possono essere utilizzate in modo ottimale dal modello (ad esempio e sono ugualmente bravi a spiegare , ma il modello lineare non riuscirà a usare in generale) - questo è chiamato minimo ottimale . Y Y e YeYYYeY

Tutti i livelli rilevanti forniscono una visione di ciò che guida realmente il processo dato, quindi hanno un valore esplicativo. Il livello ottimale minimo (in base alla progettazione) fornisce il modello non sovradimensionato lavorando su dati il ​​più ordinato possibile.

Le FS del mondo reale vogliono solo raggiungere uno di quegli obiettivi (di solito quest'ultimo).


4
Suppongo che ti riferisci alla rimozione delle variabili senza usare i dati a portata di mano. Non è possibile utilizzare il set di dati a portata di mano per farlo. Ciò sarebbe inaffidabile e falserebbe l'inferenza statistica.
Frank Harrell,

Come ho scritto, questa è solo una base teorica del problema (proveniente dalle reti bayesiane). Il modo esatto di realizzarlo è ovviamente impossibile, e sono certamente d'accordo sul fatto che la modellistica statistica ha sofferto molto per l'uso spensierato di RFE e cose simili - tuttavia l'apprendimento automatico ha alcuni algoritmi euristici che certamente non sono senza speranza (cioè effettuare selezioni e modelli stabili che si dimostrano inadeguati nei test onesti).

Che cos'è RFE ???????
kjetil b halvorsen,

@kjetilbhalvorsen Eliminazione caratteristica ricorsiva

@mbq Thx per la tua risposta interessante! Potete fornire qualsiasi riferimento (libri, documenti ecc.)? Apprezzo la tua risposta!
Kare,

10

La selezione delle variabili è necessariamente perché la maggior parte dei modelli non gestisce bene un gran numero di variabili irrilevanti. Queste variabili introdurranno solo rumore nel tuo modello, o peggio, causeranno un eccesso di adattamento. È una buona idea escludere queste variabili dall'analisi.

Inoltre, non puoi includere tutte le variabili che esistono in ogni analisi, perché ce ne sono infinite. Ad un certo punto devi tracciare la linea, ed è bene farlo in modo rigoroso. Da qui tutta la discussione sulla selezione delle variabili.

La maggior parte dei problemi relativi alla selezione delle variabili può essere risolta mediante convalida incrociata o utilizzando un modello con penalizzazione integrata e selezione delle caratteristiche (come la rete elastica per i modelli lineari).

Se sei interessato ad alcuni risultati empirici relativi a più variabili che causano un eccesso di adattamento, controlla i risultati della competizione Don't Overfit su Kaggle.


1
Penso che il primo paragrafo contenga un significativo fraintendimento del problema. La selezione delle variabili non aiuta in alcun modo a risolvere questi problemi, li nasconde soltanto. La selezione delle variabili comporta enormi problemi di overfitting, sebbene, come hai detto più avanti, ci sono alcuni modi per penalizzarci onestamente per il danno causato dalla selezione delle variabili.
Frank Harrell,

3
@Frank Harrell: come decidi quali variabili escludere da un modello?
Zach,

11
(1) Utilizzare la conoscenza dell'oggetto prima di guardare il set di dati; (2) Utilizzare l'analisi di ridondanza / riduzione dei dati in cieco su Y; (3) Utilizzare un metodo che penalizzi adeguatamente l'enorme problema di confronto multiplo causato dalla selezione delle funzionalità (vedere altrove in questa pagina).
Frank Harrell,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.