Perché la migliore selezione di sottogruppi non è preferita rispetto al lazo?


13

Sto leggendo la migliore selezione di sottoinsiemi nel libro Elementi di apprendimento statistico. Se ho 3 predittori , creo sottoinsiemi:X1,X2,X323=8

  1. Sottoinsieme senza predittori
  2. sottoinsieme con predittoreX1
  3. sottoinsieme con predittoreX2
  4. sottoinsieme con predittorex3
  5. sottoinsieme con predittorix1,x2
  6. sottoinsieme con predittorix1,x3
  7. sottoinsieme con predittorix2,x3
  8. sottoinsieme con predittorix1,x2,x3

Quindi collaudo tutti questi modelli sui dati del test per scegliere quello migliore.

Ora la mia domanda è: perché la migliore selezione di sottogruppi non è preferita rispetto ad esempio al lazo?

Se metto a confronto le funzioni di soglia del miglior sottoinsieme e lazo, vedo che il sottoinsieme migliore imposta alcuni coefficienti su zero, come il lazo. Ma l'altro coefficiente (diversi da zero) avrà ancora i valori ols, saranno non definiti. Considerando che in lazo alcuni coefficienti saranno zero e gli altri (diversi da zero) avranno una certa distorsione. La figura seguente mostra meglio: inserisci qui la descrizione dell'immagine

Dall'immagine la parte della linea rossa nel migliore caso di sottoinsieme si trova su quella grigia. L'altra parte si trova nell'asse x, dove alcuni coefficienti sono zero. La linea grigia definisce le soluzioni imparziali. In lazo, alcuni errori sono introdotti da . Da questa figura vedo che il miglior sottoinsieme è meglio del lazo! Quali sono gli svantaggi dell'utilizzo del miglior sottoinsieme?λ


1
.. e che aspetto hanno le curve quando la casualità nei dati ti fa selezionare uno dei tanti sottoinsiemi sbagliati e le stime dei coefficienti associati sono tutt'altro che zero rispetto ai loro errori standard?
jbowman,

2
@jbowman Non capisco molto chiaramente, perché la casualità nei dati mi indurrebbe a selezionare quello sbagliato? Se usassi la validazione incrociata per selezionare il sottoinsieme migliore, avrei quindi minori possibilità di selezionare il sottoinsieme sbagliato.
Ville,

1
Sembra che tu stia equiparando "meno preconcetti" a "migliore". Cosa ti porta a dare un valore così alto all'imparzialità?
Matthew Drury,

Risposte:


16

Nella selezione del sottoinsieme, i parametri diversi da zero saranno imparziali solo se si è scelto un superset del modello corretto, ovvero se sono stati rimossi solo i predittori i cui valori di coefficienti reali sono zero. Se la procedura di selezione ti ha portato ad escludere un predittore con un vero coefficiente diverso da zero, tutte le stime dei coefficienti saranno distorte. Questo sconfigge il tuo argomento se accetti che la selezione non è in genere perfetta.

Pertanto, per essere "sicuri" di una stima del modello imparziale, si dovrebbe errare dal punto di vista dell'inclusione di più o anche di tutti i predittori potenzialmente rilevanti. Cioè, non dovresti selezionare affatto.

Perché questa è una cattiva idea? A causa del compromesso di bias varianza. Sì, il tuo modello di grandi dimensioni sarà imparziale, ma avrà una grande varianza e la varianza dominerà l'errore di previsione (o altro).

Pertanto, è meglio accettare il fatto che le stime dei parametri saranno essere influenzati, ma hanno varianza inferiore (regolarizzazione), piuttosto che la speranza che la nostra selezione sottoinsieme ha rimosso solo zero reale i parametri in modo da avere un modello di imparziale con la varianza più grande.

Dato che scrivi che valuti entrambi gli approcci usando la validazione incrociata, questo mitiga alcune delle preoccupazioni sopra. Rimane un problema rimanente per il miglior sottoinsieme: vincola alcuni parametri esattamente a zero e consente agli altri di fluttuare liberamente. Quindi c'è una discontinuità nella stima, che non c'è se modifichiamo il lazo oltre un punto λ 0 in cui un predittore p è incluso o escluso. Supponiamo che la validazione incrociata produca un λ "ottimale" vicino a λ 0 , quindi non siamo sostanzialmente sicuri che p debba essere incluso o meno. In questo caso, direi che ha più senso per vincolare la stima di parametro β pλλ0pλλ0β^ptramite il lazo per un piccolo valore (assoluto), piuttosto che sia completamente , o lasciarlo fluttuare liberamente, β p = β OLS p , come fa Migliore sottoinsiemi.β^p=0β^p=β^pOLS

Questo può essere utile: perché il restringimento funziona?


Hmm. Non credo che questo risponda al perché il miglior sottoinsieme sia peggiore del lazo (che è la domanda principale qui).
ameba dice Reinstate Monica il

@amoeba: ti piacerebbe elaborare?
Stephan Kolassa,

Bene, ho capito la domanda chiedendomi perché il lazo sia preferito al miglior sottoinsieme. Immagina di mettere entrambi in un ciclo di convalida incrociata e quindi di ottimizzare il parametro lasso o trovare il sottoinsieme migliore. Il lazo è di solito raccomandato. Ho capito la domanda come chiedere Perché? (vedi ad esempio il titolo della Q) e non sono sicuro che la tua risposta risponda effettivamente a questa. O ho frainteso la tua risposta?
ameba dice Reinstate Monica il

1
λλ0ppλλ0β^p

1
Concordo sul fatto che questa risposta non risponda davvero alla domanda - Ho aggiunto la mia
opinione

11

In linea di principio, se si trova il miglior sottoinsieme, è effettivamente migliore di LASSO, in termini di (1) selezione delle variabili che effettivamente contribuiscono all'adattamento, (2) non selezione delle variabili che non contribuiscono all'adattamento, (3) accuratezza della previsione e (4) produrre stime sostanzialmente imparziali per le variabili selezionate. Un recente articolo che ha sostenuto la qualità superiore del miglior sottoinsieme rispetto a LASSO è quello di Bertsimas et al (2016) "La migliore selezione di sottoinsiemi tramite una moderna lente di ottimizzazione" . Un altro esempio più antico che fornisce un esempio concreto (sulla deconvoluzione dei treni a spike) in cui il miglior sottoinsieme era migliore di LASSO o cresta è quello di de Rooi & Eilers (2011).

L0L1L0Lqla regressione penalizzata dalla norma con q vicino a 0 sarebbe in linea di principio più vicina alla migliore selezione di sottoinsiemi rispetto a LASSO, ma questo non è più un problema di ottimizzazione convessa, ed è quindi piuttosto difficile da adattare ).

Per ridurre la distorsione del LASSO si possono usare approcci multistep derivati, come il LASSO adattivo (dove i coefficienti sono penalizzati in modo differenziato sulla base di una stima precedente da un minimo di quadrati o adattamento della regressione della cresta) o rilassato LASSO (una soluzione semplice è fare un adattamento dei minimi quadrati delle variabili selezionate da LASSO). Rispetto al miglior sottoinsieme, LASSO tende a selezionare leggermente troppe variabili. La migliore selezione del sottoinsieme è migliore, ma più difficile da adattare.

L0fornisce un ampio confronto tra i migliori sottoinsiemi, LASSO e alcune varianti di LASSO come il rilassato LASSO, e sostengono che il rilassato LASSO è stato quello che ha prodotto la massima precisione di predizione del modello nella più ampia gamma di circostanze, ovvero sono arrivati ​​a una conclusione diversa rispetto a Bertsimas. Ma la conclusione su quale sia la migliore dipende molto da ciò che consideri migliore (ad es. Massima precisione di previsione o migliore per individuare le variabili pertinenti e non includere quelle irrilevanti; regressione della cresta, ad esempio, seleziona in genere troppe variabili ma l'accuratezza della previsione per i casi con le variabili altamente collineari possono comunque essere davvero buone).

Per un problema molto piccolo con 3 variabili come la descrivi, è chiaro che la scelta migliore per il sottoinsieme è l'opzione preferita.


1
Che cosa significa "migliore" nella frase "è meglio del lazo"?
Matthew Drury,

1
KλKKK

Modificato un po 'la mia risposta per dare qualche dettaglio in più ...
Tom Wenseleers,

Non credo che nessuna delle risposte affronti il ​​problema della stabilità. Come la regressione graduale e di tutti i possibili sottoinsiemi, lassoè notoriamente instabile. In altre parole, se avessi avviato l'intero processo, troverai troppa arbitrarietà nell'elenco delle funzionalità selezionate.
Frank Harrell,

Sì, le variabili selezionate da LASSO possono essere instabili, e lo è ancora di più nel caso della migliore regressione del sottoinsieme - la regressione della rete elastica è un po 'migliore in questo senso - che tende a includere troppe variabili allora, ma selezionata in più modo stabile e può fornire una migliore precisione di previsione in condizioni di elevata collinearità. Ma molto dipende da quale sia il criterio più importante per la tua applicazione - accuratezza della previsione, il tasso di falsi positivi di includere variabili irrilevanti o il tasso di falsi negativi di non includere variabili altamente rilevanti ...
Tom Wenseleers,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.