Cosa rende instabile il lazo per la selezione delle caratteristiche?


12

Nel rilevamento compresso, c'è una garanzia teorema che ha una soluzione sparsa unica c (Vedi appendice per maggiori dettagli).

argminc1subject to y=Xc
c

Esiste un teorema simile per il lazo? Se esiste un tale teorema, non solo garantirà la stabilità del lazo, ma fornirà anche al lazo un'interpretazione più significativa:

il lazo può scoprire il vettore di coefficiente di regressione sparso c utilizzato per generare la risposta y per y=Xc .

Ci sono due motivi per cui faccio questa domanda:

  1. Penso che "il lazo favorisca una soluzione sparsa" non è una risposta al motivo per cui utilizzare il lazo per la selezione delle funzioni poiché non possiamo nemmeno dire quale sia il vantaggio delle funzionalità che selezioniamo.

  2. Ho imparato che il lazo è noto per essere instabile per la selezione delle funzionalità. In pratica, dobbiamo eseguire campioni bootstrap per valutarne la stabilità. Qual è la ragione più cruciale che causa questa instabilità?


Appendice:

Dato XN×M=(x1,,xM) . c è un Ω -sparse Consente di vettore ( ΩM ). Il processo y=Xc genera la risposta y . Se X ha l'NSP (proprietà spazio nullo) di ordine Ω e la matrice di covarianza di X non ha autovalore vicino a zero, ci sarà una soluzione unica a

argminc1subject to y=Xc
che è esattamente la c che dà y .

Ciò che dice questo teorema è anche se non ha l'NSP di ordine , è semplicemente senza speranza risolvere .XΩargminc:y=Xcc1


MODIFICARE:

Dopo aver ricevuto queste grandi risposte, mi sono reso conto di essere confuso quando stavo facendo questa domanda.

Perché questa domanda è confusa:

Ho letto un documento di ricerca in cui dobbiamo decidere quante funzioni (colonne) avrà la matrice di progettazione (le funzioni ausiliarie vengono create dalle funzioni primarie). Poiché si tratta di un tipico problema , si prevede che sia ben costruito in modo che la soluzione al lazo possa essere una buona approssimazione della soluzione reale sparsa.XN×Mn<pD

Il ragionamento è tratto dal teorema che ho citato nell'appendice: Se miriamo a trovare una soluzione sparsa - , è meglio avere l'NSP di ordine .ΩcXΩ

Per una matrice generale , se viene violata , alloraN×MN>CΩlnM

non è possibile alcun recupero stabile e robusto di da ecDP

D corrisponde a , corrisponde aXPy

... come previsto dalla relazione , la selezione del descrittore diventa più instabile, ovvero, per diversi set di allenamento, il descrittore selezionato spesso differisce ...N=CΩlnM

La seconda citazione è la parte che mi confonde. Mi sembra che quando viene violata la disuguaglianza, non è solo la soluzione forse non unica (non menzionata), ma il descrittore diventerà anche più instabile.


2
Solo per il contesto, il problema di ottimizzazione che scrivi all'inizio della tua Q si chiama "ricerca di base". Se si sostituisce l'uguaglianza con l'uguaglianza approssimativa (fino a un errore L2), si parla di "denoising del perseguimento della base". Il denoising della ricerca di base equivale matematicamente al lazo. y=XcyXc
ameba dice Reinstate Monica l'

Un utile set di diapositive (ma non semplice) trovato qui: pages.iu.edu/~dajmcdon/research/talks/lasso.pdf e il teorema del pranzo libero no users.ece.utexas.edu/~cmcaram/pubs/ XuCaramanisMannor.NFL.pdf
Xavier Bourret Sicotte

Il teorema che citi riguarda l'unicità. La tua domanda è confusa perché l'unicità non è necessariamente correlata alla stabilità.
ameba dice Reinstate Monica l'

2
Sì, credo che l'OP sia un po 'confuso e la domanda non sia chiara, quindi le diverse possibili risposte ... L'unicità è per un singolo set di punti dati, la stabilità si applica per la validazione incrociata, o bootstrap, o nuovi punti dati
Xavier Bourret Sicotte

Risposte:


8

AGGIORNARE

Vedi questo secondo post per il feedback di McDonald sulla mia risposta in cui la nozione di coerenza del rischio è correlata alla stabilità.


1) Unicità vs Stabilità

Alla tua domanda è difficile rispondere perché menziona due argomenti molto diversi: unicità e stabilità .

  • Intuitivamente, una soluzione è unica se viene fornito un set di dati fisso, l'algoritmo produce sempre gli stessi risultati. La risposta di Martin tratta questo punto in modo molto dettagliato.

  • D'altra parte, la stabilità può essere intuitivamente intesa come quella per la quale la previsione non cambia molto quando i dati di allenamento vengono leggermente modificati.

La stabilità si applica alla tua domanda perché la selezione della funzione Lazo viene (spesso) eseguita tramite Cross Validation, quindi l'algoritmo Lazo viene eseguito su diverse pieghe di dati e può produrre risultati diversi ogni volta.

Stabilità e teorema del pranzo libero

Usando la definizione da qui se definiamo stabilità uniforme come:

Un algoritmo ha stabilità uniforme rispetto alla funzione di perdita se vale quanto segue:βV

SZm  i{1,...,m},  sup|>V(fs,z)V(fS|i,z)|  β

Considerato come una funzione di , il termine può essere scritto come . Diciamo che l'algoritmo è stabile quando diminuisce come .mββmβm1m

quindi il "No Free Lunch Teorem, Xu and Caramis (2012)" afferma che

Se un algoritmo è scarso , nel senso che identifica le caratteristiche ridondanti, quell'algoritmo non è stabile (e il limite di stabilità uniforme non va a zero). [...] Se un algoritmo è stabile, non c'è speranza che sarà scarso. (pagine 3 e 4)β

Ad esempio, la regressione regolarizzata è stabile e non identifica le caratteristiche ridondanti, mentre la regressione regolarizzata (Lazo) è instabile. L2L1

Un tentativo di rispondere alla tua domanda

Penso che "Lazo favorisca una soluzione sparsa" non è una risposta al motivo per cui utilizzare Lazo per la selezione delle funzionalità

  • Non sono d'accordo, il motivo per cui Lasso viene utilizzato per la selezione delle funzionalità è che produce una soluzione scarsa e può essere dimostrato di avere la proprietà IRF, ovvero identifica le caratteristiche ridondanti.

Qual è la ragione più cruciale che causa questa instabilità

  • Il teorema del pranzo libero

Andare avanti

Questo non vuol dire che la combinazione di Cross Validation e Lasso non funzioni ... in effetti è stato dimostrato sperimentalmente (e con molta teoria di supporto) di funzionare molto bene in varie condizioni. Le principali parole chiave qui sono coerenza , rischio, disuguaglianze oracolari ecc.

Le seguenti diapositive e articoli di McDonald e Homrighausen (2013) descrivono alcune condizioni in cui la selezione degli elementi di Lasso funziona bene: diapositive e articoli: "Il lazo, la persistenza e la convalida incrociata, McDonald e Homrighausen (2013)" . Lo stesso Tibshirani ha anche pubblicato una grande serie di note su spartità , regressione lineare

Le varie condizioni per la coerenza e il loro impatto su Lasso sono un argomento di ricerca attivo e sicuramente non è una domanda banale. Posso indicarvi alcuni documenti di ricerca che sono rilevanti:


1
Grazie per la tua risposta esaustiva! Il set di diapositive fornite è semplicemente eccellente!
meTchaikovsky,

1
Sto ancora cercando di elaborare questa definizione di stabilità. La mia traduzione è che "un algoritmo è stabile se la modifica della funzione errore / perdita nel lasciare una fuori convalida incrociata ha un limite superiore che diminuisce come " quando aumentiamo il numero di folds / test-sets "β1m , spero di averlo corretto. Mi chiedo perché sia ​​una proprietà desiderabile per far funzionare bene il lazo (o più precisamente mi chiedo se sia una proprietà necessaria).
Sextus Empiricus

1
Sì, tranne m è il numero di punti dati. guarda qui pagina 7 per un limite probabilistico: math.arizona.edu/~hzhang/math574m/Read/LOOtheory.pdf - il punto è che non vi è alcun limite alla tabilità aumentando le dimensioni del set di dati, il che significa che l'algoritmo può saltare a funzioni di ipotesi lontane a seconda di un particolare set di dati. Questo è il motivo per cui vengono proposte condizioni alternative, che si riferiscono alla struttura di distribuzione e correlazione sottostante (credo) - ma avrebbe bisogno di aiuto per
chiarire

Un'altra nozione importante è quella della coerenza, come spiegato qui ad esempio: stat.ethz.ch/~nicolai/stability.pdf - come la stabilità e la coerenza siano collegate non è chiaro ma sembra essere oggetto di ricerca attiva, ad esempio cbcl.mit.edu/publications /ps/mukherjee-AImemoOctNov.pdf
Xavier Bourret Sicotte

Bella risposta! Potresti anche aggiornare alcuni link con descrizioni più dettagliate nel caso in cui i link stessi si interrompano in futuro? (Ne ho già fatto uno per te.)
Richard Hardy,

7

Commenti di Daniel J. McDonald

Assistente alla Indiana University Bloomington, autore dei due lavori citati nella risposta originale di Xavier Bourret Sicotte .

La tua spiegazione è generalmente abbastanza corretta. Alcune cose che vorrei sottolineare:

  1. Il nostro obiettivo nella serie di articoli su CV e lazo era quello di dimostrare che "Lasso + Cross Validation (CV)" fa così come "Lasso + ottimo "λ . In particolare, volevamo dimostrare che anche le previsioni fanno (senza modello). Per fare affermazioni sul corretto recupero dei coefficienti (trovare quelli giusti non sparsi), è necessario assumere una verità sparsa, che non volevamo fare.

  2. La stabilità algoritmica implica la coerenza del rischio (credo che Bousquet ed Elisseeff abbiano dimostrato per la prima volta). Per coerenza del rischio, intendo cheva a zero dove f è o il miglior predittore all'interno di una classe se la classe è errata. Questa è solo una condizione sufficiente. È menzionato nelle diapositive che hai collegato come, essenzialmente, "una possibile tecnica di prova che non funzionerà, poiché il lazo non è stabile".||f^(X)f(X)||E[Y|X]

  3. La stabilità è sufficiente ma non necessaria. Siamo stati in grado di dimostrare che, in alcune condizioni, "lasso + CV" prevede così come "lasso + ottimale ". Il documento che citi fornisce le ipotesi più deboli possibili (quelle sulla diapositiva 16, che consentono ), ma utilizza la forma vincolata di lazo piuttosto che la versione lagrangiana più comune. Un altro documento ( http://www3.stat.sinica.edu.tw/statistica/J27N3/J27N34/J27N34.html ) utilizza la versione lagrangiana. Mostra anche che in condizioni molto più forti, anche la selezione del modello funzionerà. Un documento più recente ( https://arxiv.org/abs/1605.02214 ) di altre persone afferma di migliorare questi risultati (non l'ho letto attentamente).λp>n

  4. In generale, poiché il lazo (o qualsiasi algoritmo di selezione) non è stabile, è necessaria un'analisi più attenta e / o ipotesi forti per mostrare che "algoritmo + CV" selezionerà il modello corretto. Non sono a conoscenza delle condizioni necessarie, sebbene ciò sia estremamente interessante in generale. Non è troppo difficile dimostrare che per il lambda fisso, il predittore di lazo è localmente Lipschitz nel vettore (credo che uno o più dei lavori di Ryan Tibshirani lo facciano). Se si potesse anche sostenere che ciò è vero in , questo sarebbe molto interessante e rilevante qui.YXi

Il principale elemento da aggiungere alla tua risposta: "stabilità" implica "coerenza del rischio" o "accuratezza della previsione". Può anche implicare "coerenza della stima dei parametri" sotto più assunzioni. Ma il teorema del non pranzo libero significa "selezione" "non stabile". Il lazo non è stabile anche con lambda fissa. È certamente instabile quindi quando combinato con CV (di qualsiasi tipo). Tuttavia, nonostante la mancanza di stabilità, è ancora coerente con il rischio e la selezione coerente con o senza CV: l'unicità è irrilevante qui.


5

Il Lasso, a differenza della regressione di Ridge (vedi ad esempio Hoerl e Kennard, 1970; Hastie et al., 2009) non ha sempre una soluzione unica, anche se in genere ha. Dipende dal numero di parametri nel modello, dal fatto che le variabili siano continue o discrete e dal rango della matrice di progettazione. Condizioni per l'unicità possono essere trovate in Tibshirani (2013).

Riferimenti:

Hastie, T., Tibshirani, R. e Friedman, J. (2009). Gli elementi dell'apprendimento statistico . Serie di Springer in statistica. Springer, New York, undicesima stampa, seconda edizione.

Hoerl, AE e Kennard, RW (1970). Regressione della cresta: stima distorta per problemi non ortogonali. Technometrics , 12 (1), 55-67.

Tibshirani, RJ (2013). Il problema del lazo e l'unicità. Journal of Statistics elettronico , 7, 1456-1490.


@ Grazie! Puoi aggiungere un breve riassunto di quei riferimenti che fornisci?
meTchaikovsky,

Hasite et al. (2009) è un libro che tratta molti argomenti, tra cui la regressione di Lasso e Ridge. Merita una lettura e può essere scaricato dalla homepage di Hastie: web.stanford.edu/~hastie/ElemStatLearn/download.html Hoerl & Kennard (1970) è un classico riferimento di regressione di Ridge e probabilmente non è rilevante per la tua domanda direttamente, altro che leggere di Ridge Regression. Tibshirani (2013) contiene informazioni su quando il Lazo ha una soluzione unica (e quando ha una quantità infinita di soluzioni).
Phil

3

Cosa causa la non unicità.

Per i vettori (dove è un segno che indica se il cambiamento di aumenterà o diminuirà ), ogni volta che sono strettamente dipendenti:sixisicic1

αisixi=0andαi=0

quindi esiste un numero infinito di combinazioni che non cambiano la soluzione e la norma .ci+γαiXcc1

Per esempio:

y=[11]=[210111][c1c2c3]=Xc

ha per le soluzioni:c1=1

[c1c2c3]=[010]+γ[121]

con0γ12

Possiamo in qualche modo sostituire il vettore usandox2x2=0.5x1+0.5x3


Situazioni senza questa condizione

Nell'articolo di Tibshirani (dalla risposta di Phil) sono descritte tre condizioni sufficienti affinché il lazo abbia una soluzione unica.

  1. Indipendentemente linearmente Quando lo spazio nullo è nullo o equivalentemente quando il rango di è uguale al numero di colonne (M). In tal caso non hai combinazioni lineari come sopra.XX
  2. Affinamente indipendente Quando le colonne sono in posizione generale.Xs

    Cioè, nessuna colonna rappresenta punti in un piano dimensionale . Un piano dimensionale k-2 può essere parametrizzato da qualsiasi punto come con . Con un -esimo punto su questo stesso piano avresti le condizioni conkk2k1αisixiαi=1ksjxjαisixiαi=0

    Si noti che nell'esempio le colonne , e sono su una sola riga. (È comunque un po 'imbarazzante qui perché i segni possono essere negativi, ad esempio la matrice ha appena anche nessuna soluzione unica)x1x2x3[[21][11][01]]

  3. Quando le colonne provengono da una distribuzione continua, è improbabile (probabilità quasi zero) che le colonne di non siano in posizione generale.XX

    In contrasto con questo, se le colonne sono una variabile categoriale, questa probabilità non è necessariamente quasi zero. La probabilità che una variabile continua sia uguale a un insieme di numeri (ovvero i piani corrispondenti all'intervallo affine degli altri vettori) è "quasi" zero. Ma questo non è il caso delle variabili discrete.X


+1, ma penso che ciò che si intende per instabile nelle recenti discussioni sia correlato alla selezione delle funzionalità tramite convalida incrociata in presenza di funzioni correlate
Xavier Bourret Sicotte

@XavierBourretSicotte vuoi dire che anche quando esiste una soluzione unica, il processo di selezione può essere instabile a causa di funzioni correlate che aggiungono problemi alla ricerca (numerica) di quella soluzione unica? È un po 'confuso perché la domanda pone da un lato la stabilità e dall'altro l'unicità.
Sesto Empirico

Sì, questo è ciò che intendo, non necessariamente a causa dell'instabilità numerica, ma a causa delle differenze intrinseche nelle pieghe dei dati (durante il CV) che portano a soluzioni diverse per valori diversi nelle pieghe. Potrebbe essere anche peggio quando si avvia il bootstrapλ
Xavier Bourret Sicotte l'

@XavierBourretSicotte Al momento non ho una chiara immagine intuitiva del perché questo (diverse soluzioni per diversi e set di allenamento) dovrebbe essere instabile. Immagino che potresti pubblicare questo come risposta e spiegarlo. λ
Sesto Empirico

@Martijn Weterings Grazie! Ho ancora tre domande: 1. come posso rilevare la dipendenza in modo affine? Devo scoprire se sono indipendenti ( math.stackexchange.com/q/82189 )? 2. come devo determinare in pratica? 3. cosa significa una "posizione generale" di ? {v1v0,v2v0,,vkv0}siX
meTchaikovsky,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.