Analisi elastica / cresta / lazo, e allora?


19

Mi sto davvero interessando alla procedura della rete elastica per la riduzione / selezione del predittore. Sembra molto potente.

Ma dal punto di vista scientifico non so bene cosa fare una volta ottenuti i coefficienti. A quale domanda sto rispondendo? Queste sono le variabili che influenzano maggiormente questo risultato e questi sono i coefficienti che danno il miglior rapporto varianza / bias durante la validazione?

Questo è ovviamente un approccio molto descrittivo / predittivo rispetto all'approccio classico con intervalli di valore / confidenza. La stima inferenziale è attualmente allo studio di Tibshirani & Co. ma è ancora sperimentale.

Alcune persone stanno usando le variabili scelte dalla rete elastica per eseguire la classica analisi inferenziale, ma ciò eliminerebbe la limitazione di varianza introdotta dalla tecnica.

Un altro problema è che poiché i parametri lambda e alfa per la rete elastica sono scelti mediante validazione incrociata, sono soggetti a variabilità casuale. Quindi ogni volta che esegui (es.) Cv.glmnet () selezionerai un sottoinsieme leggermente diverso di predittori con coefficienti sempre diversi.

Ho pensato di risolverlo considerando la giusta lambda e alfa come variabili casuali e rieseguire il passaggio di convalida incrociata n volte per ottenere una distribuzione di questi parametri. In questo modo per ogni predittore avrei il numero di occorrenze e per ogni coefficiente avrei distribuzione dei risultati. Questo dovrebbe darmi risultati più generalizzabili con statistiche sugli intervalli (come sd dei coefficienti). Sarebbe anche interessante vedere se la lambda e l'alfa scegliessero in questo modo approssimativamente una certa distribuzione asintoticamente, poiché ciò aprirebbe la strada a qualche test di inferenza (ma non sono uno statistico quindi non dovrei parlare di cose che non capisco bene).

Quindi alla fine la mia domanda è: una volta ottenuti i predittori e i coefficienti da una rete elastica con alpha e lambda basati sulla validazione incrociata, quale e come dovresti presentare questi risultati? Come dovresti discuterne? che cosa abbiamo imparato? Quale ipotesi / generalizzazione stiamo confutando?


Penso che questo sia eccessivamente ampio / poco chiaro per rispondere in modo appropriato. In alcuni casi trovo le tue dichiarazioni poco chiare (ad es. Cosa intendi con " ma ciò eliminerebbe la limitazione di varianza introdotta dalla tecnica ") e su alcuni altri casi fuorviati (ad es. " Ogni volta che corri (ad es.) cv.glmnet () selezionerai un sottoinsieme leggermente diverso di predittori con coefficienti sempre diversi "- questo non è sempre il caso e anche quando succede di solito non è catastrofico dato che il CV è stato fatto correttamente.)
Usεr11852 dice Reinstate Monic

una motivazione che ho visto della rete elastica lo ha collegato al clustering variabile (attraverso la sezione 2.3 dello zou, hastie elastic paper paper), che viene espanso in modo più dettagliato (attraverso un metodo un po 'diverso) qui: ncbi.nlm.nih .gov / pmc / articoli / PMC4011669
user795305

Risposte:


8

Questi metodi - il lazo e la rete elastica - sono nati dai problemi di selezione e previsione delle caratteristiche. È attraverso queste due lenti che penso che si possa trovare una spiegazione.

Matthew Gunn spiega bene nella sua risposta che questi due obiettivi sono distinti e spesso presi da persone diverse. Tuttavia, fortunatamente per noi, i metodi a cui siamo interessati possono funzionare bene in entrambe le arene.

Selezione funzionalità

Innanzitutto, parliamo della selezione delle funzionalità. Dovremmo prima motivare la rete elastica dal punto di vista del lazo. Cioè, per citare Hastie e Zou , "Se c'è un gruppo di variabili tra le quali le correlazioni a coppie sono molto alte, allora il lazo tende a selezionare solo una variabile dal gruppo e non importa quale sia selezionata." Questo è un problema, ad esempio, perché significa che probabilmente non troveremo un elemento del vero supporto usando il lazo - solo uno altamente correlato con esso. (L'articolo menziona che ciò è dimostrato nel documento LARS, che non ho ancora letto.) La difficoltà di supportare il recupero in presenza di correlazione è anche evidenziata da Wainwright ,0.5

| a| =| b|(a,b)=argmina,b:c=|a|+|b|(a)2+(b)2|a|=|b|

A parte ciò, vale la pena sottolineare che il fatto che le caratteristiche altamente correlate tenderanno ad avere stime di coefficienti molto simili lo rende tale da poter rilevare raggruppamenti di caratteristiche all'interno del supporto stimato che influenzano la risposta in modo simile.

Predizione

Passiamo ora alla previsione. Come sottolinea Matthew Gunn, la scelta dei parametri di ottimizzazione attraverso la validazione incrociata crea uno scopo per scegliere un modello con un errore di previsione minimo. Poiché qualsiasi modello selezionato dal lazo può essere selezionato dalla rete elastica (prendendo ), ha un certo senso che la rete elastica sia in grado di trovare un modello che preveda meglio del lazo.α=1

Lederer, Yu e Gaynanova mostrano, senza ipotesi di sorta sulle caratteristiche, che il lazo e la rete elastica possono avere entrambi il loro errore di previsione l2 limitato dalla stessa quantità. Non è necessariamente vero che il loro limite è stretto, ma questo potrebbe essere interessante notare dal momento che le disuguaglianze dell'oracolo sembrano essere un modo standard nella letteratura statistica per quantificare le prestazioni predittive degli stimatori - forse dal momento che le distribuzioni sono così complicate! Vale anche la pena notare che Lederer (1) (2) ha alcuni articoli sulle previsioni del lazo in presenza di caratteristiche correlate.

Sommario

In sintesi, i problemi di interesse sono il vero supporto all'interno del supporto e della previsione stimati. Per il recupero del supporto, esistono garanzie rigorosamente comprovate (tramite Wainwright) che il lazo seleziona le caratteristiche corrette da inserire nel modello presupponendo una bassa correlazione tra il supporto reale e il suo complemento. Tuttavia, in presenza di correlazione, possiamo ricorrere alla rete elastica per essere più propensi a selezionare le caratteristiche nel vero supporto per essere tra tutto ciò che seleziona. (Notare che dobbiamo selezionare attentamente i parametri di ottimizzazione qui.) E, per la predizione quando scegliamo il parametro di sintonizzazione attraverso la validazione incrociata, ha senso intuitivo che la rete elastica dovrebbe funzionare meglio del lazo, specialmente in presenza di correlazione .

Mettendo da parte la previsione e alcune formalità, cosa abbiamo imparato? Abbiamo imparato a conoscere il vero supporto.

Intervalli di confidenza

Vale la pena sottolineare che negli ultimi 2 anni sono cambiate molte cose per quanto riguarda l'inferenza valida per il lazo. In particolare, il lavoro di Lee, Sun, Sun e Taylor fornisce un'inferenza esatta per i coefficienti del lazo in base al modello selezionato. (I risultati sull'inferenza in lazo per i coefficienti reali erano in giro al momento del post di OP, e sono ben riassunti nel documento collegato.)


Sarebbe corretto supporre che le stime delle covariate regolarizzate siano probabilmente più simili a quelle che potremmo trovare ripetendo uno studio? Cioè, poiché la regolarizzazione aiuta a minimizzare l'errore di predizione fuori dal campione, potrebbe aiutare a minimizzare la differenza dalla stima nel campione e fuori dal campione?
Bakaburg,

1
@ Bakakurg, sì, ha senso dirlo. La regolarizzazione crea stimatori con varianza inferiore.
user795305

9

Quello che stai facendo con elastico, cresta o lazo, usando la validazione incrociata per scegliere i parametri di regolarizzazione, sta adattando una forma lineare per ottimizzare la previsione . Perché questi particolari parametri di regolarizzazione? Perché funzionano meglio per la previsione di nuovi dati. La riduzione delle stime del coefficiente verso lo zero, l' introduzione di una distorsione (come avviene in Ridge o Lazo) può ridurre l'eccessivo adattamento e ridurre la varianza . L'idea è che i tuoi parametri di penalità raggiungano il giusto equilibrio al fine di ottimizzare la previsione su nuovi dati.

Immagina che il processo di generazione dei dati sia:

yi=f(xi,β)+ϵi

Sia nostra stima dei parametri e sia la nostra previsione per l'osservazione ß y jjβ^βy^jj

Come dovresti presentare i tuoi risultati? Dipende dalla tua domanda di ricerca sottostante! Si consiglia di passo indietro e riflettere profondamente su ciò che domanda si sta cercando di risposta. Che cosa importa al tuo pubblico? Cosa stai cercando di fare?

  • Predizione?
  • Stimare i coefficienti?
  • Selezione variabile?

È importante distinguere tra due tipi di domande di ricerca:

  1. Domande a cui tieni principalmente alla previsione, ovvero a cui tieniy^j
  2. Domande a cui tieni principalmente alle stime dei parametri .β^

Le tecniche di machine learning off-the-shelf possono essere estremamente potenti per i primi problemi di previsione . Come sembra riconoscere, tuttavia, le tecniche standard di machine learning possono essere estremamente problematiche per , problemi di stima dei parametri: βy^β^

  • In un'impostazione ad alta dimensione, molte diverse parametrizzazioni ti daranno le stesse previsioni . Se il numero di parametri è elevato rispetto al numero di osservazioni , potresti non essere in grado di stimare bene ogni singolo parametro. kny^kn
  • Gli algoritmi addestrati su diverse pieghe possono avere stime di parametri significativamente diverse.
  • L'enfasi nell'apprendimento automatico è sulla previsione, non sulla stima coerente degli effetti causali. (Ciò contrasta con l'econometria in cui il problema principale è in genere la stima coerente degli effetti causali). La previsione, stimando una qualche forma funzionale, è diversa dalla stima della causalità. I livelli di polizia possono essere un buon predittore dei livelli di criminalità e ciò non significa che la polizia possa causare il crimine.

E come riconosci, potrebbero esserci problemi nell'interpretazione del motivo per cui alcuni parametri di machine learning funzionano. Il tuo pubblico è a suo agio con una scatola nera di previsione? O come la previsione ha un ruolo centrale nella tua domanda?

Lasso e Ridge: motivi classici per usarli

  • È possibile utilizzare la rete elastica per l'apprendimento automatico classico, i problemi di previsione, le situazioni in cui la preoccupazione principale è . In un certo senso, la regolarizzazione ti consente di includere più predittori, ma tieni comunque sotto controllo il sovradimensionamento.y^

  • È possibile utilizzare la regolarizzazione per evitare un eccesso di adattamento. Per esempio. la regressione della cresta nel contesto dell'adattamento della curva polinomiale può funzionare abbastanza bene.

  • Come sottolinea @Benjamin nella sua risposta, Lasso può anche essere usato per la selezione delle variabili. In determinate condizioni di regolarità, Lazo selezionerà coerentemente il modello appropriato: i coefficienti irrilevanti saranno impostati a zero.

Le penalità e , rispettivamente di Lasso e Ridge, inclinano le stime dei coefficienti verso zero. Se la distorsione è grande, questo potrebbe essere un problema serio se stai cercando di interpretare le stime dei coefficienti. E per ottenere stime standard degli errori, devi fare qualcosa come il bootstrap; non ci sono semplici soluzioni a forma chiusa (di cui sono a conoscenza). La cresta, il lazo e la rete elastica hanno somiglianze con la normale regressione OLS, ma la regolarizzazione e la selezione variabile rendono l'inferenza piuttosto diversa ...L 2L1L2

Quello a cui continuo a tornare è che è abbastanza difficile interpretare i risultati della regressione della cresta, del lazo o della rete elastica senza un altro contesto di ciò che stai cercando di capire!


Il Prof. Sendhil Mullainathan ha tenuto un discorso sull'apprendimento automatico alla riunione AFA del gennaio 2017 che ha motivato parti di questo post.


3
Questo tipo di pensiero è imperfetto secondo me. Si basa sul presupposto che il fenomeno di base sia abbastanza semplice da essere compreso da un essere umano. I modelli ad alta dimensione sono spesso troppo complessi per essere compresi dagli umani, ma sono molto adatti per l'intelligenza artificiale su larga scala. In realtà il miglior predittore è la migliore interpretazione del fenomeno, sia che tu possa comprenderlo o meno.
Cagdas Ozgenc,

2
@CagdasOzgenc Penso che sia un punto valido che alcune funzioni sono orribilmente complesse, difficili da descrivere agli umani ma comprensibili e apprendibili dalle macchine (es. Valutazione della scacchiera). In queste situazioni, potrebbe essere meglio alzare le mani, nemmeno provare a interpretare ciò che la macchina ha imparato. D'altra parte, ci sono situazioni come le sperimentazioni farmacologiche in cui si verifica un effetto causale, un'efficacia media che stai cercando di stimare in presenza di una moltitudine di fattori confondenti, effetti di selezione ecc ... Questi sono in un certo senso diversi problemi e necessità tecniche diverse.
Matthew Gunn,

1
@Benjamin Un problema di fondo è che ciò che l'OP chiede più direttamente, un'interpretazione comprensibile della polarizzazione verso coefficienti zero dalla rete elastica, potrebbe non esistere. Immagina di avere 10.000 predittori e 5.000 osservazioni. Insieme, i tuoi coefficienti possono fare un ottimo lavoro alla previsione, ma individualmente, ogni coefficiente può essere spazzatura scarsamente stimata. Penso che valga la pena fare un passo indietro e chiedersi qual è la domanda di ricerca di base? Qual è l'obiettivo? Sta trovando previsioni o sta stimando un coefficiente? O forse qualcos'altro? y^
Matthew Gunn,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.