Confusione legata alla rete elastica


10

Stavo leggendo questo articolo relativo alla rete elastica. Dicono che usano la rete elastica perché se usiamo semplicemente Lasso tende a selezionare solo un predittore tra i predittori che sono altamente correlati. Ma non è questo ciò che vogliamo. Voglio dire, non ci salva dal problema della multicollinearità.

Qualche suggerimento / chiarimento?

Risposte:


11

Supponiamo che due predittori abbiano un forte effetto sulla risposta ma siano fortemente correlati nel campione da cui si costruisce il modello. Se ne elimini uno dal modello, non è in grado di prevedere bene campioni di popolazioni simili in cui i predittori non sono altamente correlati.

Se si desidera migliorare la precisione delle stime dei coefficienti in presenza di multicollinearità, è necessario introdurre una leggera distorsione, compensandola con una maggiore riduzione della varianza. Un modo è rimuovere completamente i predittori - con LASSO, o, ai vecchi tempi, metodi graduali -, che sta portando a zero le loro stime dei coefficienti. Un altro è distorcere un po 'tutte le stime, con regressione della cresta o, ai vecchi tempi, regredire sui primi componenti principali. Uno svantaggio del primo è che non è sicuro se il modello verrà utilizzato per prevedere le risposte per i modelli predittori lontano da quelli verificatisi nel campione originale, poiché i predittori tendono ad essere esclusi solo perché non sono molto utilizzati insieme ad altri, quasi collineare, predittori. (Non che l'estrapolazione sia mai completamente sicura.) La rete elastica è una miscela dei due, come spiega @ user12436, e tende a mantenere gruppi di predittori correlati nel modello.


Perché non prevede bene in questo nuovo campione?
user31820

1
Perché al modello manca un importante predittore.
Scortchi - Ripristina Monica

2
Se due predittori sono correlati in un campione rappresentativo di una popolazione, non dovrebbero essere correlati in un altro campione? se si utilizza un modello su dati "lontani da quelli che si sono verificati nell'esempio originale", non è un uso borderline non valido di alcun modello?
Matthew Drury,

@MatthewDrury: Beh, se il modello è "giusto" - se non ci sono confonditori non osservati su cui vale la pena preoccuparsi, e se la forma funzionale è estrapolabile - allora la distribuzione dei predittori nel campione non ha importanza (anche se ovviamente determina la precisione di stime e previsioni). Quindi ad un estremo potresti avere un modello meccanicistico basato sui dati di uno studio sperimentale ben controllato sui fattori causali; dall'altro un modello empirico basato sui dati raccolti da uno studio osservazionale su un gruppo di variabili che erano semplicemente facili da misurare.
Scortchi - Ripristina Monica

La frase: " ai vecchi tempi, i metodi graduali mi facevano sorridere.: D (Ovvio +1, questa è una buona risposta)
usεr11852

4

Ma non è questo ciò che vogliamo. Voglio dire, ci salva dal problema della multicollinearità, non è vero.

Sì! e no. La rete elastica è una combinazione di due tecniche di regolarizzazione, la regolarizzazione L2 (utilizzata nella regressione della cresta) e la regolarizzazione L1 (utilizzata in LASSO).

Il lazo produce modelli naturalmente sparsi, ovvero la maggior parte dei coefficienti variabili verrà ridotta a 0 ed effettivamente esclusa dal modello. Quindi le variabili meno significative vengono ridotte, prima di ridurre le altre, a differenza della cresta, dove tutte le variabili vengono ridotte, mentre nessuna di esse viene ridotta a 0.

La rete elastica utilizza una combinazione lineare di entrambi questi approcci. Il caso specifico menzionato da Hastie nel discutere il metodo era nel caso di p grande, n piccolo. Il che significa: dati ad alta dimensione con relativamente poche osservazioni. In questo caso, secondo quanto riferito, LASSO selezionerebbe sempre al massimo n variabili, eliminando tutto il resto, vedi l'articolo di Hastie .

Dipenderà sempre dal set di dati effettivo, ma puoi ben immaginare di non voler sempre avere il limite superiore del numero di variabili nei tuoi modelli uguale o inferiore al numero delle tue osservazioni.


Ma che dire della multicollinearità. La rete elastica consente di selezionare funzioni multi collineari che non vanno bene, no?
user31820

Non credo che molti set di dati reali abbiano variabili perfettamente multicollineari. Le variabili altamente correlate potrebbero essere quasi collineari, il che è ancora un problema, ma che potresti essere disposto ad accettare, nel caso siano entrambi importanti per il tuo modello.
significa significato

Il link sopra aggiunto conduce a yahoo.com. Inoltre, [il documento] ( onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/… ) è di Zou e Hastie (Elastic net one).
KarthikS,

2

Sia Lasso che Elastic Net sono metodi efficienti per eseguire la selezione di variabili o caratteristiche in impostazioni di dati ad alta dimensione (molte più variabili rispetto a pazienti o campioni; ad esempio 20.000 geni e 500 campioni di tumore).

È stato dimostrato (da Hastie e altri) che la rete elastica può superare Lasso quando i dati sono altamente correlati. Il lazo può semplicemente selezionare una delle variabili correlate e non importa quale sia selezionata. Questo può essere un problema quando si vogliono convalidare le variabili selezionate in un set di dati indipendente. La variabile selezionata da Lazo potrebbe non essere il miglior predittore tra tutte le variabili correlate. La rete elastica risolve questo problema facendo la media delle variabili altamente correlate.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.