Svantaggi della rete elastica rispetto al lazo?


8

Quali sono gli svantaggi dell'utilizzo della rete elastica rispetto al lazo. So che la rete elastica è in grado di selezionare gruppi di variabili quando sono altamente correlati.

  1. Non ha il problema di selezionare più di predittori quando . Considerando che il lazo si satura quando .npnpn

  2. Quando ci sono predittori altamente correlati, il lazo tende a scegliere solo un predittore dal gruppo.

  3. Quando e i predittori sono correlati, la prestazione di predizione del lazo è inferiore a quella della cresta.np

Tutti questi svantaggi del lazo sono superati dalla rete elasica.

Quello che non capisco è quando dovrebbe essere usato il lazo? C'è qualche motivo per usarlo quando la rete elastica funziona meglio del lazo? Quali sono gli svantaggi dell'utilizzo della rete elastica in alcuni casi? In quali casi il lazo sarebbe una scelta migliore?

Risposte:


8

Uno svantaggio è il costo computazionale. È necessario convalidare in modo incrociato il peso relativo della penalità L1 vs. L2, , e ciò aumenta il costo computazionale del numero di valori nella griglia .αα

Un altro svantaggio (ma allo stesso tempo un vantaggio) è la flessibilità dello stimatore. Con una maggiore flessibilità arriva una maggiore probabilità di overfitting. È possibile che l'ottimale per la popolazione e per la dimensione del campione dato sia , trasformando la rete elastica in lazo, ma ti capita di scegliere un valore diverso a causa del caso (perché quel valore offre prestazioni migliori quando si esegue la convalida incrociata nel campione particolare).α0


1
Piccolo commento in merito al secondo punto: lazo e rete elastica sono stimatori per lo stesso modello . Pertanto, non esiste alcuna differenza nella flessibilità del modello.
Hejseb,

2
@hejseb: con LASSO, esiste un singolo parametro ottimizzato durante la convalida incrociata: . In elastic-net, puoi ottimizzare sia su che , il che significa maggiori opportunità di overfitting durante il processo di selezione della validazione incrociata. D'altra parte, il solo utilizzo dei valori predefiniti di tende a funzionare davvero bene, quindi spesso solo è ottimizzato. Quindi non sono d'accordo con la tua affermazione, perché considero e una parte del modello (anche se capisco l'ambiguità). λαλαλαλ
Cliff AB,

3
@hejseb, punto eccellente! Ora corretto. Cliff AB, penso che la definizione del modello non debba necessariamente includere i parametri di ottimizzazione dello stimatore (lazo, rete elastica, ...) - che sono e - quindi per me il commento di hejseb ha molto senso. Penso sulla falsariga di definire un modello per la popolazione (un modello lineare in questo caso) e di stimarne i parametri (che includono s ma non o ) da alcuni stimatori. αλβαλ
Richard Hardy,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.