Se solo la previsione è interessante, perché usare il lazo sulla cresta?


37

A pagina 223 in Un'introduzione all'apprendimento statistico , gli autori sintetizzano le differenze tra regressione della cresta e lazo. Forniscono un esempio (Figura 6.9) di quando "il lazo tende a sovraperformare la regressione della cresta in termini di distorsione, varianza e MSE".

Capisco perché il lazo può essere desiderabile: si traduce in soluzioni sparse poiché riduce molti coefficienti a 0, risultando in modelli semplici e interpretabili. Ma non capisco come possa sovraperformare la cresta quando sono interessanti solo le previsioni (cioè come sta ottenendo un MSE sostanzialmente inferiore nell'esempio?).

Con la cresta, se molti predittori non hanno quasi alcun effetto sulla risposta (con alcuni predittori che hanno un grande effetto), i loro coefficienti non saranno semplicemente ridotti a un piccolo numero molto vicino allo zero ... risultando in qualcosa di molto simile al lazo ? Quindi perché il modello finale dovrebbe avere prestazioni peggiori del lazo?



2
Ho visto quel link. Non risponde alla domanda.
Oliver Angelil,

Risposte:


34

Hai ragione a porre questa domanda. In generale, quando viene utilizzata una regola di punteggio di precisione adeguata (ad esempio, errore di previsione quadratico medio), la regressione della cresta supererà il lazo. Lazo spende alcune delle informazioni cercando di trovare i predittori "giusti" e in molti casi non è nemmeno eccezionale. Le prestazioni relative dei due dipenderanno dalla distribuzione dei veri coefficienti di regressione. Se in realtà hai una piccola frazione di coefficienti diversi da zero, il lazo può funzionare meglio. Personalmente uso la cresta quasi sempre quando sono interessato alla precisione predittiva.


1
ci sono casi in cui non sei interessato alla precisione predittiva?
Tricheco il gatto

1
@WalrustheCat Alcune persone, in genere stereo provenienti da Stanford, sostengono l'uso del lazo nella selezione di variabili ad alta dimensione. Presumibilmente, Frank intendeva "... interessato principalmente all'accuratezza predittiva" piuttosto che semplicemente "... interessato all'accuratezza predittiva", sebbene, a mio avviso, la differenza tra questi due sia due pedanti per essere utili.
John Madden,

Non ho mai capito l'approccio della "regolarizzazione come riduzione della dimensionalità". È possibile eseguire la riduzione della dimensionalità, tramite la regolarizzazione del lazo o meno, e quindi utilizzare la migliore funzione di regolarizzazione per il problema originale sulle funzionalità risultanti. Ma sto divagando.
Walrus the Cat

9
Da "In generale [...] la regressione della cresta supererà il lazo" e "Se hai una piccola frazione di coefficienti diversi da zero in realtà, il lazo può ottenere risultati migliori" sembra seguire che nella maggior parte dei problemi di predizione la verità di base non è scarsa. È questo che stai dicendo?
ameba dice Ripristina Monica il

5
Sì, principalmente. Se conosci la verità fondamentale "nella distribuzione", creeresti una distribuzione bayesiana precedente per i coefficienti di regressione sconosciuti che ti darebbero risultati ottimali. E anche quando, diciamo, 3/4 dei predittori hanno un effetto esattamente zero, la cresta è competitiva con il lazo.
Frank Harrell,

11

Penso che la configurazione specifica dell'esempio a cui fai riferimento sia la chiave per capire perché il lazo supera la cresta: solo 2 dei 45 predittori sono effettivamente rilevanti.

Ciò confina con un caso patologico: il lazo, specificamente destinato a rendere facili le riduzioni a zero, si comporta esattamente come previsto, mentre la cresta dovrà affrontare un gran numero di termini inutili (anche se il loro effetto è ridotto a zero, è ancora un effetto diverso da zero).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.