Perché R Squared non è una buona misura per adattarsi alle regressioni usando LASSO?


12

Ho letto in diversi punti che R Squared non è una misura ideale quando un modello è in forma usando LASSO. Tuttavia, non sono chiaro esattamente perché .

Inoltre, potresti raccomandare la migliore alternativa?

Risposte:


19

L'obiettivo di utilizzare LASSO è ottenere una rappresentazione sparsa (di una quantità prevista) nel senso di non avere molte covariate. Il confronto tra modelli con tende a favorire modelli con molte covariate: infatti, l'aggiunta di covariate non correlate al risultato non diminuirà mai R 2 e quasi sempre lo aumenterà almeno un po '. Il modello LASSO identificherà il modello con la verosimiglianza logaritmica ottimale penalizzata (una verosimiglianza logaritmica non aperta è monotonicamente correlata alla R 2 ). Le statistiche di convalida che sono più ampiamente utilizzate per confrontare i modelli LASSO con altri tipi di modelli sono, ad esempio, il BIC o R 2 convalidati .R2R2R2R2


1
+1 per presentare chiaramente il motivo e fornire un'alternativa
Haitao Du

1
Grazie mille per l'ottima risposta! Ti dispiacerebbe approfondire "Il modello LASSO identificherà il modello con la verosimiglianza logaritmica ottimale penalizzata (una verosimiglianza logaritmica non aperta è monotonicamente correlata a R2)." Prendo la prima parte per indicare che sceglierà il modello con il minor numero di errori (in previsione e tramite la penalità)? Ma non sono chiaro cosa significhi il bit tra parentesi. Ciò significa che LL non aperto aumenta mentre R2 scende? Inoltre, R2 con convalida incrociata deve trovarsi in un set di dati completamente nuovo? O può essere basato sui dati di allenamento?
Dave,

3
log(2π)N+1-log(N)+log(Σio=1nrio2)1-Σio=1nrio2/Σio=1nyio2. La penalizzazione contribuisce all'errore indirettamente, è un prezzo da pagare per applicare la scarsità. Il modello non aperto avrà sempre un errore (interno) più basso. Le persone generalmente eseguono la convalida incrociata con lo stesso set di dati. Testare i modelli in nuovi set di dati è un'altra cosa (non è necessaria la parte "incrociata") e non è abbastanza.
AdamO

@AdamO Penso che sarebbe una buona idea modificare il tuo commento nella tua risposta, è molto buono.
Matthew Drury,

Ciao @AdamO un'ultima domanda di follow-up. Capisco ora perché R2 tradizionale è una misura sbagliata. Ma non sono chiaro il motivo per cui R2 validato in modo incrociato (all'interno dello stesso set di dati) va bene?
Dave,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.