Sto usando il pacchetto R penalizzato per ottenere stime ridotte dei coefficienti per un set di dati in cui ho molti predittori e poca conoscenza di quali sono importanti. Dopo aver scelto i parametri di ottimizzazione L1 e L2 e sono soddisfatto dei miei coefficienti, esiste un modo statisticamente corretto per riassumere il modello in forma con qualcosa come R-quadrato?
Inoltre, sono interessato a testare il significato complessivo del modello (ovvero fa R² = 0 o fa tutto lo = 0).
Ho letto le risposte a una domanda simile fatta qui , ma non ha risposto alla mia domanda. C'è un eccellente tutorial sul pacchetto R che sto usando qui , e l'autore Jelle Goeman aveva la seguente nota alla fine del tutorial riguardante gli intervalli di confidenza dai modelli di regressione penalizzati:
È una domanda molto naturale chiedere errori standard dei coefficienti di regressione o altre quantità stimate. In linea di principio, tali errori standard possono essere facilmente calcolati, ad esempio utilizzando il bootstrap.
Tuttavia, questo pacchetto deliberatamente non li fornisce. La ragione di ciò è che gli errori standard non sono molto significativi per le stime fortemente distorte come quelle derivanti da metodi di stima penalizzati. La stima penalizzata è una procedura che riduce la varianza degli stimatori introducendo una distorsione sostanziale. La distorsione di ogni stimatore è quindi una componente importante del suo errore quadratico medio, mentre la sua varianza può contribuire solo in piccola parte.
Sfortunatamente, nella maggior parte delle applicazioni di regressione penalizzata è impossibile ottenere una stima sufficientemente precisa della distorsione. Eventuali calcoli basati su bootstrap possono solo fornire una valutazione della varianza delle stime. Stime attendibili della distorsione sono disponibili solo se sono disponibili stime imparziali attendibili, il che in genere non è il caso di situazioni in cui vengono utilizzate stime penalizzate.
La segnalazione di un errore standard di una stima penalizzata racconta quindi solo una parte della storia. Può dare un'impressione errata di grande precisione, ignorando completamente l'imprecisione causata dal pregiudizio. È certamente un errore fare dichiarazioni di confidenza che si basano solo su una valutazione della varianza delle stime, come fanno gli intervalli di confidenza basati su bootstrap.