Penso che boostrap sarebbe l'opzione migliore per ottenere SE robusti. Ciò è stato fatto in alcuni lavori applicati utilizzando metodi di contrazione, ad esempio l' analisi dei dati del consorzio per l'artrite reumatoide nordamericana utilizzando un approccio di regressione logistica penalizzato (BMC Proceedings 2009). C'è anche un bel documento di Casella sul calcolo SE con modello penalizzato, regressione penalizzata, errori standard e Lassi Bayesiani (Bayesian Analysis 2010 5 (2)). Ma sono più preoccupati della penalizzazione del lazo e dell'elastico .
Ho sempre pensato alla regressione della cresta come un modo per ottenere previsioni migliori rispetto allo standard OLS, in cui il modello non è generalmente parcimoniale. Per la selezione delle variabili, i criteri lazo o elasticnet sono più appropriati, ma è quindi difficile applicare una procedura bootstrap (poiché le variabili selezionate cambieranno da un campione all'altro, e persino nel ciclo -fold interno usato per ottimizzare il / ); questo non è il caso della regressione della cresta, poiché si considerano sempre tutte le variabili.Kℓ1ℓ2
Non ho idea di pacchetti R che darebbero queste informazioni. Non sembra essere disponibile nel pacchetto glmnet (vedi l'articolo di Friedman in JSS, Percorsi di regolarizzazione per modelli lineari generalizzati tramite Discesa coordinata ). Tuttavia, anche Jelle Goeman, autore del pacchetto penalizzato , discute di questo punto. Non riesco a trovare il PDF originale sul Web, quindi cito semplicemente le sue parole:
È una domanda molto naturale chiedere errori standard dei coefficienti di regressione o altre quantità stimate. In linea di principio, tali errori standard possono essere facilmente calcolati, ad esempio utilizzando il bootstrap.
Tuttavia, questo pacchetto deliberatamente non li fornisce. La ragione di ciò è che gli errori standard non sono molto significativi per le stime fortemente distorte come quelle derivanti da metodi di stima penalizzati. La stima penalizzata è una procedura che riduce la varianza degli stimatori introducendo una distorsione sostanziale. La distorsione di ogni stimatore è quindi una componente importante del suo errore quadratico medio, mentre la sua varianza può contribuire solo in piccola parte.
Sfortunatamente, nella maggior parte delle applicazioni di regressione penalizzata è impossibile ottenere una stima sufficientemente precisa della distorsione. Eventuali calcoli basati su bootstrap possono solo fornire una valutazione della varianza delle stime. Stime attendibili della distorsione sono disponibili solo se sono disponibili stime imparziali attendibili, il che in genere non è il caso di situazioni in cui vengono utilizzate stime penalizzate.
La segnalazione di un errore standard di una stima penalizzata racconta quindi solo una parte della storia. Può dare un'impressione errata di grande precisione, ignorando completamente l'imprecisione causata dal pregiudizio. È certamente un errore fare dichiarazioni di confidenza che si basano solo su una valutazione della varianza delle stime, come fanno gli intervalli di confidenza basati su bootstrap.