[Una domanda simile è stata posta qui senza risposte]
Ho adattato un modello di regressione logistica con la regolarizzazione L1 (regressione logistica Lazo) e vorrei testare i coefficienti adattati per la significatività e ottenere i loro valori p. So che i test di Wald (per esempio) sono un'opzione per testare il significato dei singoli coefficienti in piena regressione senza regolarizzazione, ma con Lasso penso che sorgano ulteriori problemi che non consentono di applicare le solite formule di Wald. Ad esempio, le stime di varianza richieste per il test non seguono le espressioni usuali. La carta Lasso originale
http://statweb.stanford.edu/~tibs/lasso/lasso.pdf
suggerisce una procedura basata su bootstrap per stimare la varianza dei coefficienti, che (di nuovo, credo) potrebbe essere necessaria per i test (sezione 2.5, ultimo paragrafo di pagina 272 e inizio di 273):
Un approccio è tramite il bootstrap: o può essere risolto oppure possiamo ottimizzare su per ogni campione bootstrap. La correzione di è analoga alla selezione del sottoinsieme migliore ( di funzioni ) e quindi all'utilizzo dell'errore standard dei minimi quadrati per quel sottoinsieme
Quello che ho capito è: adattare ripetutamente una regressione Lazo all'intero set di dati fino a quando non troviamo il valore ottimale per il parametro di regolarizzazione (questo non fa parte del bootstrap), quindi utilizzare solo le funzionalità selezionate dal Lazo per adattare le regressioni OLS ai sottocampioni dei dati e applicare le solite formule per calcolare le variazioni da ciascuna di tali regressioni. (E quindi cosa dovrei fare con tutte quelle varianze di ciascun coefficiente per ottenere la stima della varianza finale di ciascun coefficiente?)
Inoltre, è corretto utilizzare i consueti test di significatività (ad esempio il test di Wald che utilizza le beta e le varianze stimate) con le stime del lazo dei coefficienti e le varianze stimate del bootstrap? Sono abbastanza sicuro che non lo sia, ma qualsiasi aiuto (usa un test diverso, usa un approccio più diretto, qualunque cosa ...) è più che benvenuto.
Secondo le risposte qui sospetto che inferenza e valori p non possano essere ottenuti. Nel mio caso, i valori di p sono un requisito esterno (anche se l'uso della regolarizzazione L1 è stata la mia scelta).
molte grazie
EDIT Cosa succede se inserisco una regressione logistica OLS utilizzando solo le variabili selezionate da una precedente esecuzione della regressione logistica Lasso? Apparentemente (vedi qui ),
Non è necessario eseguire nuovamente il modello dopo aver eseguito la convalida incrociata (si ottengono solo i coefficienti dall'output di cv.glmnet), e infatti se si adatta il nuovo modello di regressione logistica senza penalità, si sta vanificando lo scopo dell'utilizzo laccio
Ma cosa succede se lo faccio con il solo scopo di poter calcolare i valori p mantenendo basso il numero di variabili? È un approccio molto sporco? :-)