Vorrei porre questa domanda in due parti. Entrambi trattano un modello lineare generalizzato, ma il primo riguarda la selezione del modello e l'altro riguarda la regolarizzazione.
Contesto: utilizzo modelli GLM (lineari, logistici, regressione gamma) sia per la previsione che per la descrizione. Quando mi riferisco alle " cose normali che si fanno con una regressione " intendo in gran parte la descrizione con (i) intervalli di confidenza attorno ai coefficienti, (ii) intervalli di confidenza attorno alle previsioni e (iii) test di ipotesi riguardanti combinazioni lineari dei coefficienti come "è c'è una differenza tra il trattamento A e il trattamento B? ".
Perdi legittimamente la possibilità di fare queste cose usando la teoria normale sotto ciascuna delle seguenti? E se è così, queste cose sono davvero buone solo per i modelli usati per la pura previsione?
I. Quando un GLM è stato adattato tramite un processo di selezione del modello (per concretezza, dire che è una procedura graduale basata su AIC).
II. Quando un GLM è stato adattato tramite un metodo di regolarizzazione (diciamo usando glmnet in R).
Il mio senso è che per I. la risposta è tecnicamente che dovresti usare un bootstrap per le " cose normali che si fanno con una regressione ", ma nessuno lo rispetta davvero.
Aggiungi:
Dopo aver ricevuto alcune risposte e letto altrove, ecco la mia opinione su questo (per chiunque ne tragga beneficio oltre a ricevere la correzione).
I.
A) RE: errore generalizzare. Al fine di generalizzare i tassi di errore sui nuovi dati, quando non è presente alcun set di controllo, la convalida incrociata può funzionare ma è necessario ripetere completamente il processo per ogni piega, utilizzando i cicli nidificati, pertanto è necessario selezionare qualsiasi funzione, regolazione dei parametri, ecc. fatto in modo indipendente ogni volta. Questa idea dovrebbe valere per qualsiasi sforzo di modellizzazione (compresi i metodi penalizzati).
B) RE: test di ipotesi e intervalli di confidenza di GLM.Quando si utilizza la selezione del modello (selezione delle funzioni, regolazione dei parametri, selezione delle variabili) per un modello lineare generalizzato ed esiste un set di controllo, è consentito addestrare il modello su una partizione e quindi adattare il modello ai dati rimanenti o al set di dati completo e utilizzare quel modello / dati per eseguire test di ipotesi ecc. Se non esiste un set di controllo, è possibile utilizzare un bootstrap, purché il processo completo venga ripetuto per ciascun campione bootstrap. Ciò limita i test di ipotesi che possono essere eseguiti anche se, dal momento che forse una variabile non sarà sempre selezionata per esempio.
C) RE: Non portare avanti la previsione su insiemi di dati futuri, quindi adattarsi a un modello intenzionale guidato dalla teoria e da alcuni test di ipotesi e anche considerare di lasciare tutte le variabili nel modello (significative o meno) (lungo le linee di Hosmer e Lemeshow). Questo è un tipo classico di modellazione della regressione a piccole variabili e quindi consente l'uso di CI e test di ipotesi.
D) RE: regressione penalizzata. Nessun consiglio, forse consideralo adatto solo per la previsione (o come un tipo di selezione di funzionalità da applicare a un altro set di dati come in B sopra) poiché il bias introdotto rende saggi i test di CI e di ipotesi, anche con il bootstrap.