GLM dopo la selezione o la regolarizzazione del modello


12

Vorrei porre questa domanda in due parti. Entrambi trattano un modello lineare generalizzato, ma il primo riguarda la selezione del modello e l'altro riguarda la regolarizzazione.

Contesto: utilizzo modelli GLM (lineari, logistici, regressione gamma) sia per la previsione che per la descrizione. Quando mi riferisco alle " cose normali che si fanno con una regressione " intendo in gran parte la descrizione con (i) intervalli di confidenza attorno ai coefficienti, (ii) intervalli di confidenza attorno alle previsioni e (iii) test di ipotesi riguardanti combinazioni lineari dei coefficienti come "è c'è una differenza tra il trattamento A e il trattamento B? ".

Perdi legittimamente la possibilità di fare queste cose usando la teoria normale sotto ciascuna delle seguenti? E se è così, queste cose sono davvero buone solo per i modelli usati per la pura previsione?

I. Quando un GLM è stato adattato tramite un processo di selezione del modello (per concretezza, dire che è una procedura graduale basata su AIC).

II. Quando un GLM è stato adattato tramite un metodo di regolarizzazione (diciamo usando glmnet in R).

Il mio senso è che per I. la risposta è tecnicamente che dovresti usare un bootstrap per le " cose normali che si fanno con una regressione ", ma nessuno lo rispetta davvero.

Aggiungi:
Dopo aver ricevuto alcune risposte e letto altrove, ecco la mia opinione su questo (per chiunque ne tragga beneficio oltre a ricevere la correzione).

I.
A) RE: errore generalizzare. Al fine di generalizzare i tassi di errore sui nuovi dati, quando non è presente alcun set di controllo, la convalida incrociata può funzionare ma è necessario ripetere completamente il processo per ogni piega, utilizzando i cicli nidificati, pertanto è necessario selezionare qualsiasi funzione, regolazione dei parametri, ecc. fatto in modo indipendente ogni volta. Questa idea dovrebbe valere per qualsiasi sforzo di modellizzazione (compresi i metodi penalizzati).

B) RE: test di ipotesi e intervalli di confidenza di GLM.Quando si utilizza la selezione del modello (selezione delle funzioni, regolazione dei parametri, selezione delle variabili) per un modello lineare generalizzato ed esiste un set di controllo, è consentito addestrare il modello su una partizione e quindi adattare il modello ai dati rimanenti o al set di dati completo e utilizzare quel modello / dati per eseguire test di ipotesi ecc. Se non esiste un set di controllo, è possibile utilizzare un bootstrap, purché il processo completo venga ripetuto per ciascun campione bootstrap. Ciò limita i test di ipotesi che possono essere eseguiti anche se, dal momento che forse una variabile non sarà sempre selezionata per esempio.

C) RE: Non portare avanti la previsione su insiemi di dati futuri, quindi adattarsi a un modello intenzionale guidato dalla teoria e da alcuni test di ipotesi e anche considerare di lasciare tutte le variabili nel modello (significative o meno) (lungo le linee di Hosmer e Lemeshow). Questo è un tipo classico di modellazione della regressione a piccole variabili e quindi consente l'uso di CI e test di ipotesi.

D) RE: regressione penalizzata. Nessun consiglio, forse consideralo adatto solo per la previsione (o come un tipo di selezione di funzionalità da applicare a un altro set di dati come in B sopra) poiché il bias introdotto rende saggi i test di CI e di ipotesi, anche con il bootstrap.


1
Le persone a volte lo fanno - inconsapevolmente (cioè usano impropriamente le statistiche, perché ottengono il risultato desiderato) e consapevolmente (hanno fatto il bootstrap e non hanno influenzato sostanzialmente il risultato). Il tuo punto è valido e il professor Harrell lo sottolinea nella prefazione del suo libro che il bootstrap è vantaggioso.
suncoolsu,

1
Ecco qualcosa come "sì" per il tuo punto (II): arxiv.org/abs/1001.0188
Alex

Risposte:


5

Potresti dare un'occhiata al documento di David Freedman, " Una nota sulle equazioni di regressione di screening. " (Non recintato)

Usando dati completamente non correlati in una simulazione, mostra che, se ci sono molti predittori relativi al numero di osservazioni, una procedura di screening standard produrrà una regressione finale che contiene molti predittori significativi (più che per caso) significativi e una F altamente significativa statistica. Il modello finale suggerisce che è efficace nel predire il risultato, ma questo successo è falso. Illustra anche questi risultati usando calcoli asintotici. Le soluzioni suggerite includono lo screening su un campione e la valutazione del modello sull'insieme completo di dati e l'utilizzo di almeno un ordine di grandezza in più osservazioni rispetto ai predittori.


Nota: affinché il bootstrap sia una soluzione efficace, è necessario avviare il bootstrap dell'intera procedura, iniziando prima che si verifichi qualsiasi screening, schermare il campione bloccato, quindi calcolare i coefficienti. Ma ora hai diversi set di predittori in ogni regressione e non è più chiaro come calcolare la distribuzione per nessuno di essi. Tuttavia, gli intervalli di confidenza del bootstrap per i valori previsti del risultato possono essere efficaci.
Charlie,

@charlie: [Ti leggo correttamente che stai solo parlando con I. (selezione del modello) non II. (penalizzato)] Stai dicendo che per gli intervalli di previsione, è valido utilizzare la selezione del modello e quindi eseguire il bootstrap delle previsioni da quel modello, ma per qualsiasi altra cosa è necessario avviare il bootstrap dell'intero processo?
B_Miner

@charlie Per quanto riguarda la soluzione suggerita di screening su un campione. Sarebbe sulla falsariga del partizionamento dei dati, (ab) usando un set (selezione del modello ecc.) E poi applicando quel modello ai dati rimanenti - e su quei dati con il modello che era adatto usando la teoria tradizionale per i test di ipotesi, IC eccetera?
B_Miner,

Stavo pensando solo alla selezione del modello, ma in gran parte perché non so molto della regressione penalizzata. Direi che è necessario avviare l'intero processo per ottenere deduzioni sulle previsioni dal modello. L'intero problema è che, in ogni campione, è probabile che si trovino correlazioni spurie che vengono ingrandite quando si includono alcune variabili e ne si lasciano fuori altre. L'unico modo per aggirare questo è guardare più campioni --- cioè bootstrap. Certo, nessuno lo fa davvero.
Charlie,

Bene, usi una partizione del tuo campione per elaborare il tuo modello usando le procedure di selezione del modello, quindi fai la tua deduzione sull'altra partizione o sul campione completo.
Charlie,

2

Riguardo a 1) Sì, lo perdi. Vedi ad esempio Harrell Regression Modeling Strategies, un libro pubblicato da Wiley o un articolo che ho presentato con David Cassell intitolato "Stopping Stepwise" disponibile ad esempio www.nesug.org/proceedings/nesug07/sa/sa07.pdf


Ho visto questo documento - molto interessante. Due domande. 1) Consente la regressione logistica. Sembra che l'unico modo per condurre test di CI o di ipotesi sia costruire un modello nello stile di hosmer e lemeshow (escludendo qualsiasi set di dati con grande p)? Quindi ti resta "usare" il modello solo per le stime puntuali? 2) Il tuo documento discute il lazo tra le altre alternative. Sei dell'idea che ciò consenta il successivo test di ipotesi o sia "semplicemente" dato come una migliore opzione di selezione del modello?
B_Miner,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.