Come si selezionano le variabili in un modello di regressione?


12

L'approccio tradizionale alla selezione delle variabili è quello di trovare le variabili che contribuiscono maggiormente a prevedere una nuova risposta. Di recente ho scoperto un'alternativa a questo. Nel modellare le variabili che determinano l'effetto di un trattamento - come ad esempio in una sperimentazione clinica di un farmaco - si dice che la variabile interagisca qualitativamentecon il trattamento se, lasciando altre cose fisse, un cambiamento in quella variabile può creare un cambiamento nel modo in cui il trattamento è più efficace. Queste variabili non sono sempre forti predittori dell'effetto ma possono essere importanti per un medico quando decide il trattamento per i singoli pazienti. Nella sua tesi di dottorato, Lacey Gunter ha sviluppato un metodo per selezionare queste variabili qualitativamente interagenti che potrebbero essere sfuggite agli algoritmi che basano la selezione sulla previsione. Di recente ho lavorato con lei per estendere questi metodi ad altri modelli tra cui la regressione logistica e i modelli di regressione proporzionale del rischio Cox.

Ho due domande:

  1. Cosa ne pensi del valore di questi nuovi metodi?
  2. Nel caso dei metodi tradizionali quale approccio preferisci? Criteri come AIC, BIC, Mallows Cp, test F per l'immissione o il rilascio di variabili in modo graduale, avanti e indietro ...

Il primo articolo su questo è uscito in Gunter, L., Zhu, J e Murphy, SA (2009). Selezione variabile per interazioni qualitative . Metodologia statistica doi: 10, 1016 / j.stamet.2009.05.003.

Il prossimo articolo è apparso su Gunter, L., Zhu, J. e Murphy, SA (2011). Selezione variabile di interazioni qualitative nella medicina personalizzata controllando il tasso di errore familiare . Journal of Biopharmaceutical Statistics 21, 1063-1078.

Il successivo è apparso in un numero speciale sulla selezione variabile Gunter, L., Chernick, MR e Sun, J. (2011). Un metodo semplice per la selezione variabile in regressione rispetto alla selezione del trattamento . Pakistan Journal of Statistics and Operations Research 7: 363-380.

Puoi trovare i documenti sui siti web delle riviste. Potrebbe essere necessario acquistare l'articolo. Potrei avere i file pdf per questi articoli. Lacey e io abbiamo appena completato una monografia su questo argomento che verrà pubblicata come SpringerBrief entro la fine dell'anno.


11
Forse non sto seguendo: se esiste un motivo a priori per sospettare una modifica dell'effetto, in che modo questi nuovi metodi differiscono, ad esempio, dall'inclusione dei termini di interazione nell'elenco delle variabili "candidate" per la selezione del modello?
Macro

6
(1) Una o più righe sembrano essersi perse in questa domanda. Suppongo che potrebbe continuare "per gradi, avanti e indietro, ..." (2) L'identificazione del modello e la selezione delle variabili sono state ampiamente discusse qui. Ad esempio, la ricerca su + modello + variabile + selezione presenta 145 thread a questo punto. Restringere quella ricerca probabilmente risponderà alla seconda domanda. (3) Per facilitare le risposte alla prima domanda, potresti fornire un link o riferimenti espliciti a questa ricerca?
whuber

2
Si tratta di includere una variabile che interagisce con il trattamento. Ma è un'interazione qualitativa non solo una semplice interazione. Per interagire le due linee non devono essere parallele. Per interagire qualitativamente devono attraversare l'intervallo in cui è definita la variabile. Quindi l'idea è quella di trovare una variabile che interagisca qualitativamente. Ciò è diverso dalla scelta di variabili e termini di interazione che migliorano l'adattamento o la previsione.
Michael R. Chernick,

3
Grazie per aver colto l'occasione per rispondere, Michael. Forse un punto chiave da evidenziare è che questo sito non è un sito di discussione, ma piuttosto un sito di domande e risposte. Da ciò derivano alcune modalità di comunicazione leggermente diverse. Le FAQ trattano questo in dettaglio. Occasionalmente il threading può andare un po 'perso, ma in realtà è sorprendentemente raro trovarlo, una volta che si fa un po' più di esperienza con lo schema generale delle cose. Saluti.
cardinale

6
Michael, sì, il sistema SE richiede un po 'di tempo per abituarsi e non è perfetto. Ma ha senso ed è coerente. Una cosa a cui miriamo è il miglioramento continuo : a differenza dei server di elenchi e delle bacheche, è possibile modificare domande (e risposte); questo è previsto. In definitiva, vorremmo che un thread iniziasse con una singola domanda ben dichiarata e completa che si pone da sola senza riferimento al thread dei commenti; allora dovrebbe continuare con una o più risposte canoniche ben scritte e ben attribuite. Con questo ideale in mente, i suggerimenti di @ cardinal potrebbero avere più senso per te.
whuber

Risposte:


2
  1. Vedi Gelman e Hill, Analisi dei dati usando Regressione e Modello multilivello / gerarchico pag. 69, hanno una sezione sulla selezione del modello. Sta usando un approccio basato sulle domande che va benissimo, ma nel suo documento deve giustificare il motivo per cui ha incluso ciò che ha fatto nel modello. Proprio come hai detto "Queste variabili non sono sempre forti predittori dell'effetto ma possono essere importanti per un medico quando decide il trattamento per i singoli pazienti". quindi fintanto che giustifica il motivo per cui dovrebbero essere inclusi questi predittori, allora va bene. Personalmente preferisco questi metodi. Quindi ecco la mia risposta a 2.
  2. Per gradi, avanti e indietro penso che siano scatole nere. Quando si esegue un modello attraverso tutti e tre non si arriva agli stessi predittori. Pertanto, in termini di quale utilizzare non avrei una risposta chiara. AIC o BIC vanno bene per confrontare i modelli.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.