Selezione del modello: regressione logistica


13

Supponiamo di avere covariate x 1 , ... , x n e una variabile di risultato binaria y . Alcune di queste covariate sono categoriche con più livelli. Altri sono continui. Come sceglieresti il ​​modello "migliore"? In altre parole, come scegli quali covariate includere nel modello?nx1,,xny

Modelleresti con ciascuna covariata individualmente usando una semplice regressione logistica e sceglieresti quelle con un'associazione significativa?y


1
Oltre alla mia risposta di seguito (o altre, se emergono), di seguito sono riportate alcune buone discussioni sulla selezione del modello (anche se non focalizzata sulla regressione logistica di per sé) stats.stackexchange.com/questions/18214/…
gung -

2
Citerò @jthetzel da un recente commento su questo sito: "Una buona domanda, ma una che la maggior parte qui ha studiato in corsi universitari lunghi un semestre, e alcuni hanno trascorso carriere a studiare". È un po 'come sedersi con una persona e dire: "Puoi insegnarmi Swahili questo pomeriggio?" Non che Gung non dia buoni punti nella sua risposta. È solo un vasto territorio.
rolando2,

2
Questo è anche un thread che, sebbene per una domanda molto specifica, contiene alcuni consigli da me in generale: stats.stackexchange.com/questions/17068/… Ti darò anche i miei pensieri di seguito.
Fomite,

Va bene, quindi penso che userò solo AIC come criterio. Il modello completo ha l'AIC più basso. Anche gli AIC sono piuttosto diversi l'uno dall'altro.
Thomas,

Risposte:


10

Questa probabilmente non è una buona cosa da fare. Osservare prima tutte le singole covariate, quindi costruire un modello con quelli significativi è logicamente equivalente a una procedura di ricerca automatica. Sebbene questo approccio sia intuitivo, le inferenze fatte da questa procedura non sono valide (ad esempio, i valori p reali sono diversi da quelli riportati dal software). Il problema è amplificato tanto più grande è la dimensione dell'insieme iniziale di covariate. Se lo fai comunque (e, sfortunatamente, molte persone lo fanno), non puoi prendere sul serio il modello risultante. Invece, è necessario eseguire uno studio completamente nuovo, raccogliendo un campione indipendente e adattando il modello precedente, per testarlo. Tuttavia, ciò richiede molte risorse e, inoltre, poiché il processo è imperfetto e il modello precedente è probabilmente scadente,sprecare molte risorse.

Un modo migliore è valutare modelli di sostanziale interesse per te. Quindi utilizzare un criterio informativo che penalizzi la flessibilità del modello (come l'AIC) per giudicare tra tali modelli. Per la regressione logistica, l'AIC è:

AIC=2×ln(likelihood)+2k

dove k è il numero di covariate incluse in quel modello. Volete il modello con il valore più piccolo per l'AIC, a parità di condizioni. Tuttavia, non è sempre così semplice; diffidare quando diversi modelli hanno valori simili per l'AIC, anche se uno potrebbe essere il più basso.

Includo qui la formula completa per l'AIC, perché software diverso genera informazioni diverse. Potrebbe essere necessario calcolarlo solo dalla probabilità, oppure potresti ottenere l'AIC finale o qualsiasi altra via di mezzo.


6
Mi piace l'AIC ma attenzione che il calcolo dell'AIC su più di 2 modelli predefiniti provoca un problema di molteplicità.
Frank Harrell,

1
@FrankHarrell bel suggerimento!
gung - Ripristina Monica

9

Esistono molti modi per scegliere quali variabili vanno in un modello di regressione, alcune decenti, altre cattive e altre terribili. Si può semplicemente sfogliare le pubblicazioni di Sander Groenlandia, molte delle quali riguardano la selezione variabile.

In generale, tuttavia, ho alcune "regole" comuni:

  • Gli algoritmi automatizzati, come quelli forniti nei pacchetti software, sono probabilmente una cattiva idea.
  • L'uso di tecniche diagnostiche modello, come suggerisce gung, è un buon mezzo per valutare le scelte di selezione delle variabili
  • Dovresti anche utilizzare una combinazione di competenza in materia, ricercatori di letteratura, grafici aciclici diretti, ecc. Per informare le tue scelte di selezione delle variabili.

3
In parole povere, in particolare i punti 1 e 3. Le tecniche diagnostiche del modello possono comportare un errore nel preservare l'errore di tipo I.
Frank Harrell

3
Ben messo @Epigrad. Vorrei aggiungere un punto però. Gli algoritmi automatizzati diventano molto interessanti quando il tuo problema diventa grande. In alcuni casi possono essere l'unico modo possibile per selezionare i modelli. Le persone stanno ora analizzando enormi set di dati con migliaia di potenziali variabili e milioni di osservazioni. In che modo l'esperienza del soggetto nell'intuizione a 1000 dimensioni? E quello che troverai è che anche se lo fai manualmente (cioè con un analista), probabilmente finiranno per creare alcune scorciatoie per la scelta delle variabili. La parte difficile è davvero codificare queste scelte.
Probislogic,

1
@probabilityislogic Sono d'accordo con quello. Onestamente, penso che le tecniche tradizionali siano scarsamente adatte a set di dati molto grandi, ma la tendenza a ricorrere a tecniche più suscettibili mi allarma. Se un algoritmo automatizzato può distorcere un set di dati con 10 variabili, non c'è motivo per cui non possa differenziare uno con 10.000. L'attuale enfasi sull'acquisizione di big data sulla sua analisi in alcune parti mi rende un po 'nervoso.
Fomite,

2
@probabilityislogic In una svolta profondamente ironica, ora mi trovo a lavorare con un set di dati con oltre 10s di migliaia di potenziali variabili>. <
Fomite

2

Come sceglieresti il ​​modello "migliore"?

Non ci sono abbastanza informazioni fornite per rispondere a questa domanda; se si desidera ottenere in effetti causali su y sarà necessario implementare regressioni che riflettere ciò che è noto circa la confusione. Se si desidera fare una previsione, AIC sarebbe un approccio ragionevole.

Questi approcci non sono gli stessi; il contesto determinerà quale dei (molti) modi di scegliere le variabili sarà più / meno appropriato.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.