Valutazione dei modelli di regressione logistica


13

Questa domanda nasce dalla mia attuale confusione su come decidere se un modello logistico è abbastanza buono. Ho modelli che usano lo stato delle coppie progetto individuale due anni dopo che si sono formati come una variabile dipendente. Il risultato ha esito positivo (1) o meno (0). Ho variabili indipendenti misurate al momento della formazione delle coppie. Il mio obiettivo è verificare se una variabile, che ho ipotizzato, influenzerebbe il successo delle coppie ha un effetto su quel successo, controllando altre potenziali influenze. Nei modelli, la variabile di interesse è significativa.

I modelli sono stati stimati utilizzando la glm()funzione in R. Per valutare la qualità dei modelli, ho fatto alcune cose: glm()ti dà il residual deviance, il AICe il BICdi default. Inoltre, ho calcolato il tasso di errore del modello e tracciato i residui binnati.

  • Il modello completo ha una devianza residua minore, AIC e BIC rispetto agli altri modelli che ho stimato (e che sono nidificati nel modello completo), il che mi porta a pensare che questo modello sia "migliore" degli altri.
  • Il tasso di errore del modello è piuttosto basso, IMHO (come in Gelman e Hill, 2007, pp.99 ):
    error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)circa il 20%.

Fin qui tutto bene. Ma quando tracciamo il residuo in scatola (sempre seguendo i consigli di Gelman e Hill), gran parte dei contenitori cadono al di fuori dell'IC del 95%: Trama Residui in scatola

Quella trama mi porta a pensare che ci sia qualcosa di completamente sbagliato nel modello. Questo dovrebbe portarmi a buttare via la modella? Devo riconoscere che il modello è imperfetto, ma tenerlo e interpretare l'effetto della variabile di interesse? Ho giocato con l'esclusione delle variabili a loro volta, e anche con alcune trasformazioni, senza davvero migliorare la trama dei residui.

Modificare:

  • Al momento, il modello ha una dozzina di predittori e 5 effetti di interazione.
  • Le coppie sono "relativamente" indipendenti l'una dall'altra, nel senso che si formano tutte in un breve periodo di tempo (ma non in senso stretto, tutte contemporaneamente) e ci sono molti progetti (13k) e molti individui (19k ), quindi una buona parte dei progetti è raggiunta da un solo individuo (ci sono circa 20000 coppie).

2
Y

1
Sulla base di ciò che dici, la dimensione del campione non sembra essere un problema, perché ho circa 20000 mila paia (di cui circa il 20% ha successo).
Antoine Vernet,

Risposte:


11

L'accuratezza della classificazione (tasso di errore) è una regola di punteggio impropria (ottimizzata da un modello fasullo), arbitraria, discontinua e facile da manipolare. Non è necessario in questo contesto.

Non hai dichiarato quanti predittori c'erano. Invece di valutare l'adattamento del modello, sarei tentato di adattarlo al modello. Un approccio di compromesso è quello di supporre che le interazioni non siano importanti e di consentire ai predittori continui di essere non lineari usando le spline di regressione. Traccia le relazioni stimate. Il rmspacchetto in R rende tutto ciò relativamente semplice. Vedi http://biostat.mc.vanderbilt.edu/rms per maggiori informazioni.

Potresti elaborare "coppie" e se le tue osservazioni sono indipendenti.


Se ho capito bene, il tuo consiglio è quello di concentrarsi sulla trama dei residui e ottenere questo direttamente prima di fare qualsiasi altra cosa, eventualmente usando spline di regressione, ho ragione? Ho modificato la domanda per indicare quanti predittori ci sono e che le coppie sono "relativamente" indipendenti.
Antoine Vernet,

Ciao @Frank. Perché dici che l'accuratezza della classificazione è un cattivo metodo? Questo perché, in questo caso, viene valutato sugli stessi dati da cui deriva il modello?
Peter Flom - Ripristina Monica

2
No, il mio commento non è stato quello di concentrarmi sulle trame residue, ma piuttosto di far sì che il modello si adattasse "in avanti". Peter la proporzione classificata "correttamente" presenta molteplici problemi, tra cui il fatto che è lo stimatore con la più bassa precisione delle prestazioni predittive, è arbitrario e porterà alla selezione del modello sbagliato. Ho un esempio in cui l'aggiunta di un predittore molto forte (sulla base del rapporto di verosimiglianzaχ2 o c-index (area ROC) fa diminuire in modo significativo la proporzione classificata correttamente .
Frank Harrell,

2
No, intendo consentire ai predittori continui di operare in modo non lineare sulla scala delle probabilità del log, espandendoli in più termini usando spline cubiche ristrette (spline naturali). Quindi tracciare le trasformazioni stimate per conoscere gli effetti parziali di ciascun predittore.
Frank Harrell,

1
Grazie per l'input, è stato davvero utile. Andando più in profondità con i dati, mi sono reso conto di avere problemi di collinearità (anche se non avevo alte correlazioni a coppie).
Antoine Vernet,

4

La situazione sembra un po 'strana, ma penso che la tua trama possa fornire un indizio. Sembra che ci possa essere una relazione curvilinea. È consentito utilizzare termini polinomiali e altre trasformazioni di variabili predittive (ad es.X2) nella regressione logistica, proprio come nella regressione OLS. Potrebbe valere la pena provare.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.