Diagnostica per la regressione logistica?


74

Per la regressione lineare, possiamo verificare i grafici diagnostici (grafici dei residui, grafici QQ normali, ecc.) Per verificare se le ipotesi di regressione lineare sono violate.

Per la regressione logistica, ho difficoltà a trovare risorse che spiegano come diagnosticare il modello di regressione logistica adatto. Scavando alcune note del corso per GLM, afferma semplicemente che il controllo dei residui non è utile per eseguire la diagnosi per un adattamento della regressione logistica.

Guardando in giro per Internet, sembrano esserci anche varie procedure di "diagnosi", come il controllo della devianza del modello e l'esecuzione di test chi-quadrati, ma altre fonti affermano che ciò è inappropriato e che si dovrebbe eseguire una bontà di adattamento di Hosmer-Lemeshow test. Quindi trovo altre fonti che affermano che questo test potrebbe dipendere fortemente dai raggruppamenti e dai valori di cut-off effettivi (potrebbe non essere affidabile).

Quindi, come si dovrebbe diagnosticare la regressione logistica adatta?


1
Possibile duplicato (o caso speciale) di stats.stackexchange.com/questions/29271/… o stats.stackexchange.com/questions/44643/… , sebbene nessuno dei due abbia risposte che lo risolveranno davvero per te.
Peter Ellis,

1
Ti consiglio di leggere la monografia di Scott Menard, che non molto tempo fa era disponibile nella sua interezza gratuitamente sul web.
rolando2,

2
Questa domanda sulle misure di bontà di adattamento per la regressione logistica può essere utile (sebbene la bontà di adattamento sia ovviamente solo una piccola parte della diagnostica del modello): stats.stackexchange.com/questions/3559/logistic-regression-which-pseudo-r- squared-measure-is-the-to-report-cox / 3570
S. Kolassa - Ripristina Monica

Risposte:


39

Alcune nuove tecniche che ho riscontrato per valutare l'adattamento dei modelli di regressione logistica provengono da riviste di scienze politiche:

  • Greenhill, Brian, Michael D. Ward e Audrey Sacks. 2011. Il diagramma di separazione: un nuovo metodo visivo per valutare l'adattamento dei modelli binari. American Journal of Political Science 55 (4): 991-1002 .
  • Esarey, Justin e Andrew Pierce. 2012. Valutazione della qualità di adattamento e test per errori di specificazione in modelli variabili binari-dipendenti. Analisi politica 20 (4): 480-500 . PDF prestampa qui

Entrambe queste tecniche pretendono di sostituire i test di bontà di adattamento (come Hosmer e Lemeshow) e identificare potenziali specifiche errate (in particolare la non linearità nelle variabili incluse nell'equazione). Questi sono particolarmente utili in quanto le tipiche misure di adattamento del quadrato R sono frequentemente criticate .

Entrambi i documenti sopra citati utilizzano probabilità previste rispetto ai risultati osservati nei grafici, evitando in qualche modo il problema poco chiaro di ciò che è residuo in tali modelli. Esempi di residui potrebbero essere il contributo alla verosimiglianza o i residui di Pearson (credo che ce ne siano molti altri però). Un'altra misura che è spesso di interesse (anche se non un residuo) è quella di DFBeta (l'importo che una stima del coefficiente cambia quando un'osservazione è esclusa dal modello). Vedi esempi in Stata per questa pagina dell'UCLA sulla diagnostica della regressione logistica insieme ad altre potenziali procedure diagnostiche.

Non ce l'ho a portata di mano, ma credo che i modelli di regressione di J. Scott Long per le variabili categoriali e dipendenti limitate siano sufficientemente dettagliati su tutte queste diverse misure diagnostiche in modo semplice.


2
Ci sono un sacco di altri libri su (almeno in parte se non nel loro insieme) per la regressione logistica. I vari libri di testo categorici di analisi dei dati di Agresti, Scott Menard, Hosmer e Lemeshow e il libro RMS di Frank Harrell sono tutti quelli che ho visto raccomandati su questo forum da vari collaboratori.
Andy W,

La ringrazio per la risposta. Immagino non ci sia una risposta semplice alla mia domanda. Daremo un'occhiata ai tuoi consigli. Saluti.
ialm,

23

La domanda non era sufficientemente motivata. Ci deve essere un motivo per eseguire la diagnostica del modello, ad esempio

  • Potenziale cambiare il modello per renderlo migliore
  • Non sapere quali test diretti utilizzare (ovvero test di non linearità o interazione)
  • Non riuscire a capire che cambiare il modello può facilmente distorcere l'inferenza statistica (errori standard, intervalli di confidenza, valori )P

Fatta eccezione per il controllo di cose ortogonali alla specifica di regressione algebrica (ad esempio, l'esame della distribuzione dei residui nei normali modelli lineari), la diagnostica del modello può creare quanti problemi risolvono secondo me. Ciò è particolarmente vero per il modello logistico binario poiché non ha ipotesi distributive.

Quindi di solito è meglio dedicare tempo a specificare il modello, soprattutto per non assumere la linearità per le variabili ritenute forti per le quali nessuna prova preliminare suggerisce linearità. In alcune occasioni è possibile pre-specificare un modello che deve adattarsi, ad esempio, se il numero di predittori è piccolo o si consente a tutti i predittori di essere non lineari e (correttamente) non assumere interazioni.

Chiunque ritenga che la diagnostica del modello possa essere utilizzata per modificare il modello dovrebbe eseguire quel processo all'interno di un ciclo di bootstrap per stimare correttamente le incertezze del modello indotto.


4
Concordo sul fatto che la diagnostica dei modelli dovrebbe derivare dallo scopo della modellazione. Tuttavia, ho avuto l'impressione dal tuo paragrafo iniziale che pensi che non dovremmo controllare i modelli che adattiamo ai dati. Sono abbastanza sicuro che questo non è ciò che avevi in ​​mente. Inoltre, il modello logistico binario certamente non ha ipotesi distributive! (essere più evidente che esistono solo due valori per la risposta)
probabilityislogic

3
A parte supporre che ci siano solo 2 valori specifici possibili per Y, il modello logistico binario non ha dist. ipotesi. Personalmente non utilizzo molto spesso grafici diagnostici con regressione logistica, optando invece per specificare modelli sufficientemente flessibili da adattarsi ai dati in qualsiasi modo le dimensioni del campione ci diano il lusso di esaminare. In OLS il grafico diagnostico principale che utilizzo è il diagramma qq per la normalità dei residui.
Frank Harrell,

Dal punto di vista del modello lineare generalizzato, il modello logistico deriva dalla distribuzione binomiale (distribuzione di Bernoulli). Ma anche allora, è difficile interpretare i residui.
New_to_this

Parlare di distribuzioni quando la variabile casuale può assumere solo due valori (ovvero la distribuzione di Bernoulli) non è utile perché non è possibile che l'assunto distributivo possa andare storto a meno che le osservazioni non siano indipendenti.
Frank Harrell,

1
@FrankHarrell Mi rendo conto che sai di cosa stai parlando qui, ma non penso che sarà chiaro a tutta la comunità dai tuoi post / commenti che le specifiche errate del predittore lineare (o anche del predittore additivo in un GAM framework) può causare problemi di regressione logistica. Molti potrebbero non apprezzare il fatto che ciò crei non indipendenza nei dati, come dici tu. Quando gli studenti incontrano per la prima volta una regressione lineare, imparano a ispezionare i residui senza distinguere tra errata specificazione del predittore lineare e errata specificazione della distribuzione dell'errore.
Jacob Socolar,

5

Questo thread è piuttosto vecchio, ma ho pensato che sarebbe utile aggiungere che, da poco, è possibile utilizzare il pacchetto DHARMa R per trasformare i residui di qualsiasi GL (M) M in uno spazio standardizzato. Una volta fatto ciò, è possibile valutare / testare visivamente problemi residui come deviazioni dalla distribuzione, dipendenza residua da un predittore, eteroschedasticità o autocorrelazione in modo normale. Vedi la vignetta del pacchetto per esempi elaborati, anche altre domande sul CV qui e qui .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.