Cosa significano i residui di una regressione logistica significa?


62

Nel rispondere a questa domanda John Christie ha suggerito che l'adattamento di modelli di regressione logistica dovrebbe essere valutata attraverso la valutazione dei residui. Conosco bene come interpretare i residui in OLS, sono nella stessa scala del DV e molto chiaramente la differenza tra ye y prevista dal modello. Tuttavia, per la regressione logistica, in passato in genere ho appena esaminato le stime di adattamento del modello, ad esempio AIC, perché non ero sicuro di cosa significhi un residuo per una regressione logistica. Dopo aver guardato in aiuto di R file un po 'vedo che in R ci sono cinque tipi di residui GLM disponibili, c("deviance", "pearson", "working","response", "partial"). Il file della guida si riferisce a:

Non ne ho una copia. C'è un modo breve per descrivere come interpretare ciascuno di questi tipi? In un contesto logistico, la somma dei residui quadrati fornirà una misura significativa dell'adattamento del modello o si sta meglio con un criterio informativo?


2
Ci sono elementi a questa domanda che rimangono senza risposta, ad esempio la natura dei residui "perlati", "funzionanti", "di risposta" e "parziali", ma per ora accetterò la risposta di Thylacoleo.
russellpierce

Trovo che la binnedplotfunzione nel braccio del pacchetto R fornisca una trama molto utile di residui. È ben descritto a pag.97-101 di Gelman e Hill 2007 .
conjugateprior

1
Un modo davvero semplice per verificare l'adattamento del modello è un grafico delle proporzioni osservate rispetto a quelle previste. Ma questo non funzionerà se si dispone di regressione Bernoulli (vale a dire tutti i tuoi osservazioni hanno combinazioni uniche di variabili indipendenti, in modo che ), perché sarà solo vedere una linea di zero e uno. ni=1
probabilityislogic

Sì, purtroppo di solito sto usando un DV Bernoulli.
Russellpierce,

Risposte:


32

I residui più facili da comprendere sono i residui di devianza come quando questi quadrati si sommano a -2 volte la probabilità di log. Nei suoi termini più semplici la regressione logistica può essere compresa in termini di adattamento della funzione per noto in modo da ridurre al minimo la deviazione totale, che è la somma dei residui di deviazione al quadrato di tutti i punti dati.p=logit1(Xβ)X

La deviazione (al quadrato) di ciascun punto dati è uguale a (-2 volte) il logaritmo della differenza tra la sua probabilità prevista e il complemento del suo valore reale (1 per un controllo; uno 0 per un caso) in termini assoluti. Un adattamento perfetto di un punto (che non si verifica mai) dà una deviazione di zero poiché log (1) è zero. Un punto scarsamente adatto presenta una grande deviazione residua poiché -2 volte il registro di un valore molto piccolo è un numero elevato.logit1(Xβ)

Fare una regressione logistica è simile a trovare un valore beta tale da ridurre al minimo la somma dei residui di devianza al quadrato.

Questo può essere illustrato con una trama, ma non so come caricarne uno.


1
Reg images: usa uno dei siti di hosting di immagini gratuiti (cerca su Google), carica la trama su quel sito e collegala qui.

Ho corretto un errore nella mia risposta originale. Ho scritto per la prima volta p = logit (X beta). In effetti la probabilità prevista è il logit inverso della combinazione lineare, p = inv-logit (X beta). In R questo è calcolato come p <-plogit (X beta), che è p = exp (X beta) / (1 + exp (X * beta)).
Thylacoleo,

1
Da quale pacchetto R plogitproviene? Non era chiaro se lo stavi definendo qui o lo avessi ottenuto da qualche altra parte.
Amyunimus

1
@Amyunimus plogitè in R (stats), nessun pacchetto richiesto (almeno non più)
russellpierce

7

Sui residui di Pearsons,

Il residuo di Pearson è la differenza tra le probabilità osservata e stimata divisa per la deviazione standard binomiale della probabilità stimata. Pertanto standardizzare i residui. Per campioni di grandi dimensioni i residui standardizzati dovrebbero avere una distribuzione normale.

Da Menard, Scott (2002). Analisi di regressione logistica applicata, 2a edizione. Thousand Oaks, CA: Sage Publications. Serie: Applicazioni quantitative nelle scienze sociali, n. 106. Prima edizione, 1995. Vedi capitolo 4.4


8
questo non è del tutto corretto su campioni di grandi dimensioni. È piuttosto che sono necessari grandi conteggi di cellule binomiali , o qual è la stessa cosa, una grande quantità di replicazione delle covariate. I residui di Pearson sono lungi dall'essere normalmente distribuiti per qualsiasi osservazione in cui . nini<5
Probislogic

5

I residui di lavoro sono i residui dell'iterazione finale di qualsiasi metodo dei minimi quadrati ponderati iterativamente . Credo che ciò significhi i residui quando pensiamo che sia l'ultima iterazione della nostra corsa del modello. Ciò può dar luogo alla discussione sul fatto che la corsa dei modelli sia un esercizio iterativo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.