Interpretazione della devianza residua e nulla in GLM R


47

Come interpretare la deviazione nulla e residua in GLM in R? Diciamo che AIC più piccolo è meglio. C'è qualche interpretazione simile e rapida anche per le deviazioni?

Deviazione nulla: 1146,1 su 1077 gradi di libertà Devianza residua: 4589,4 su 1099 gradi di libertà AIC: 11089

Risposte:


74

Lascia LL = loglikelihood

Ecco un breve riepilogo di ciò che vedi dall'output del riepilogo (glm.fit),

Deviazione nulla = 2 (LL (modello saturo) - LL (modello null)) su df = df_Sat - df_Null

Devianza residua = 2 (LL (modello saturo) - LL (modello proposto)) df = df_Sat - df_Proposed

Il modello saturo è un modello che presuppone che ogni punto dati abbia i propri parametri (il che significa che hai n parametri da stimare).

Il Modello null assume l'esatto "opposto", in quanto assume un parametro per tutti i punti dati, il che significa che si stima solo 1 parametro.

Il Modello proposto presuppone che tu possa spiegare i tuoi punti dati con parametri p + un termine di intercettazione, quindi hai p + 1 parametri.

Se Null Deviance è davvero piccolo, significa che il modello Null spiega abbastanza bene i dati. Allo stesso modo con la tua devianza residua .

Cosa significa veramente piccolo? Se il tuo modello è "buono", la tua Devianza è circa Chi ^ 2 con (df_sat - df_model) gradi di libertà.

Se vuoi confrontare il tuo modello Null con il tuo modello Proposto, allora puoi guardare

(Deviazione nulla - Devianza residua) circa Chi ^ 2 con df Proposto - df Null = (n- (p + 1)) - (n-1) = p

I risultati che hai dato direttamente da R? Sembrano un po 'strani, perché generalmente dovresti vedere che i gradi di libertà riportati sul Null sono sempre più alti dei gradi di libertà riportati sul Residuo. Questo perché di nuovo, Null Deviance df = Saturated df - Null df = n-1 Residual Deviance df = Saturated df - Proposto df = n- (p + 1)


Sì, è un utile commento @TeresaStat, grazie. Quanto è robusto questo? Le definizioni cambiano se stai parlando di un modello multinomiale anziché di un GLM?
Hack-R

@Teresa: Sì, questi risultati provengono da R. Perché dovrebbe succedere? Qualche problema con il modello qui?
Anjali,

@ Hack-R: scusate la risposta tardiva, sono nuovo su Stackexchange. Per i modelli multinomiali non si utilizza la funzione glm in R e l'output è diverso. Dovrai guardare un modello di probabilità proporzionale o una regressione ordinale, la funzione mlogit. Vale la pena fare un po 'di lettura su glms multinomiali, hanno ipotesi leggermente diverse. Se riesco ad accedervi durante l'intervallo, lo aggiornerò con alcune ulteriori informazioni.
TeresaStat,

@Anjali, non sono del tutto sicuro del motivo per cui otterresti risultati del genere in R. È difficile sapere senza vedere i tuoi dati / risultati. In generale, non vedo perché i gradi residui di libertà sarebbero superiori al null df. Quanti parametri stavi stimando?
TeresaStat,

1
@ user4050 L'obiettivo della modellazione in generale può essere visto come l'utilizzo del minor numero di parametri per spiegare meglio la tua risposta. Per capire quanti parametri utilizzare è necessario considerare il vantaggio di aggiungere un altro parametro. Se un parametro aggiuntivo spiega molto (produce una deviazione elevata) dal modello più piccolo, è necessario il parametro aggiuntivo. Per quantificare quanto è necessaria la teoria statistica. La teoria ci dice che la devianza è chi al quadrato con gradi di libertà pari alla differenza di parametri tra i due modelli. È più chiaro?
TeresaStat,

13

La deviazione nulla mostra quanto bene la risposta sia prevista dal modello con nient'altro che un'intercettazione.

La deviazione residua mostra quanto bene la risposta è prevista dal modello quando i predittori sono inclusi. Dal tuo esempio, si può vedere che la devianza aumenta di 3443,3 quando vengono aggiunte 22 variabili predittive (nota: gradi di libertà = numero di osservazioni - numero di predittori). Questo aumento della devianza è la prova di una significativa mancanza di adattamento.

Possiamo anche usare la devianza residua per verificare se l'ipotesi nulla è vera (cioè il modello di regressione logistica fornisce una misura adeguata per i dati). Ciò è possibile perché la devianza è data dal valore chi-quadrato ad un certo grado di libertà. Per verificare la significatività, possiamo scoprire i valori p associati usando la formula seguente in R:

p-value = 1 - pchisq(deviance, degrees of freedom)

Usando i valori di deviazione residua e DF sopra indicati, si ottiene un valore p di circa zero, a dimostrazione che esiste una significativa mancanza di prove a supporto dell'ipotesi nulla.

> 1 - pchisq(4589.4, 1099)
[1] 0

2
Come fai a sapere qual è il valore limite per adattamento buono / cattivo in base alla devianza e al numero di variabili predittive (senza il pchisq)? È solo se Devianza residua> Devianza NULL o c'è qualche intervallo / rapporto?
Hack-R

3
La tua risposta non è sbagliata, ma è soggetta a incomprensioni. In effetti, è stato frainteso (vedi qui ). Alla luce di ciò, puoi chiarire le differenze implicite nel tuo codice?
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.