GLM: verifica della scelta della funzione di distribuzione e collegamento


14

Ho un modello lineare generalizzato che adotta una distribuzione gaussiana e una funzione log link. Dopo aver adattato il modello, controllo i residui: diagramma QQ, residui vs valori previsti, istogramma dei residui (riconoscendo che è necessaria la dovuta cautela). Sembra tutto a posto. Questo sembra suggerire (per me) che la scelta di una distribuzione gaussiana era abbastanza ragionevole. O, almeno, che i residui sono coerenti con la distribuzione che ho usato nel mio modello.

Q1 : Sarebbe troppo lontano per affermare che convalida la mia scelta di distribuzione?

Ho scelto una funzione di collegamento al registro perché la mia variabile di risposta è sempre positiva, ma vorrei una sorta di conferma che fosse una buona scelta.

D2 : Esistono test, come il controllo dei residui per la scelta della distribuzione, che possono supportare la mia scelta della funzione di collegamento? (La scelta di una funzione di collegamento mi sembra un po 'arbitraria, poiché le uniche linee guida che posso trovare sono piuttosto vaghe e ondulate, presumibilmente per una buona ragione.)


2
Q1. Puoi provare altre distribuzioni e vedere se funzionano meglio. Q2. Scegliere un collegamento al registro per garantire previsioni positive non mi sembra arbitrario. È una logica. Ma se si otterrebbero previsioni negative con il collegamento di identità e i dati che si hanno potrebbero a loro volta essere controllati. In conclusione: non si può essere chiari sul fatto che altri modelli non sarebbero migliori se non li avessi provati.
Nick Cox,

1
Yexp(η)R2

2
R2

Risposte:


13
  1. Questa è una variante della domanda frequente relativa alla possibilità di affermare l'ipotesi nulla. Nel tuo caso, il valore nullo sarebbe che i residui sono gaussiani e che l'ispezione visiva dei tuoi grafici (grafici qq, istogrammi, ecc.) Costituisce il "test". (Per una panoramica generale della questione dell'asserzione del nulla, può essere utile leggere la mia risposta qui: Perché gli statistici dicono che un risultato non significativo significa "non puoi rifiutare il nulla" invece di accettare l'ipotesi nulla? ) Nel tuo caso specifico, puoi dire che le trame mostrano che i tuoi residui sono coerenti con la tua assunzione di normalità, ma non "convalidano" l'assunzione.

  2. Puoi adattare il tuo modello utilizzando diverse funzioni di collegamento e confrontarle, ma non esiste un test di una singola funzione di collegamento in isolamento (questo è evidentemente errato, vedi la risposta di @ Glen_b ). Nella mia risposta alla differenza tra i modelli logit e probit (che può valere la pena leggere, anche se non è esattamente la stessa), sostengo che le funzioni di collegamento dovrebbero essere scelte in base a:

    1. Conoscenza della distribuzione della risposta,
    2. Considerazioni teoriche e
    3. Adattamento empirico ai dati.

    All'interno di quel quadro, il collegamento canonico per un modello gaussiano sarebbe il collegamento di identità. In questo caso hai respinto tale possibilità, presumibilmente per motivi teorici. Ho il sospetto che il tuo pensiero fosse quelloYnon può assumere valori negativi (nota che "non succede" non è la stessa cosa). In tal caso, il registro è una scelta ragionevole a priori, ma non solo impedisceYdal diventare negativo, induce anche una forma specifica alla relazione curvilinea. Un grafico standard di valori residui e adattati (forse con un adattamento loess sovrapposto) ti aiuterà a identificare se la curvatura intrinseca nei tuoi dati è una corrispondenza ragionevole per la curvatura specifica imposta dal collegamento del registro. Come ho già detto, puoi anche provare qualunque altra trasformazione soddisfi i tuoi criteri teorici che desideri e confrontare direttamente i due adattamenti.


16

Sarebbe troppo lontano per affermare che convalida la mia scelta di distribuzione?

In un certo senso dipende da cosa intendi esattamente per "convalidare", ma direi "sì, va troppo oltre" nello stesso modo in cui non puoi davvero dire "il nulla è dimostrato essere vero", (specialmente con punto null, ma almeno in qualche modo più in generale). Puoi solo dire "beh, non abbiamo prove certe che sia sbagliato". Ma in ogni caso non ci aspettiamo che i nostri modelli siano perfetti, sono modelli . Ciò che conta, come diceva Box & Draper, è " quanto devono essere sbagliati per non essere utili? "

Una di queste due frasi precedenti:

Questo sembra suggerire (per me) che la scelta di una distribuzione gaussiana era abbastanza ragionevole. O, almeno, che i residui sono coerenti con la distribuzione che ho usato nel mio modello.

descrivi in ​​modo molto più preciso ciò che indica la tua diagnostica - non che un modello gaussiano con log link fosse corretto - ma che fosse ragionevole o coerente con i dati.

Ho scelto una funzione di collegamento al registro perché la mia variabile di risposta è sempre positiva, ma vorrei una sorta di conferma che fosse una buona scelta.

Se sai che deve essere positivo, allora la sua media deve essere positiva. È ragionevole scegliere un modello che sia almeno coerente con quello. Non so se sia una buona scelta (potrebbero esserci scelte molto migliori), ma è una cosa ragionevole da fare; potrebbe essere il mio punto di partenza. [Tuttavia, se la variabile stessa è necessariamente positiva, il mio primo pensiero tenderebbe ad essere Gamma con log-link, piuttosto che gaussiano. "Necessariamente positivo" suggerisce sia l'asimmetria che la varianza che cambiano con la media.]

D2: Esistono test, come il controllo dei residui per la scelta della distribuzione, che possono supportare la mia scelta della funzione di collegamento?

Sembra che tu non intenda "test" come in "test di ipotesi formale" ma piuttosto come "controllo diagnostico".

In entrambi i casi, la risposta è sì, ci sono.

Un test formale di ipotesi è il test Goodness of link di Pregibon [1].

Questo si basa sull'incorporamento della funzione di collegamento in una famiglia Box-Cox al fine di effettuare un test di ipotesi del parametro Box-Cox.

Vedi anche la breve discussione del test di Pregibon a Breslow (1996) [2] ( vedi p. 14 ).

Tuttavia, consiglio vivamente di attenersi al percorso diagnostico. Se si desidera verificare una funzione di collegamento, sostanzialmente si afferma che sulla scala dei collegamenti,η=g(μ) è lineare in XQuesto è nel modello, quindi una valutazione di base potrebbe esaminare un diagramma di residui rispetto ai predittori. Per esempio,

residui di lavoro rioW=(yio-μ^io)(ημ)

(a cui mi affiderei per questa valutazione), o forse osservando le deviazioni dalla linearità in residui parziali, con un diagramma per ogni predittore (vedi ad esempio, Hardin e Hilbe, Modelli ed estensioni lineari generalizzate, 2a ed. sec 4.5 .4 p54, per la definizione),

rKioT=(yio-μ^io)(ημ)+XioKβ^K

=rioW+XioKβ^K

Nei casi in cui i dati ammettono la trasformazione mediante la funzione di collegamento, è possibile cercare la linearità allo stesso modo della regressione lineare (sebbene tu abbia lasciato l'asimmetria e possibilmente l'eteroschedasticità).

Nel caso di predittori categorici, la scelta della funzione di collegamento è più una questione di convenienza o interpretabilità, l'adattamento dovrebbe essere lo stesso (quindi non è necessario valutarli).

Potresti anche basare una diagnostica sull'approccio di Pregibon.

Questi non formano un elenco esaustivo; puoi trovare altre diagnosi discusse.

[Detto questo, concordo con la valutazione di Gung secondo cui la scelta della funzione di collegamento dovrebbe inizialmente basarsi su elementi come considerazioni teoriche, ove possibile.]

Vedi anche alcune delle discussioni in questo post , che è almeno in parte rilevante.

[1]: Pregibon, D. (1980),
"Test di bontà dei collegamenti per modelli lineari generalizzati",
Journal of the Royal Statistical Society. Serie C (statistiche applicate) ,
vol. 29, n. 1, pagg. 15-23.

[2]: Breslow NE (1996),
"Modelli lineari generalizzati: verifica delle ipotesi e rafforzamento delle conclusioni",
Statistica Applicata 8 , 23-41.
PDF

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.