Sarebbe troppo lontano per affermare che convalida la mia scelta di distribuzione?
In un certo senso dipende da cosa intendi esattamente per "convalidare", ma direi "sì, va troppo oltre" nello stesso modo in cui non puoi davvero dire "il nulla è dimostrato essere vero", (specialmente con punto null, ma almeno in qualche modo più in generale). Puoi solo dire "beh, non abbiamo prove certe che sia sbagliato". Ma in ogni caso non ci aspettiamo che i nostri modelli siano perfetti, sono modelli . Ciò che conta, come diceva Box & Draper, è " quanto devono essere sbagliati per non essere utili? "
Una di queste due frasi precedenti:
Questo sembra suggerire (per me) che la scelta di una distribuzione gaussiana era abbastanza ragionevole. O, almeno, che i residui sono coerenti con la distribuzione che ho usato nel mio modello.
descrivi in modo molto più preciso ciò che indica la tua diagnostica - non che un modello gaussiano con log link fosse corretto - ma che fosse ragionevole o coerente con i dati.
Ho scelto una funzione di collegamento al registro perché la mia variabile di risposta è sempre positiva, ma vorrei una sorta di conferma che fosse una buona scelta.
Se sai che deve essere positivo, allora la sua media deve essere positiva. È ragionevole scegliere un modello che sia almeno coerente con quello. Non so se sia una buona scelta (potrebbero esserci scelte molto migliori), ma è una cosa ragionevole da fare; potrebbe essere il mio punto di partenza. [Tuttavia, se la variabile stessa è necessariamente positiva, il mio primo pensiero tenderebbe ad essere Gamma con log-link, piuttosto che gaussiano. "Necessariamente positivo" suggerisce sia l'asimmetria che la varianza che cambiano con la media.]
D2: Esistono test, come il controllo dei residui per la scelta della distribuzione, che possono supportare la mia scelta della funzione di collegamento?
Sembra che tu non intenda "test" come in "test di ipotesi formale" ma piuttosto come "controllo diagnostico".
In entrambi i casi, la risposta è sì, ci sono.
Un test formale di ipotesi è il test Goodness of link di Pregibon [1].
Questo si basa sull'incorporamento della funzione di collegamento in una famiglia Box-Cox al fine di effettuare un test di ipotesi del parametro Box-Cox.
Vedi anche la breve discussione del test di Pregibon a Breslow (1996) [2] ( vedi p. 14 ).
Tuttavia, consiglio vivamente di attenersi al percorso diagnostico. Se si desidera verificare una funzione di collegamento, sostanzialmente si afferma che sulla scala dei collegamenti,η= g( μ ) è lineare in XQuesto è nel modello, quindi una valutazione di base potrebbe esaminare un diagramma di residui rispetto ai predittori. Per esempio,
residui di lavoro rWio= ( yio- μ^io) ( ∂η∂μ)
(a cui mi affiderei per questa valutazione), o forse osservando le deviazioni dalla linearità in residui parziali, con un diagramma per ogni predittore (vedi ad esempio, Hardin e Hilbe, Modelli ed estensioni lineari generalizzate, 2a ed. sec 4.5 .4 p54, per la definizione),
rTk i= ( yio- μ^io) ( ∂η∂μ) + xi kβ^K
= rWio+ xi kβ^K
Nei casi in cui i dati ammettono la trasformazione mediante la funzione di collegamento, è possibile cercare la linearità allo stesso modo della regressione lineare (sebbene tu abbia lasciato l'asimmetria e possibilmente l'eteroschedasticità).
Nel caso di predittori categorici, la scelta della funzione di collegamento è più una questione di convenienza o interpretabilità, l'adattamento dovrebbe essere lo stesso (quindi non è necessario valutarli).
Potresti anche basare una diagnostica sull'approccio di Pregibon.
Questi non formano un elenco esaustivo; puoi trovare altre diagnosi discusse.
[Detto questo, concordo con la valutazione di Gung secondo cui la scelta della funzione di collegamento dovrebbe inizialmente basarsi su elementi come considerazioni teoriche, ove possibile.]
Vedi anche alcune delle discussioni in questo post , che è almeno in parte rilevante.
[1]: Pregibon, D. (1980),
"Test di bontà dei collegamenti per modelli lineari generalizzati",
Journal of the Royal Statistical Society. Serie C (statistiche applicate) ,
vol. 29, n. 1, pagg. 15-23.
[2]: Breslow NE (1996),
"Modelli lineari generalizzati: verifica delle ipotesi e rafforzamento delle conclusioni",
Statistica Applicata 8 , 23-41.
PDF