Per calcolare le previsioni medie del modello sulla scala di risposta di un GLM, che è "corretto" e perché?
- Calcola la previsione media del modello sulla scala del collegamento e poi torna indietro alla scala della risposta, oppure
- Indietro trasforma le previsioni nella scala di risposta e quindi calcola la media del modello
Le previsioni sono vicine ma non uguali se il modello è un GLM. I diversi pacchetti R offrono opzioni per entrambi (con valori predefiniti diversi). Numerosi colleghi hanno sostenuto apertamente che il n. 1 è sbagliato perché "tutti fanno il n. 2". La mia intuizione dice che il n. 1 è "corretto" in quanto mantiene lineare tutta la matematica lineare (il n. 2 fa una media delle cose che non sono su una scala lineare). Una semplice simulazione rileva che il n. 2 ha un MSE molto (molto!) Leggermente più piccolo del n. 1. Se il numero 2 è corretto, qual è il motivo? E, se il numero 2 è corretto, perché il mio ragionamento (mantenere la matematica lineare lineare) è un ragionamento scadente?
Modifica 1: Il calcolo di mezzi marginali sui livelli di un altro fattore in un GLM è un problema simile alla domanda che sto ponendo sopra. Russell Lenth calcola le medie marginali dei modelli GLM usando il "timing" (le sue parole) di # 1 (nel pacchetto emmeans) e la sua argomentazione è simile alla mia intuizione.
Modifica 2: sto usando la media del modello per fare riferimento all'alternativa alla selezione del modello in cui una previsione (o un coefficiente) è stimata come media ponderata su tutti o un sottoinsieme di modelli "migliori" nidificati (vedere riferimenti e pacchetti R di seguito) .
Dati modelli nidificati, dove è la previsione lineare (nello spazio di collegamento) per l'individuo per il modello e è il peso per il modello , la previsione media del modello che utilizza il numero 1 sopra (media sul collegamento ridimensionare e quindi tornare indietro alla scala di risposta) è:η m i i m w m m
e la previsione media del modello usando il n. 2 sopra (indietro trasforma tutte le previsioni e quindi la media sulla scala di risposta) è:
Alcuni metodi bayesiani e frequentisti della media dei modelli sono:
Hoeting, JA, Madigan, D., Raftery, AE e Volinsky, CT, 1999. Media del modello bayesiano: un tutorial. Scienze statistiche, pp.382-401.
Burnham, KP e Anderson, DR, 2003. Selezione del modello e inferenza multimodello: un approccio pratico di teoria dell'informazione. Springer Science & Business Media.
Hansen, BE, 2007. Media dei modelli dei minimi quadrati. Econometrica, 75 (4), pagg. 1175-1189.
Claeskens, G. e Hjort, NL, 2008. Selezione del modello e media del modello. Libri di Cambridge.
I pacchetti R includono BMA , MuMIn , BAS e AICcmodavg . (Nota: questa non è una domanda sulla saggezza della media dei modelli in generale.)