Per la media dei modelli di un GLM, calcoliamo la media delle previsioni sul collegamento o sulla scala di risposta?


12

Per calcolare le previsioni medie del modello sulla scala di risposta di un GLM, che è "corretto" e perché?

  1. Calcola la previsione media del modello sulla scala del collegamento e poi torna indietro alla scala della risposta, oppure
  2. Indietro trasforma le previsioni nella scala di risposta e quindi calcola la media del modello

Le previsioni sono vicine ma non uguali se il modello è un GLM. I diversi pacchetti R offrono opzioni per entrambi (con valori predefiniti diversi). Numerosi colleghi hanno sostenuto apertamente che il n. 1 è sbagliato perché "tutti fanno il n. 2". La mia intuizione dice che il n. 1 è "corretto" in quanto mantiene lineare tutta la matematica lineare (il n. 2 fa una media delle cose che non sono su una scala lineare). Una semplice simulazione rileva che il n. 2 ha un MSE molto (molto!) Leggermente più piccolo del n. 1. Se il numero 2 è corretto, qual è il motivo? E, se il numero 2 è corretto, perché il mio ragionamento (mantenere la matematica lineare lineare) è un ragionamento scadente?

Modifica 1: Il calcolo di mezzi marginali sui livelli di un altro fattore in un GLM è un problema simile alla domanda che sto ponendo sopra. Russell Lenth calcola le medie marginali dei modelli GLM usando il "timing" (le sue parole) di # 1 (nel pacchetto emmeans) e la sua argomentazione è simile alla mia intuizione.

Modifica 2: sto usando la media del modello per fare riferimento all'alternativa alla selezione del modello in cui una previsione (o un coefficiente) è stimata come media ponderata su tutti o un sottoinsieme di modelli "migliori" nidificati (vedere riferimenti e pacchetti R di seguito) .

Dati modelli nidificati, dove è la previsione lineare (nello spazio di collegamento) per l'individuo per il modello e è il peso per il modello , la previsione media del modello che utilizza il numero 1 sopra (media sul collegamento ridimensionare e quindi tornare indietro alla scala di risposta) è:η m i i m w m mMηimimwmm

Y^i=g1(m=1Mwmηim)

e la previsione media del modello usando il n. 2 sopra (indietro trasforma tutte le previsioni e quindi la media sulla scala di risposta) è:M

Y^i=m=1Mwmg1(ηim)

Alcuni metodi bayesiani e frequentisti della media dei modelli sono:

  • Hoeting, JA, Madigan, D., Raftery, AE e Volinsky, CT, 1999. Media del modello bayesiano: un tutorial. Scienze statistiche, pp.382-401.

  • Burnham, KP e Anderson, DR, 2003. Selezione del modello e inferenza multimodello: un approccio pratico di teoria dell'informazione. Springer Science & Business Media.

  • Hansen, BE, 2007. Media dei modelli dei minimi quadrati. Econometrica, 75 (4), pagg. 1175-1189.

  • Claeskens, G. e Hjort, NL, 2008. Selezione del modello e media del modello. Libri di Cambridge.

I pacchetti R includono BMA , MuMIn , BAS e AICcmodavg . (Nota: questa non è una domanda sulla saggezza della media dei modelli in generale.)


1
Ho il sospetto che il motivo per cui la tua domanda non riceve risposte è che altri lettori, come me, non capiscono la tua domanda. Cosa intendi esattamente per "media dei modelli"? Descrivi dettagliatamente un contesto in modo da comprendere quale problema stai cercando di risolvere. Per quanto posso vedere, il pacchetto emmeans non calcola la media delle previsioni da diversi modelli.
Gordon Smyth,

1
Grazie per averlo chiesto e vedo che l'aggiunta della nota Russell Lenth confonde la mia domanda. Ho cercato di chiarire questo sopra. Il pacchetto emmeans calcolerà le medie marginali e SE sui livelli di un altro fattore e queste statistiche verranno calcolate sulla scala dei collegamenti e quindi trasformate all'indietro. Vedi la sezione "Il modello è la nostra migliore guida" .
JWalker,

Sarei davvero interessato a qualsiasi risposta a questa domanda. Nel frattempo, un commento. Tale risultato MSE viene calcolato sulla scala trasformata all'indietro. Scommetto che con gli stessi risultati della simulazione, l'MSE, se calcolato sulla scala dei collegamenti, sarebbe più piccolo con il n. 1 che con il n. 2. Il motivo è che la media del campione è lo stimatore dei minimi quadrati della media della popolazione, anche su una scala sbagliata.
Russ Lenth,

Risposte:


6

Il modo ottimale di combinare stimatori o predittori dipende dalla funzione di perdita che si sta tentando di minimizzare (o dalla funzione di utilità che si sta tentando di massimizzare).

In generale, se la funzione di perdita misura gli errori di previsione sulla scala di risposta, la media dei predittori sulla scala di risposta è corretta. Se, ad esempio, si sta cercando di ridurre al minimo l'errore quadrato previsto della previsione sulla scala di risposta, il predittore medio posteriore sarà ottimale e, a seconda delle ipotesi del modello, che potrebbe essere equivalente alle previsioni della media sulla scala di risposta.

Si noti che la media sulla scala del predittore lineare può avere prestazioni scarse per i modelli discreti. Supponiamo che si stia utilizzando una regressione logistica per prevedere la probabilità di una variabile di risposta binaria. Se uno qualsiasi dei modelli fornisce una probabilità stimata pari a zero, il predittore lineare per quel modello sarà meno infinito. Prendere la media dell'infinito con un numero qualsiasi di valori finiti sarà comunque infinito.

Hai consultato i riferimenti che elenchi? Sono sicuro che Hoeting et al (1999), ad esempio, discutono delle funzioni di perdita, sebbene forse non in modo molto dettagliato.


1
Eccellente. Grazie per questa risposta (accolgo con favore gli altri!). Suppongo che "allora i predittori della media siano probabilmente ottimali o vicini ad esso" è la media dei predittori sulla scala di risposta. La nota logistica è particolarmente utile.
JWalker,

1
@rvl Per quanto riguarda la linearità della funzione di perdita, stavo pensando in termini di funzione di influenza della perdita. Sono d'accordo che sia un po 'enigmatico, quindi ho modificato i miei commenti. Non sono d'accordo con le altre tue osservazioni. I GLM sono stimati per ML, non per perdita di errore quadrata. Nonostante il nome, l'algoritmo IRLS popolare per i GLM non riduce al minimo una somma di quadrati e la variabile di lavoro IRLS coinvolge residui standardizzati sulla scala di risposta, non sulla scala dei collegamenti. In ogni caso, la stima e la previsione non sono le stesse e non devono avere le stesse funzioni di perdita.
Gordon Smyth,

@rvl I valori zero esatti si verificano frequentemente nella regressione logistica e sono stati discussi più volte su questo forum.
Gordon Smyth,

@rvl La perdita non viene valutata sulla scala dei collegamenti. Questa discussione non è il posto giusto per offrirti un tutorial sui GLM - ti rimando invece al mio libro sui GLM che Springer pubblicherà tra circa un mese. Né questa discussione è il posto giusto per offrire una risposta alternativa alla domanda originale. Scrivi una risposta adeguata se vuoi farlo.
Gordon Smyth,

Ecco il link al nostro libro sui GLM: doi.org/10.1007/978-1-4419-0118-7
Gordon Smyth,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.