Perché GLM è diverso da un LM con variabile trasformata


16

Come spiegato in questo volantino del corso (pagina 1) , un modello lineare può essere scritto nel modulo:

y=β1x1++βpxp+εi,

dove y è la variabile di risposta e xi è l' ith variabile esplicativa .

Spesso con l'obiettivo di soddisfare le ipotesi di test, si può trasformare la variabile di risposta. Ad esempio applichiamo la funzione di registrazione su ciascun yi . Trasformare una variabile di risposta NON equivale a fare un GLM.

Un GLM può essere scritto nel seguente modulo (di nuovo dal volantino del corso (pagina 3) )

g(u)=β1x1++βpxp+εi,

dove u è solo un altro simbolo per y mi pare di capire dalla pagina 2 nella dispensa del corso. g() è chiamata la funzione di collegamento.

Non capisco davvero la differenza tra un GLM e un LM con una variabile trasformata dalle diapositive nel corso. Potete aiutarmi con quello?


2
Potresti trovare illuminante considerare il fatto che tutte le trasformazioni di un risultato binario sono affini, il che quindi ti limiterebbe alla normale regressione dei minimi quadrati. Questo ovviamente non è ciò che la regressione logistica (un GLM standard per le risposte binarie) sta realizzando. (Prova: lascia che i valori di risultato siano codificati come e y 1 e che ϕ sia una trasformazione. Scrivendo z 0 = ϕ ( y 0 ) e z 1 = ϕ ( y 1 ) troviamo ϕ concorda su { yy0y1φz0=φ(y0)z1=φ(y1)φ con y λ y + μ (che è una trasformazione affine di y ) dove λ = ( z 1 - z 0 ) / ( y 1 - y 0 ) e μ = z 0 - λ y 0. ){y0,y1}yλy+μyλ=(z1z0)/(y1y0)μ=z0λy0
whuber

Risposte:


15

Trasformare la risposta prima di fare una regressione lineare sta facendo questo:

E(g(Y))β0+β1x1++βpxp

dove è una data funzione e assumiamo che g ( Y ) abbia una data distribuzione (di solito normale).gg(Y)

Un modello lineare generalizzato sta facendo questo:

g(E(Y))β0+β1x1++βpxp

dove è lo stesso di prima e assumiamo che Y abbia una data distribuzione (di solito non normale).gY


qual è E nella tua equazione?
user1406647

1
è la notazione standard per il valore di aspettazione di X . E(X)X
Marcus PS,

Ho trovato utile anche questo: christoph-scherber.de/content/PDF%20Files/…
Aditya

22

Non sono sicuro che ciò costituirà una risposta completa per te, ma potrebbe aiutarti a liberare il logjam concettuale.

Sembra che ci siano due idee sbagliate nel tuo account:

  1. Tenere presente che la regressione dei minimi quadrati ordinari (OLS - "lineare") è un caso speciale del modello lineare generalizzato. Pertanto, quando si dice "[t] la trasformazione di una variabile di risposta NON equivale a fare un GLM", ciò non è corretto. Il montaggio di un modello lineare o la trasformazione della variabile di risposta e quindi il montaggio di un modello lineare costituiscono entrambi "fare un GLM".

  2. Nella formulazione standard dei GLM, ciò che chiami " " (che è spesso rappresentato da μ , ma questa è solo una questione di preferenza) è la media della distribuzione della risposta condizionale in una posizione specifica nello spazio della covariata (cioè X ). Pertanto, quando si dice "dove u è solo un altro simbolo per y ", anche questo è errato. Nella formulazione OLS, Y è una variabile casuale e / o y i è un valore realizzato di Y per l'unità di osservazione / studio i . Cioè, y (più genericamente) rappresenta i dati , non un parametro . uμXuyYyiYiy

    (Non intendo essere arrogante di errori, ho solo il sospetto che questi possano causare confusione.)

  3. C'è anche un altro aspetto del modello lineare generalizzato che non ti vedo menzionare. Cioè specifichiamo una distribuzione di risposta. Nel caso della regressione OLS, la distribuzione della risposta è gaussiana (normale) e la funzione di collegamento è la funzione di identità. Nel caso, per esempio, della regressione logistica (che potrebbe essere ciò a cui la gente pensa per la prima volta quando pensa ai GLM), la distribuzione della risposta è il Bernoulli (/ binomiale) e la funzione di collegamento è il logit. Quando si utilizzano le trasformazioni per garantire il rispetto delle ipotesi per OLS, spesso si cerca di rendere accettabilmente normale la distribuzione della risposta condizionale. Tuttavia, nessuna trasformazione del genere renderà la distribuzione di Bernoulli accettabilmente accettabile.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.