Puoi dare una semplice spiegazione intuitiva del metodo IRLS per trovare l'MLE di un GLM?


12

Sfondo:

Sto cercando di seguire la recensione di Princeton della stima MLE per GLM .

Capisco le basi di stima MLE: likelihood, score, osservato e atteso Fisher informatione la Fisher scoringtecnica. E so come giustificare la semplice regressione lineare con la stima MLE .


La domanda:

Non riesco a capire nemmeno la prima riga di questo metodo :(

Qual è l'intuizione dietro le variabili di lavoro definite come:zi

zi=η^i+(yiμ^i)dηidμi

Perché vengono utilizzati al posto di per stimare ?yiβ

E qual è la loro relazione con la response/link functionquale è la connessione tra eημ

Se qualcuno ha una spiegazione semplice o può indirizzarmi a un testo di livello più basilare su questo, ti sarei grato.


1
Come nota a margine, per me ho imparato a conoscere IRLS nel contesto di una solida stima (M-) prima di conoscere l'intero quadro "GLM" (che ancora non capisco del tutto). Per una prospettiva pratica su questo approccio, come semplice generalizzazione dei minimi quadrati, consiglierei la fonte che ho incontrato per la prima volta: Appendice B del libro Computer Vision (E-) gratuito di Richard Szeliski (le prime 4 pagine, in realtà, sebbene questi link a anche alcuni esempi carini).
GeoMatt22,

Risposte:


15

Alcuni anni fa ho scritto un articolo su questo per i miei studenti (in spagnolo), quindi posso provare a riscrivere queste spiegazioni qui. Esaminerò IRLS (minimi quadrati ripetutamente ripetuti) attraverso una serie di esempi di complessità crescente. Per il primo esempio abbiamo bisogno del concetto di una famiglia in scala locale. Sia una funzione di densità centrata su zero in un certo senso. Possiamo costruire una famiglia di densità definendo dove è un parametro di scala e f ( x ) = f ( x ; μ , σ ) = 1f0σ>0μf0N(μ,σ)

f(x)=f(x;μ,σ)=1σf0(xμσ)
σ>0μè un parametro di posizione. Nel modello di errore di misurazione, dove di solito il termine di errore è modellato come una distribuzione normale, al posto di quella distribuzione normale possiamo usare una famiglia di scala di posizione come costruita sopra. Quando è la distribuzione normale standard, la costruzione precedente fornisce la famiglia .f0N(μ,σ)

Ora useremo IRLS su alcuni semplici esempi. Per prima cosa troveremo gli stimatori ML (massima verosimiglianza) nel modello con la densità Cauchy distribuisce la famiglia di posizioni (quindi questa è una famiglia di posizioni). Ma prima un po 'di notazione. Lo stimatore dei minimi quadrati ponderati di è dato da dove è alcuni pesi. Vedremo che lo stimatore ML di può essere espresso nella stessa forma, conf ( y ) = 1

Y1,Y2,,Yni.i.d
μ μ μ = n i = 1 w i y i
f(y)=1π11+(yμ)2,yR,
μμwiuwiεi=yi - μ . L(y;μ)=(1
μ=i=1nwiyii=1nwi.
wiμwialcune funzioni dei residui La funzione di probabilità è data da e la funzione loglikelihood è data da Il suo derivato rispetto a è dove . Scrivi
ϵi=yiμ^.
L(y;μ)=(1π)ni=1n11+(yiμ)2
l(y)=nlog(π)i=1nlog(1+(yiμ)2).
μ
l(y)μ=0μlog(1+(yiμ)2)=2(yiμ)1+(yiμ)2(1)=2ϵi1+ϵi2
ϵi=yiμf0(ϵ)=1π11+ϵ2 e , otteniamo Troviamo dove abbiamo usato la definizione f0(ϵ)=1π12ϵ(1+ϵ2)2
f0(ϵ)f0(ϵ)=12ϵ(1+ϵ2)211+ϵ2=2ϵ1+ϵ2.
l(y)μ=f0(ϵi)f0(ϵi)=f0(ϵi)f0(ϵi)(1ϵi)(ϵi)=wiϵi
wi=f0(ϵi)f0(ϵi)(1ϵi)=2ϵi1+ϵi2(1ϵi)=21+ϵi2.
Ricordando che otteniamo l'equazione che è l'equazione di stima di IRLS. Nota cheϵi=yiμ
wiyi=μwi,
  1. I pesi sono sempre positivi.wi
  2. Se il residuo è grande, diamo meno peso all'osservazione corrispondente.

Per calcolare lo stimatore ML in pratica, abbiamo bisogno di un valore iniziale , potremmo usare la mediana, per esempio. Usando questo valore calcoliamo i residui e pesi Il nuovo valore di è dato da Continuando in questo modo definiamo e Il valore stimato al passaggio dell'algoritmo diventa μ^(0)

ϵi(0)=yiμ^(0)
wi(0)=21+ϵi(0).
μ^
μ^(1)=wi(0)yiwi(0).
ϵi(j)=yiμ^(j)
wi(j)=21+ϵi(j).
j+1
μ^(j+1)=wi(j)yiwi(j).
Continuando fino a quando la sequenza converge.
μ^(0),μ^(1),,μ^(j),

Ora studiamo questo processo con una posizione e una famiglia di scala più generali, , con meno dettagli. Lascia che siano indipendenti con la densità sopra. Definisci anche . La funzione loglikelihood è Scrivendo , nota che e Calcolo del derivato del loglikelihood f(y)=1σf0(yμσ)Y1,Y2,,Ynϵi=yiμσ

l(y)=n2log(σ2)+log(f0(yiμσ)).
ν=σ2
ϵiμ=1σ
ϵiν=(yiμ)(1ν)=(yiμ)12σ3.
l(y)μ=f0(ϵi)f0(ϵi)ϵiμ=f0(ϵi)f0(ϵi)(1σ)=1σfo(ϵi)f0(ϵi)(1ϵi)(ϵi)=1σwiϵi
ed eguagliare questo a zero fornisce la stessa equazione di stima del primo esempio. Quindi cercare uno stimatore per : σ2
l(y)ν=n21ν+f0(ϵi)f0(ϵi)ϵiν=n21ν+f0(ϵi)f0(ϵi)((yiμ)2σ3)=n21ν121σ2f0(ϵi)f0(ϵi)ϵi=n21ν121νf0(ϵi)f0(ϵi)(1ϵi)(ϵi)ϵi=n21ν+121νwiϵi2=!0.
portando allo stimatore L'algoritmo iterativo sopra può essere utilizzato anche in questo caso.
σ2^=1nwi(yiμ^)2.

Di seguito diamo un esame numerico usando R, per il modello esponenziale doppio (con scala nota) e con i dati y <- c(-5,-1,0,1,5). Per questi dati il ​​vero valore dello stimatore ML è 0. Il valore iniziale sarà mu <- 0.5. Un passaggio dell'algoritmo è

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

con questa funzione è possibile provare a eseguire le iterazioni "a mano". Quindi è possibile eseguire l'algoritmo iterativo

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

Esercizio: se il modello è una distribuzione con parametro di scala mostra che le iterazioni sono date dal peso Esercizio: se la densità è logistica, mostra che i pesi sono dati da tkσw(ϵ)=1-eϵ

wi=k+1k+ϵi2.
w(ϵ)=1eϵ1+eϵ1ϵ.

Per il momento lo lascerò qui, continuerò questo post.


wow, grande introduzione delicata! ma ti riferisci sempre a un singolo parametro per tutte le istanze e le fonti che ho citato parlano di un diverso per istanza. è solo una banale modifica? u iuui
ihadanny,

1
Aggiungerò altro a questo, appena fuori tempo! Le idee rimangono le stesse, ma i dettagli diventano più coinvolti.
kjetil b halvorsen,

2
arriverà a quello!
kjetil b halvorsen,

1
E grazie per l'esercizio che mostra i pesi per la densità logistica. L'ho fatto e ho imparato molto attraverso il processo. Non conosco la distribuzione , non sono riuscito a trovare nulla al riguardo ...tk
ihadanny,

2
ti dispiace scrivere un post sul blog da qualche parte continuando questa spiegazione? davvero utile per me e sono sicuro che lo sarà per gli altri ...
ihadanny,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.