La probabilità di log in GLM ha garantito la convergenza ai massimi globali?


16

Le mie domande sono:

  1. I modelli lineari generalizzati (GLM) sono garantiti per convergere ad un massimo globale? Se è così, perché?
  2. Inoltre, quali sono i vincoli sulla funzione di collegamento per assicurare la convessità?

La mia comprensione dei GLM è che massimizzano una funzione di probabilità altamente non lineare. Immagino quindi che ci siano diversi massimi locali e il set di parametri in cui converti dipende dalle condizioni iniziali dell'algoritmo di ottimizzazione. Tuttavia, dopo aver fatto qualche ricerca non ho trovato una singola fonte che indica che ci sono più massimi locali. Inoltre, non conosco molto bene le tecniche di ottimizzazione, ma so che il metodo Newton-Raphson e l'algoritmo IRLS sono molto inclini ai massimi locali.

Per favore, spiega se possibile sia su base intuitiva che matematica!

EDIT: dksahuji ha risposto alla mia domanda originale, ma voglio aggiungere la domanda di follow-up [ 2 ] sopra. ("Quali sono i vincoli sulla funzione di collegamento per assicurare la convessità?")


Penso che alcune restrizioni debbano essere richieste prima che ciò sia possibile. Qual è la fonte per l'affermazione?
Glen_b -Restate Monica

Diversi siti sembravano implicarlo, ma non sono riuscito a trovare nulla che lo menzionasse in modo definitivo, quindi accolgo con favore la sua confusione!
DankMasterDan

fintanto che la probabilità è ben definita ovunque nel dominio (e ignorando alcune questioni numeriche tangenziali) penso di sì. In queste condizioni, l'assia è <0 ovunque nel dominio, quindi la somiglianza è concava a livello globale. A proposito, la funzione non è "altamente non lineare" nei parametri ed è questo che conta.
user603

@ user603 qual è la tua fonte / prova che l'hessian è <0 ovunque?
DankMaster,

Le regressioni logistiche, di Poisson e di Gauss sono spesso convesse con una "buona" funzione di collegamento. Tuttavia, con la funzione di collegamento arbitrario, non sono convessi.
Memming del

Risposte:


11

La definizione di famiglia esponenziale è:

p(x|θ)=h(X)exp(θTφ(X)-UN(θ)),

dove è la funzione di partizione del registro. Ora si può dimostrare che le seguenti tre cose valgono per il caso 1D (e si generalizzano a dimensioni superiori: è possibile esaminare le proprietà delle famiglie esponenziali o la partizione del registro):A(θ)

  1. dAdθ=E[ϕ(x)]

  2. d2Adθ2=E[ϕ2(x)]E[ϕ(x)]2=vun'r(φ(X))

  3. 2Aθiθj=E[ϕi(x)ϕj(x)]E[ϕi(x)]E[ϕj(x)]=cov(ϕ(x))Δ2A(θ)=cov(ϕ(x))

Il risultato di cui sopra dimostra che è convesso (poiché c o v ( ϕ ( x ) ) è semidefinito positivo). Ora diamo un'occhiata alla funzione di probabilità per MLE: A(θ)cov(ϕ(x))

p(D|θ)=[i=1Nh(xi)] exp(θT[i=1Nϕ(xi)]NA(θ))log(p(D|θ))=θT[i=1Nϕ(xi)]NA(θ)=θT[ϕ(D)]NA(θ)

Ora è lineare in theta e - A ( θ ) è concavo. Pertanto, esiste un massimo globale unico.θT[ϕ(D)]A(θ)

Esiste una versione generalizzata chiamata famiglia esponenziale curva che sarebbe simile. Ma la maggior parte delle prove sono in forma canonica.


questo significa che GLM ha un unico nomatter minimo globale quale funzione di collegamento viene scelta (comprese quelle non canoniche)?
DankMasterDan

1
p(x|θ)=h(x)exp(η(θ)Tϕ(x)A(η(θ)))ηθηθ

Si noti che la domanda si pone sulla convergenza, piuttosto che sulla sola esistenza, ma con alcune restrizioni, anche questo potrebbe essere fattibile.
Glen_b -Restate Monica,

@Glen_b Puoi elaborare? Non conosco tali restrizioni. Forse qualcosa come le restrizioni sulla dimensione graduale in un ottimizzatore basato sul gradiente per garantire la convergenza in caso di funzione concava.
dksahuji,

1
@Glen_b Questo potrebbe essere vero in generale, ma non sono in grado di vedere alcun motivo per la funzione concava di non convergere in optima entro un piccolo valore tollerabile. Ma direi che non ho alcuna esperienza pratica con questi e ho appena iniziato. :)
dksahuji,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.