Qual è la differenza tra una "funzione di collegamento" e una "funzione di collegamento canonico" per GLM


65

Qual è la differenza tra i termini "funzione di collegamento" e "funzione di collegamento canonico"? Inoltre, ci sono dei vantaggi (teorici) nell'usare l'uno rispetto all'altro?

Ad esempio, una variabile di risposta binaria può essere modellata utilizzando molte funzioni di collegamento come logit , probit , ecc. Tuttavia, logit qui è considerata la funzione di collegamento "canonica".


10
Discuto ampiamente le funzioni di collegamento qui: differenza tra i modelli logit e probit , concentrandomi sulla regressione per una variabile di risposta binaria. Sebbene solo una piccola parte di quella discussione si concentri sul significato che una funzione di collegamento è "canonica", può comunque essere utile leggere. Si noti che per comprendere la distinzione b / t e i vantaggi di una funzione di collegamento canonico rispetto a quella non canonica è necessario approfondire la matematica alla base del GLiM.
gung - Ripristina Monica

Risposte:


68

Le risposte sopra sono più intuitive, quindi provo più rigore.

Che cos'è un GLM?

Sia denota un insieme di una risposta e vettore di covariata dimensionale con valore atteso . Per osservazioni indipendenti, la distribuzione di ogni è una famiglia esponenziale con densità Qui, il parametro di interesse (parametro naturale o canonico) è , è un parametro di scala (noto o visto come un fastidio) e e sono funzioni note. Ily p x = ( x 1 , , x p ) E ( y ) = μ i = 1 , , n y i f ( y i ; θ i , ϕ ) = exp { [ y i θ i - γ ( θ i ) ] /Y=(y,x)ypx=(x1,,xp)E(y)=μi=1,,nyiθ i

f(yi;θi,ϕ)=exp{[yiθiγ(θi)]/ϕ+τ(yi,ϕ)}
θiϕγτnvettori tridimensionali di valori di input fissi per le variabili esplicative sono indicati da . Partiamo dal presupposto che i vettori di input influenzano (1) solo tramite una funzione lineare, il predittore lineare, da cui dipende . Come si può dimostrare che , questa dipendenza viene stabilita collegando il predittore lineare e tramite la media. Più specificamente, la media è vista come una funzione invertibile e regolare del predittore lineare, ovvero px1,,xp
ηi=β0+β1xi1++βpxip
θiθ=(γ)1(μ)ηθμ
g(μ)=η or μ=g1(η)
Ora, per rispondere alla tua domanda:

La funzione è chiamata funzione link. Se la funzione collega , e tale che , questo collegamento viene chiamato canonico e ha la forma .g()μηθηθg=(γ)1

Questo è tutto. Quindi ci sono un certo numero di proprietà statistiche desiderabili nell'uso del collegamento canonico, ad esempio la statistica sufficiente è con componenti per , il metodo Newton e il punteggio di Fisher per trovando che lo stimatore ML coincide, questi collegamenti semplificano la derivazione dell'MLE, assicurano che alcune proprietà della regressione lineare (ad esempio, la somma dei residui sia 0) reggano o assicurano che rimanga all'interno dell'intervallo della variabile di risultato .Xyixijyij=1,,pμ

Quindi tendono ad essere usati di default. Si noti tuttavia che non esiste un motivo a priori per cui gli effetti nel modello dovrebbero essere additivi sulla scala fornita da questo o qualsiasi altro collegamento.


5
+1, questa è davvero una bella risposta, @Momo. Ho trovato alcune delle equazioni più difficili da leggere quando sono state sepolte nei paragrafi, quindi le ho "bloccate" usando il doppio simbolo del dollaro (ovvero $ $). Spero che sia OK (in caso contrario, è possibile eseguire il rollback, con le mie scuse).
gung - Ripristina Monica

1
@Momo la domanda originale qui, tuttavia, include ciò che Wei ha chiesto, quindi vale la pena sottolineare che non ha ancora ricevuto una risposta chiara.
Glen_b,

1
Spero di capire correttamente la tua confusione: nella famiglia esponenziale di cui parli, il parametro canonico è e il collegamento canonico è quando che è quando . Come anche (se si calcola il valore atteso della prima derivata rispetto a della funzione di verosimiglianza) l'unico caso in cui appare quando . θη=θg(μ)=θθ=(γ)1(μ)θθμg(.)=(γ)1(.)
Momo

1
Grazie mille. Usando l'esempio precedente, abbiamo che . Quindi . Come hai detto (ho appena riformulato), abbiamo solo se È il collegamento canonico, che è il logit. Quindi avremo . Quindi l'uguaglianza tra e il predittore esiste solo se usiamo la funzione di collegamento canonico. (γ)-1(.)=Logit (.)Η=θg(.)Θ=logit(π)=ηθηγ(θ)=π=exp(θ)1+exp(θ)(γ)1(.)=logit(.)η=θg(.)θ=logit(π)=ηθη
Druss2k,

2
Sembra che ci sia un refuso nella frase chiave della risposta: non dovrebbe leggere "se la funzione collega e st "? μη θθηθ
Leo Alekseyev,

16

Gung ha citato una buona spiegazione: il legame canonico possiede speciali proprietà teoriche di sufficienza minima. Ciò significa che è possibile definire un modello logit condizionale (che gli economisti chiamano un modello a effetti fissi) condizionando il numero di risultati, ma non è possibile definire un modello probit condizionale, poiché non esistono statistiche sufficienti da utilizzare con il collegamento probit.


Puoi approfondire un po 'la sufficienza minima? Con la spiegazione sopra possiamo ancora definire un modello probit, giusto? Non sarà sicuramente la funzione di collegamento canonico, ma qual è il danno nell'uso di una funzione di collegamento non canonica.
pikachuchameleon,

9

Ecco un piccolo diagramma ispirato alla classe 18.650 del MIT che trovo abbastanza utile in quanto aiuta a visualizzare le relazioni tra queste funzioni. Ho usato la stessa notazione del post di @momo:

inserisci qui la descrizione dell'immagine

  • γ(θ) è la funzione di generazione del momento cumulativo
  • g(μ) è la funzione di collegamento

Quindi la funzione di collegamento relazione il predittore lineare con la media ed è necessario che sia monotona in aumento, continuamente differenziabile e invertibile.g

Il diagramma consente di spostarsi facilmente da una direzione all'altra, ad esempio:

η=g(γ(θ))
θ=γ1(g1(η))

Funzione di collegamento canonico

Un altro modo di vedere rigorosamente ciò che Momo ha descritto rigorosamente è che quando è la funzione di collegamento canonico, la composizione della funzione è l'identità e quindi otteniamo g

γ1g1=(gγ)1=I
θ=η

1

Le risposte sopra hanno già coperto ciò che voglio dire. Giusto per chiarire alcuni punti come ricercatore di machine learning:

  1. la funzione di collegamento non è altro che l'inverso della funzione di attivazione. Ad esempio, logit è l'inverso del sigmoide, probit è l'inverso della funzione di distribuzione cumulativa di gaussiana.

  2. Se prendiamo il parametro del modello lineare generalizzato per dipendere solo da , con come vettore di peso e come input, allora la funzione di collegamento viene chiamata canonica.wTxwx

La discussione sopra non ha nulla a che fare con la famiglia esponenziale, ma una bella discussione può essere trovata nel libro PRML di Christopher Bishop, capitolo 4.3.6.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.