Oltre i chicchi di Fisher


10

Per un po ', sembrò che i kernel di Fisher potessero diventare popolari, in quanto sembravano essere un modo per costruire kernel con modelli probabilistici. Tuttavia, raramente li ho visti usati in pratica, e ho una buona autorità che tendono a non funzionare molto bene. Si basano sul calcolo delle informazioni Fisher - citando Wikipedia:

l'informazione di Fisher è il negativo dell'aspettativa del secondo derivato rispetto a θ del logaritmo naturale di f. Le informazioni possono essere considerate una misura della "curvatura" della curva di supporto vicino alla stima della massima verosimiglianza (MLE) di θ.

Per quanto posso dire questo significa che la funzione del kernel tra due punti è quindi la distanza lungo questa superficie curva - ho ragione?

Comunque questo potrebbe essere problematico per l'uso nei metodi del kernel, come

  1. Il MLE potrebbe essere una stima molto negativa per un determinato modello
  2. La curvatura della curva di supporto attorno all'MLE potrebbe non essere utile per discriminare tra le istanze, ad esempio se la superficie del Likelihood era molto al picco
  3. Questo sembra buttare via molte informazioni sul modello

In tal caso, esistono modi più moderni di costruire kernel con metodi probabilistici? Ad esempio, è possibile utilizzare un set di controllo per utilizzare le stime MAP allo stesso modo? Quali altre nozioni di distanza o somiglianza dai metodi probabilistici potrebbero funzionare per costruire una funzione (valida) del kernel?

Risposte:


9

Hai ragione sulle tre questioni che sollevi e la tua interpretazione è esattamente giusta.

Le persone hanno guardato in altre direzioni per costruire kernel da modelli probabilistici:

  • Moreno et al. propongo Kullback-Leibler anche se quando questo soddisfa le condizioni di Mercer non era ben compreso quando ho visto questo problema quando l'ho letto.

  • Jebara et al. proporre un prodotto interno nello spazio delle distribuzioni. Questo documento suona molto come quello che stai cercando: puoi scaricarlo qui .

Li ho letti qualche tempo fa (2008), non sono sicuro di come quella zona si sia evoluta negli ultimi anni.

Ci sono anche modi non probabilistici per farlo; le persone in Bioinformatica hanno esaminato i tipi di programmazione dinamica di cose nello spazio delle stringhe e così via. Queste cose non sono sempre PSD e hanno problemi propri.


1
jmlr.org/papers/volume10/martins09a/martins09a.pdf sviluppa alcune teorie sui kernel relative alla divergenza KL che sono e non sono definite in modo positivo.
Dougal,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.