Per un po ', sembrò che i kernel di Fisher potessero diventare popolari, in quanto sembravano essere un modo per costruire kernel con modelli probabilistici. Tuttavia, raramente li ho visti usati in pratica, e ho una buona autorità che tendono a non funzionare molto bene. Si basano sul calcolo delle informazioni Fisher - citando Wikipedia:
l'informazione di Fisher è il negativo dell'aspettativa del secondo derivato rispetto a θ del logaritmo naturale di f. Le informazioni possono essere considerate una misura della "curvatura" della curva di supporto vicino alla stima della massima verosimiglianza (MLE) di θ.
Per quanto posso dire questo significa che la funzione del kernel tra due punti è quindi la distanza lungo questa superficie curva - ho ragione?
Comunque questo potrebbe essere problematico per l'uso nei metodi del kernel, come
- Il MLE potrebbe essere una stima molto negativa per un determinato modello
- La curvatura della curva di supporto attorno all'MLE potrebbe non essere utile per discriminare tra le istanze, ad esempio se la superficie del Likelihood era molto al picco
- Questo sembra buttare via molte informazioni sul modello
In tal caso, esistono modi più moderni di costruire kernel con metodi probabilistici? Ad esempio, è possibile utilizzare un set di controllo per utilizzare le stime MAP allo stesso modo? Quali altre nozioni di distanza o somiglianza dai metodi probabilistici potrebbero funzionare per costruire una funzione (valida) del kernel?