I metodi di inferenza di MaxEnt e Bayesian corrispondono a diversi modi di incorporare le informazioni nella procedura di modellazione. Entrambi possono essere messi su un piano assiomatico ( "Axioms of Maximum Entropy" di John Skilling e "Algebra della probabile inferenza" di Cox ).
L'approccio bayesiano è semplice da applicare se la tua conoscenza precedente si presenta sotto forma di una funzione misurabile di valore reale sul tuo spazio di ipotesi, il cosiddetto "precedente". MaxEnt è semplice quando le informazioni arrivano come un insieme di vincoli rigidi sullo spazio delle tue ipotesi. Nella vita reale, la conoscenza non arriva né in forma "precedente" né in forma di "vincolo", quindi il successo del tuo metodo dipende dalla tua capacità di rappresentare la tua conoscenza nella forma corrispondente.
Su un problema del giocattolo, la media del modello bayesiano ti darà la perdita di log media più bassa (media su molti disegni) quando il precedente corrisponde alla vera distribuzione delle ipotesi. L'approccio MaxEnt ti darà la perdita di log più bassa nel caso peggiore quando i suoi vincoli sono soddisfatti (peggio preso su tutti i possibili priori)
ETJaynes, considerato padre dei metodi "MaxEnt", si basava anche sui metodi bayesiani. A pagina 1412 del suo libro , fornisce un esempio in cui l'approccio bayesiano ha portato a una buona soluzione, seguito da un esempio in cui l'approccio MaxEnt è più naturale.
La massima probabilità richiede essenzialmente che il modello si trovi all'interno di uno spazio modello predeterminato e cerchi di adattarlo "il più difficile possibile", nel senso che avrà la massima sensibilità ai dati di tutti i metodi di selezione del modello limitati a tale modello spazio. Mentre MaxEnt e Bayesian sono framework, ML è un metodo di adattamento del modello concreto e, per alcune scelte progettuali particolari, ML può finire con il metodo che esce dall'approccio bayesiano o MaxEnt. Ad esempio, MaxEnt con vincoli di uguaglianza è equivalente all'adattamento di Probabilità massima di una determinata famiglia esponenziale. Allo stesso modo, un'approssimazione dell'inferenza bayesiana può portare a una soluzione di massima verosimiglianza regolarizzata. Se scegli il tuo precedente per rendere le tue conclusioni al massimo sensibili ai dati, il risultato dell'inferenza bayesiana corrisponderà all'adattamento della massima verosimiglianza. Per esempio,p
I successi di Machine Learning nella vita reale sono spesso un mix di varie filosofie. Ad esempio, "Campi casuali" sono stati derivati dai principi MaxEnt. L'implementazione più popolare dell'idea, CRF regolarizzato, prevede l'aggiunta di un "precedente" sui parametri. Di conseguenza, il metodo non è in realtà MaxEnt né Bayesiano, ma influenzato da entrambe le scuole di pensiero.
Ho raccolto alcuni link su basi filosofiche degli approcci bayesiani e MaxEnt qui e qui .
Nota sulla terminologia: a volte le persone chiamano il loro metodo bayesiano semplicemente se ad un certo punto usa la regola di Bayes. Allo stesso modo, "MaxEnt" viene talvolta utilizzato per alcuni metodi che favoriscono soluzioni ad alta entropia. Questo non è lo stesso di "inferenza MaxEnt" o "inferenza bayesiana" come descritto sopra