Confronto tra MaxEnt, ML, Bayes e altri tipi di metodi di inferenza statistica

21

Non sono affatto uno statistico (ho frequentato un corso di statistica matematica, ma niente di più) e recentemente, mentre studiavo teoria dell'informazione e meccanica statistica, ho incontrato questa cosa chiamata "misura dell'incertezza" / "entropia". Ho letto la derivazione di Khinchin come una misura di incertezza e ha senso per me. Un'altra cosa che aveva senso era Jaynes descrizione di MaxEnt per ottenere una statistica quando si sa che la media aritmetica di una o più funzioni / e sul campione (ammesso che accetti come una misura di incertezza, ovviamente). $-\sum p_i\ln p_i$

Così ho cercato in rete per trovare la relazione con altri metodi di inferenza statistica, e Dio ero confuso. Ad esempio, questo documento suggerisce, supponendo che io abbia capito bene, che hai appena ottenuto uno stimatore ML con un'adeguata riformulazione del problema; MacKey, nel suo libro, dice che MaxEnt può darti cose strane, e non dovresti usarlo nemmeno per una stima iniziale in un'inferenza bayesiana; ecc. Sto riscontrando problemi nel trovare buoni confronti.

La mia domanda è: potresti fornire una spiegazione e / o buone referenze di punti deboli e forti di MaxEnt come metodo di inferenza statistica con confronti quantitativi con altri metodi (se applicato ad esempio ai modelli di giocattoli)?

entropy inference

— Francesco
fonte

19

I metodi di inferenza di MaxEnt e Bayesian corrispondono a diversi modi di incorporare le informazioni nella procedura di modellazione. Entrambi possono essere messi su un piano assiomatico ( "Axioms of Maximum Entropy" di John Skilling e "Algebra della probabile inferenza" di Cox ).

L'approccio bayesiano è semplice da applicare se la tua conoscenza precedente si presenta sotto forma di una funzione misurabile di valore reale sul tuo spazio di ipotesi, il cosiddetto "precedente". MaxEnt è semplice quando le informazioni arrivano come un insieme di vincoli rigidi sullo spazio delle tue ipotesi. Nella vita reale, la conoscenza non arriva né in forma "precedente" né in forma di "vincolo", quindi il successo del tuo metodo dipende dalla tua capacità di rappresentare la tua conoscenza nella forma corrispondente.

Su un problema del giocattolo, la media del modello bayesiano ti darà la perdita di log media più bassa (media su molti disegni) quando il precedente corrisponde alla vera distribuzione delle ipotesi. L'approccio MaxEnt ti darà la perdita di log più bassa nel caso peggiore quando i suoi vincoli sono soddisfatti (peggio preso su tutti i possibili priori)

ETJaynes, considerato padre dei metodi "MaxEnt", si basava anche sui metodi bayesiani. A pagina 1412 del suo libro , fornisce un esempio in cui l'approccio bayesiano ha portato a una buona soluzione, seguito da un esempio in cui l'approccio MaxEnt è più naturale.

La massima probabilità richiede essenzialmente che il modello si trovi all'interno di uno spazio modello predeterminato e cerchi di adattarlo "il più difficile possibile", nel senso che avrà la massima sensibilità ai dati di tutti i metodi di selezione del modello limitati a tale modello spazio. Mentre MaxEnt e Bayesian sono framework, ML è un metodo di adattamento del modello concreto e, per alcune scelte progettuali particolari, ML può finire con il metodo che esce dall'approccio bayesiano o MaxEnt. Ad esempio, MaxEnt con vincoli di uguaglianza è equivalente all'adattamento di Probabilità massima di una determinata famiglia esponenziale. Allo stesso modo, un'approssimazione dell'inferenza bayesiana può portare a una soluzione di massima verosimiglianza regolarizzata. Se scegli il tuo precedente per rendere le tue conclusioni al massimo sensibili ai dati, il risultato dell'inferenza bayesiana corrisponderà all'adattamento della massima verosimiglianza. Per esempio, $p$

I successi di Machine Learning nella vita reale sono spesso un mix di varie filosofie. Ad esempio, "Campi casuali" sono stati derivati dai principi MaxEnt. L'implementazione più popolare dell'idea, CRF regolarizzato, prevede l'aggiunta di un "precedente" sui parametri. Di conseguenza, il metodo non è in realtà MaxEnt né Bayesiano, ma influenzato da entrambe le scuole di pensiero.

Ho raccolto alcuni link su basi filosofiche degli approcci bayesiani e MaxEnt qui e qui .

Nota sulla terminologia: a volte le persone chiamano il loro metodo bayesiano semplicemente se ad un certo punto usa la regola di Bayes. Allo stesso modo, "MaxEnt" viene talvolta utilizzato per alcuni metodi che favoriscono soluzioni ad alta entropia. Questo non è lo stesso di "inferenza MaxEnt" o "inferenza bayesiana" come descritto sopra

— Yaroslav Bulatov
fonte

1

Grazie. Non pensavo che "La logica della scienza" parlasse anche di questa roba, sicuramente leggerò quel libro.

— Francesco,

19

Per una divertente critica dei metodi di massima entropia, consiglierei di leggere alcuni vecchi post di newsgroup su sci.stat.math e sci.stat.consult, in particolare quelli di Radford Neal:

Non sono a conoscenza di alcun confronto tra maxent e altri metodi: parte del problema sembra essere che maxent non sia in realtà un framework, ma una direttiva ambigua ("di fronte a uno sconosciuto, massimizza semplicemente l'entropia"), che è interpretato in modi diversi da persone diverse.

— Simon Byrne
fonte

4

(+1) Quella discussione del 2002 è un inferno di uno scambio di idee.

— whuber

1

Si noti che la "derivazione wallis" del massimo fornita da Edwin Jaynes nella teoria della probabilità: la logica della scienza fornisce una logica "sperimentale" per massimizzare l'entropia. Nelle distribuzioni discrete, se iniziamo dal principio di indifferenza (PID), e quindi eseguiamo fondamentalmente il campionamento del rifiuto sulle probabilità, usando i vincoli per accettare o rifiutare i campioni uniformi casuali. La probabilità risultante è quindi arbitrariamente vicina alla distribuzione massima (discreta).

— Probislogic

3

È vero che in passato MaxEnt e Bayes hanno trattato diversi tipi o forme di informazione. Direi che Bayes usa anche vincoli "duri", la probabilità.

In ogni caso, non è più un problema in quanto la regola di Bayes (non la regola del prodotto) può essere ottenuta da Entropia relativa massima (MrE) e non in modo ambiguo:

È un nuovo mondo ...