Qualcuno ha risolto l'esercizio PTLOS 4.1?


19

Questo un esercizio dato in teoria della probabilità: La logica della scienza da Edwin Jaynes, 2003. C'è una soluzione parziale qui . Ho elaborato una soluzione parziale più generale e mi chiedevo se qualcun altro l'ha risolta. Aspetterò un po 'prima di pubblicare la mia risposta, per provare gli altri.

Okay, allora supponiamo di avere ipotesi mutuamente esclusive e esaustivo, indicato con . Supponiamo inoltre di avere set di dati, indicati con . Il rapporto di probabilità per l'ipotesi è dato da:nHi(i=1,,n)mDj(j=1,,m)

LR(Hi)=P(D1D2,Dm|Hi)P(D1D2,Dm|H¯i)

Si noti che si tratta di probabilità condizionate. Supponiamo ora che, data l'ipotesi i set di dati siano indipendenti, quindi abbiamo:Him

P(D1D2,Dm|Hi)=j=1mP(Dj|Hi)(i=1,,n)Condition 1

Ora sarebbe abbastanza conveniente se il denominatore prendesse in considerazione anche questa situazione, in modo da avere:

P(D1D2,Dm|H¯i)=j=1mP(Dj|H¯i)(i=1,,n)Condition 2

Perché in questo caso il rapporto di verosimiglianza si dividerà in un prodotto di fattori minori per ciascun set di dati, in modo da avere:

LR(Hi)=j=1mP(Dj|Hi)P(Dj|H¯i)

Quindi, in questo caso, ciascun set di dati "voterà per Hi " o "voterà contro Hi " indipendentemente da qualsiasi altro set di dati.

L'esercizio è di dimostrare che se n>2 (più di due ipotesi), non esiste un modo così banale in cui questo factoring può avvenire. Cioè, se si assume che la condizione 1 e la condizione 2 siano valide, allora al massimo uno dei fattori:

P(D1|Hi)P(D1|H¯i)P(D2|Hi)P(D2|H¯i)P(Dm|Hi)P(Dm|H¯i)
è diverso da 1, quindi solo 1 set di dati contribuirà al rapporto di verosimiglianza.

Personalmente ho trovato questo risultato piuttosto affascinante, perché dimostra sostanzialmente che il test delle ipotesi multiple non è altro che una serie di test binari di ipotesi.


Sono un po 'confuso dall'indice su ; è ? Oppure è ? Sembra che dovrebbe essere il secondo, ma non sono sicuro del perché il pedice. O forse mi manca qualcos'altro del tutto :) ˉ H i=argmaxhHiP(D1,Dm|h) ˉ H i=argmaxh{H¯iH¯i=argmaxhHiP(D1,Dm|h)H¯io=argmaxh{H1,...,Hn}P(D1,...Dm|h)
JMS

@JMS - sta per l'affermazione logica " è falso", o che una delle altre ipotesi è vera. Quindi in "algebra booleana" abbiamo (perché l'ipotesi sono esclusivi esaustivo)Hi ¯ H iH1+H2++Hi-1+Hi+1++HnH¯ioHioH¯ioH1+H2++Hio-1+Hio+1++Hn
probabilityislogic

Credo che ci debba essere una soluzione più intuitiva dell'algebra data nella soluzione parziale di Sanders. Se i dati sono indipendenti date ciascuna delle ipotesi, questo continua a valere quando i priori dell'ipotesi sono vari. E in qualche modo, il risultato è che lo stesso deve valere per la conclusione ...
charles.y.zheng

@charles - So esattamente come ti senti. Pensavo di poterlo ricavare usando un'incoerenza qualitativa (Reductio ad absurdum), ma non ci sono riuscito. Potrei estendere la matematica di Sander però. Ed è la Condizione 2 che è "quella instabile" in termini di significato del risultato.
probabilityislogic

@probabilityislogic "mostra sostanzialmente che il test di ipotesi multiple non è altro che una serie di test di ipotesi binarie." Per favore, potresti approfondire questa frase? Leggendo la pagina 98 del libro di Jaynes, capisco che è possibile ridurre i test di per testare contro ogni altra ipotesi e quindi in qualche modo normalizzare per ottenere il posteriore per , ma non capisco perché questo dovrebbe seguire dai risultati di Esercitazione 4.1. H 1 H 1H1,...,HnH1H1
Martin Drozdik,

Risposte:


7

Il motivo per cui abbiamo accettato l'eq. 4.28 (nel libro, la tua condizione 1) era che abbiamo assunto la probabilità dei dati data una certa ipotesi e le informazioni di base sono indipendenti, in altre parole per qualsiasi e con : X D i D j i jHun'XDioDjioj

P(Dio|DjHun'X)=P(Dio|Hun'X)(1)
Pertanto non si può discutere in questo modo di estensibilità oltre il caso binario: se assumiamo l'eq .1 per essere vero, anche l'eq.2 è vero?

P(Dio|DjHun'¯X)=?P(Dio|Hun'¯X)(2)
prima cosa diamo un'occhiata al lato sinistro di eq.2, usando la regola di moltiplicazione:

n { H 1H n } ¯ H a = b

P(Dio|DjHun'¯X)=P(DioDjHun'¯|X)P(DjHun'¯|X)(3)
Poiché le ipotesi sono assunte reciprocamente esclusive ed esaustive, possiamo scrivere: Quindi l'eq.3 diventa: caso in cui abbiamo solo due ipotesi, le somme vengono rimosse (poiché esiste solo un ), gli stessi termini nel nominatore e denominatore, ), annulla e l'eq.2 è dimostrato corretto, poichén{H1...Hn}P(Di|Dj
Hun'¯=ΣBun'HB
baP(DjHb|X
P(Dio|DjHun'¯X)=ΣBun'P(Dio|DjHBX)P(DjHB|X)ΣBun'P(DjHB|X)=ΣBun'P(Dio|HBX)P(DjHB|X)ΣBun'P(DjHB|X)
Bun'P(DjHB|X { H 1 , H 2 ) PHB=Hun'¯ . Pertanto l'equazione 4.29 può essere derivata dall'equazione 4.28 nel libro. Ma quando abbiamo più di due ipotesi, questo non accade, ad esempio, se abbiamo tre ipotesi: , l'equazione sopra diventa: In altre parole: L'unico modo in cui questa equazione può produrre eq.2 è che entrambi i denominatori sono uguali a 1, cioè entrambe le frazioni nella i denominatori devono essere pari a zero. Ma questo è impossibile.P ( D i | D j ¯ H 1 X ) = P ( D i | H 2 X{H1,H2,H3}
P(Dio|DjH1¯X)=P(Dio|H2X)P(DjH2|X)+P(Dio|H3X)P(DjH3|X)P(DjH2|X)+P(DjH3|X)
P(Dio|DjH1¯X)=P(Dio|H2X)1+P(DjH3|X)P(DjH2|X)+P(Dio|H3X)1+P(DjH2|X)P(DjH3|X)

1
Penso che la quarta equazione sia errata. Dovremmo avereP(DioDjHB|X)=P(DioHB|X)P(Dj|HBX)
probabilityislogic

Grazie mille proboslogic, sono stato in grado di correggere la soluzione. Cosa pensi ora?
astroboy

Non capisco come dice Jaynes: "Coloro che non riescono a distinguere tra indipendenza logica e indipendenza causale supporrebbero che (4.29) sia sempre valido".
astroboy

Penso di aver trovato la risposta al mio ultimo commento: subito dopo la frase sopra Jaynes dice: "purché nessun eserciti un'influenza fisica su qualsiasi altro ". Quindi sostanzialmente Jaynes sta dicendo che anche se non hanno influenza fisica, esiste una limitazione logica che non consente la generalizzazione a più di due ipotesi. D jDioDj
astroboy,

Dopo aver letto di nuovo il testo, ritengo che il mio ultimo commento non sia stata una buona risposta. A quanto ho capito ora, Jayne ha voluto dire: "Coloro che non riescono a distinguere tra indipendenza logica e indipendenza causale" sosterrebbero che e non hanno alcuna influenza fisica. Quindi hanno un'indipendenza causale che per loro implica un'indipendenza logica su qualsiasi insieme di ipotesi. Quindi trovano tutta questa discussione insignificante e semplicemente procedono a generalizzare il caso binario. DioDj
astroboy,

1

Va bene, quindi piuttosto che andare a derivare l'equazione di Saunder (5), la dirò qui. Le condizioni 1 e 2 implicano la seguente uguaglianza:

djk=P(Dj|Hk,I)

Πj=1m(ΣKiohKdjK)=(ΣKiohK)m-1(ΣKiohKΠj=1mdjK)
dove
djK=P(Dj|HK,io)hK=P(HK|io)

Ora possiamo specializzarci nel caso (due set di dati) prendendo e rietichettando . Si noti che questi due set di dati soddisfano ancora le condizioni 1 e 2, quindi il risultato sopra si applica anche a loro. Ora espandendo nel caso otteniamo:D ( 1 ) 1D 1 Dm=2D1(1)D1m=2D2(1)D2D3...Dmm=2

(ΣKiohKd1K)(Σliohld2l)=(ΣKiohK)(Σliohld1ld2l)

ΣKioΣliohKhld1Kd2l=ΣKioΣliohKhld1ld2l

ΣKioΣliohKhld2l(d1K-d1l)=0(io=1,...,n)

Il termine ricorre due volte nella summenzionata doppia somma, una volta quando e , e ancora una volta quando e . Ciò accadrà finché . Il coefficiente di ciascun termine è dato da e . Ora, poiché ci sono di queste equazioni, possiamo effettivamente rimuovere da queste equazioni. Per illustrare, prendi , ora questo significa che abbiamo tutte le condizioni tranne dove e . Ora prendi(d1un'-d1B)K=un'l=BK=Bl=un'un',Biod2B-d2un'ioioio=1un'=1,B=2B=1,un'=2io=3e ora possiamo avere queste due condizioni (si noti che ciò presuppone almeno tre ipotesi). Quindi l'equazione può essere riscritta come:

Σl>KhKhl(d2l-d2K)(d1K-d1l)=0

Ora ciascuno dei termini deve essere maggiore di zero, poiché altrimenti abbiamo a che fare con ipotesi e la risposta può essere riformulata in termini di . Quindi questi possono essere rimossi dal set di condizioni sopra:hion1<nn1

Σl>K(d2l-d2K)(d1K-d1l)=0

Quindi, ci sono condizioni che devono essere soddisfatte, e ogni condizione implica una delle due "sotto-condizioni": quella per entrambe o (ma non necessariamente entrambi). Ora abbiamo un insieme di tutte le coppie uniche per . Se dovessimo prendere di queste coppie per una delle , allora avremmo tutti i numeri nel set e . Questo perché la prima coppia ha elementi e ogni coppia aggiuntiva porta almeno un elemento aggiuntivo al set *n(n-1)2djK=djlj=1j=2(K,l)djK=djln-1j1,...,ndj1=dj2==dj,n-1=dj,n2

Tuttavia, poiché esistono le condizioni , dobbiamo scegliere almeno il numero intero più piccolo maggiore o uguale a per uno dei o . Se il numero di termini scelti è maggiore di . Se o allora dobbiamo scegliere esattamente termini. Ciò implica che . Solo con due ipotesi ( ) è dove ciò non si verifica. Ma dall'ultima equazione nell'articolo di Saunder questa condizione di uguaglianza implica:n(n-1)212×n(n-1)2=n(n-1)4j=1j=2n>4n-1n=4n=3n-1dj1=dj2==dj,n-1=dj,nn=2

P(Dj|H¯io)=ΣKiodjKhKΣKiohK=djioΣKiohKΣKiohK=djio=P(Dj|Hio)

Quindi, nel rapporto di verosimiglianza abbiamo:

P(D1(1)|Hio)P(D1(1)|H¯io)=P(D1|Hio)P(D1|H¯io)=1 OP(D2(1)|Hio)P(D2(1)|H¯io)=P(D2D3...,Dm|Hio)P(D2D3...,Dm|H¯io)=1

Per completare la dimostrazione, nota che se la seconda condizione è valida, il risultato è già dimostrato e solo un rapporto può essere diverso da 1. Se la prima condizione è valida, possiamo ripetere l'analisi sopra riassegnando e . Quindi avremmo non ha contribuito o è l'unico contributore. Avremmo quindi una terza rietichettatura quando non contribuiva, e così via. Pertanto, solo un set di dati può contribuire al rapporto di probabilità quando la condizione 1 e la condizione 2 sono valide e vi sono più di due ipotesi.D1(2)D2D2(2)D3...,DmD1,D2D2D1D2

* NOTA: una coppia aggiuntiva potrebbe non portare nuovi termini, ma questo sarebbe compensato da una coppia che portava 2 nuovi termini. es. prendi come primo [+2], [+1] e [+0], ma il prossimo termine deve avere per entrambi . Ciò aggiungerà due termini [+2]. Se non abbiamo bisogno di scegliere altro, ma per l '"altro" dobbiamo scegliere le 3 coppie che non sono . Questi sono e quindi vale l'uguaglianza, poiché tutti i numeri sono nell'insieme.dj1=dj2dj1=dj3dj2=dj3djK=djlK,l(1,2,3)n=4j(1,2),(2,3),(1,3)(1,4),(2,4),(3,4)(1,2,3,4)


Sto cominciando a dubitare dell'accuratezza di questa prova. Il risultato in matematica di Saunders implica solo vincoli non lineari su . Ciò rende solo gradi di libertà anziché . Tuttavia, per arrivare alle condizioni di è richiesto un argomento diverso. d j kndjKdjKn2nn(n-1)2
Probislogic,

0

Per la cronaca, ecco una prova un po 'più ampia . Contiene anche alcune informazioni di base. Forse questo è utile per gli altri che studiano l'argomento.

L'idea principale della dimostrazione è mostrare che le condizioni 1 e 2 di Jaynes implicano che per tutti tranne un set di dati . Mostra quindi che per tutti questi set di dati, abbiamo anche Quindi abbiamo per tutti tranne un set di dati, Il motivo per cui ho voluto includere la prova qui è che alcuni dei passaggi coinvolti non sono affatto ovvi, e bisogna fare attenzione a non usare nient'altro che condizioni 1 e 2 e la regola del prodotto (come molte altre prove implicitamente fanno). Il link sopra

P(DmK|HioX)=P(DmK|X),
mK=1,...,m
P(DmK|H¯ioX)=P(DmK|X).
P(DmK|HioX)P(DmK|H¯ioX)=P(DmK|X)P(DmK|X)=1.
include tutti questi passaggi in dettaglio. È sul mio Google Drive e farò in modo che rimanga accessibile.


Benvenuto in Cross Validated . La ringrazio per la risposta. Potete per favore modificare la risposta per espanderla, al fine di includere i punti principali del collegamento fornito? Sarà più utile sia per le persone che effettuano ricerche in questo sito sia nel caso in cui il collegamento si interrompa. A proposito, cogli l'opportunità di fare il tour , se non l'hai già fatto. Consulta anche alcuni suggerimenti su Come rispondere , sulla guida alla formattazione e sulla scrittura di equazioni utilizzando LaTeX / MathJax .
Ertxiem - ripristina Monica il

Grazie per il tuo commento. Ho modificato il post e ho disegnato i passaggi principali della prova.
dennis
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.