Stima della massima verosimiglianza della distribuzione congiunta dati solo conteggi marginali


12

Sia una distribuzione congiunta di due variabili categoriali , con . Supponiamo che da questa distribuzione siano stati estratti campioni, ma ci vengono dati solo i conteggi marginali, vale a dire per : X , Y x , y { 1 , , K } n j = 1 , , Kpx,yX,Yx,y{1,,K}nj=1,,K

Sj=i=1nδ(Xi=l),Tj=i=1nδ(Yi=j),

Qual è lo stimatore della massima verosimiglianza per , dato ? Questo è noto? Computazionalmente fattibile? Esistono altri approcci ragionevoli a questo problema oltre a ML? S j , T jpx,ySj,Tj


2
I margini in realtà non contengono informazioni * sulla distribuzione congiunta (in effetti questo è il punto delle copule). * o almeno quasi - ovviamente i margini contengono almeno alcune informazioni, poiché i conteggi interni non possono superare i margini in cui si verificano. Hai in mente una distribuzione articolare specifica? Perché hai usato il tag? Stai cercando una soluzione di massima entropia? maximum-entropy
Glen_b

Non ho molta familiarità con le copule. Valgono anche per il caso categorico? Cosa significherebbe che ogni distribuzione congiunta con gli stessi margini avrebbe la stessa probabilità? (Ho taggato l'entropia massima perché pensavo potesse essere rilevante.)
RS

Non abbiamo ancora un modello distributivo specificato, quindi non siamo in grado di calcolare . Ci sono numerose possibilità qui. Le copule esistono per il caso categorico ordinato (se non unico), ma il mio obiettivo nel sollevarlo era di motivare il motivo per cui i marginali non erano molto istruttivi in ​​generale. Per quanto riguarda il caso di conteggio categorico, Fisher ha trattato i margini come non informativi sull'articolazione, da cui l'esatto test Fisher-Irwin. Se vuoi la massima entropia, probabilmente puoi ottenere una soluzione di entropia massima, ma non so che sarà molto informativo su ...P(x|θ)
Glen_b -Reststate Monica

(ctd) ... struttura. In entrambi i casi ME o ML, penso che prima avrai bisogno di un qualche tipo di modello, che si tratti di multinomiale bivariato, ipergeometrico bivariato o qualcosa con più struttura. Vedi questa domanda , in cui l'autore inserisce un riferimento in una risposta. Potrebbe essere di aiuto.
Glen_b

1
Intendevo una distribuzione multinomiale bivariata generale. La domanda parla del caso in cui vengono fornite le somme della distribuzione e vediamo campioni dalla distribuzione congiunta. Qui abbiamo le somme del campione. Penso che il problema sia ben definito nel caso ML (la soluzione potrebbe non essere unica ma non lo so).
RS

Risposte:


4

Questo tipo di problema è stato studiato nel documento "Aumento dei dati nelle tabelle di contingenza multidirezionali con totali marginali fissi" di Dobra et al (2006). Let denota i parametri del modello, let denota la tabella di numeri interi non osservata per ogni coppia e lascia che sia l'insieme di tabelle di numeri interi il cui conteggio marginale uguale . Quindi la probabilità di osservare i conteggi marginali è: doven ( x , y ) C ( S , T ) ( S , T ) ( S , T ) p ( Sθn(x,y)C(S,T)(S,T)(S,T)p ( n | θ ) n θ θ

p(S,T|θ)=nC(S,T)p(n|θ)
p(n|θ)è la distribuzione di campionamento multinomiale. Questo definisce la funzione di probabilità per ML, ma la valutazione diretta è impossibile tranne che per piccoli problemi. L'approccio che raccomandano è MCMC, dove aggiorni alternativamente e campionando da una distribuzione di proposta e accettando la modifica in base al rapporto di accettazione di Metropolis-Hastings. Questo potrebbe essere adattato per trovare un massimo approssimativo su usando Monte Carlo EM. nθθ

Un approccio diverso userebbe metodi variazionali per approssimare la somma su . I vincoli marginali possono essere codificati come un grafico fattoriale e l'inferenza su potrebbe essere effettuata usando la propagazione delle aspettative. θnθ

Per capire perché questo problema è difficile e non ammette una soluzione banale, si consideri il caso . Prendendo come somma di riga e come somma di colonna, ci sono due possibili tabelle di conteggi: Pertanto la funzione di verosimiglianza è l' MLE per questo problema è che corrisponde all'assunzione della tabella a sinistra. Al contrario, la stima che otterresti assumendo l'indipendenza è S T [ 0 1 2 0 ]S=(1,2),T=(2,1)ST p(S,T | θ)=3 p 12 p 2 21 +6 p 11 p 21 p 22 p x , y = 3 1 / 3 ] = [ 2 / 9 1 / 9 4 / 9 2 / 9 ]

[0120][1011]
p(S,T|θ)=3p12p212+6p11p21p22
q x , y = [ 1 / 3 2 / 3 ] [ 2 /
p^x,y=[01/32/30]
qx,y=[1/32/3][2/31/3]=[2/91/94/92/9]
che ha un valore di probabilità inferiore.

Non è possibile ottenere una soluzione analitica?
Ben Kuhn,

θθ={θx,y}(x,y)

Non sospetterei che ci sia una soluzione analitica. Ho aggiunto un esempio per illustrare questo.
Tom Minka,

Grazie. Forse è vero asintoticamente? Quindi, il condizionamento sui totali dei margini è uguale al condizionamento sulle distribuzioni dei margini (dopo la normalizzazione) e la probabilità logaritmica per ciascuna tabella di numeri interi non osservata è proporzionale alla sua entropia. Forse qualcosa con AEP allora?
RS

1

Come è stato sottolineato da @Glen_b, questo non è specificato a sufficienza. Non penso che tu possa usare la massima verosimiglianza a meno che tu non possa specificarne completamente la verosimiglianza.

Se tu fossi disposto ad assumere l'indipendenza, allora il problema è abbastanza semplice (per inciso, penso che la soluzione sarebbe la massima soluzione di entropia che è stata suggerita). Se non sei disposto o in grado di imporre una struttura aggiuntiva nel tuo problema e desideri comunque un tipo di approssimazione ai valori delle celle, potresti usare i limiti della copula di Fréchet-Hoeffding . Senza ipotesi aggiuntive, non credo che tu possa andare oltre.


La probabilità in questo può essere multinomiale. Perché è insufficiente?
RS

A quanto ho capito, la probabilità è una funzione dei parametri dati i dati. Qui, non hai valori per ogni cella, solo i margini, quindi non hai una singola funzione dei parametri che puoi calcolare, e tanto meno massimizzare. Esistono in generale molte configurazioni di celle compatibili con i margini e ognuna darebbe una diversa probabilità.
F. Tusell,

1
Sì, ma va bene. I parametri sono , i dati sono i marginali. Posso ancora calcolare la probabilità dei marginali dati - è la somma su tutte le probabilità delle configurazioni delle celle che danno i marginali. Questa è una singola funzione che posso massimizzare. ppp
RS

1

px,ypx=ypx,ypy=xpx,y

Seguono cose sbagliate:

px,yX,YS1=S2=T1=T2=10

p=(120012),p=(14141414)

pxpy


p=(abcd)0<adp=(0B+un'c+un'd-un')


X,Y

H(p)=-ΣX,ypX,ylogpX,yΣXpX,y=pyΣypX,y=pXg(p)=0gX(p)=ΣypX,y-pXgy(p)=ΣXpX,y-py

H(p)=ΣKXYλKgK(p)

gK

1-logpX,y=λX+λypX,y=e1-λX-λy

ΣXpX,y=pyΣypX,y=pXe1/2-λX=pXe1/2-λy=py

pX,y=pXpy.

S1=S2=T1=T2=10p[[10,0],[0,10]]2-20pΣ0un'10Pr[[un',10-un'],[10-un',un']]104-20

Hai calcolato le probabilità in modo errato; per esempio, hai dimenticato di includere i coefficienti binomiali. Ma hai ragione nel dire che le due matrici danno diverse distribuzioni congiunte di conteggi marginali anche se danno la stessa distribuzione marginale di conteggi marginali. (Yikes!) Ci penserò di più.
Ben Kuhn,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.