Distribuzione asintotica del multinomiale


10

Sto cercando la distribuzione limitante della distribuzione multinomiale sui risultati. IE, la distribuzione di quanto segue

limnn12Xn

Dove Xn è una variabile casuale valore vettoriale con densità fn(x) per x tale che ixi=n , xiZ,xi0 e 0 per tutti gli altri x , dove

fn(x)=n!i=1dpixixi!

Ho trovato una forma nel teorema "Tutte le statistiche" di Larry Wasserman 14.6, pagina 237, ma per limitare la distribuzione dà a Normal una singolare matrice di covarianza, quindi non sono sicuro di come normalizzarlo. Potresti proiettare il vettore casuale nello spazio tridimensionale (d-1) per rendere la matrice di covarianza a pieno titolo, ma quale proiezione usare?

Aggiornamento 11/5

Ray Koopman ha un bel riassunto del problema del singolare gaussiano. Fondamentalmente, la matrice di covarianza singolare rappresenta una perfetta correlazione tra variabili, che non è possibile rappresentare con un gaussiano. Tuttavia, si potrebbe ottenere una distribuzione gaussiana per la densità condizionale, condizionata dal fatto che il valore del vettore casuale è valido (i componenti si sommano a n nel caso sopra).

La differenza per il gaussiano condizionale è che l'inverso è sostituito da pseudo-inverso e il fattore di normalizzazione usa "prodotto di autovalori diversi da zero" anziché "prodotto di tutti gli autovalori". Ian Frisce fornisce link con alcuni dettagli.

C'è anche un modo per esprimere il fattore di normalizzazione del gaussiano condizionale senza fare riferimento agli autovalori, ecco una derivazione


Cosa intendi esattamente limitando la distribuzione in questo caso?
Robby McKilliam,

cioè, quello che ottieni dal teorema del limite centrale, fammi aggiornare i dettagli
Yaroslav Bulatov,

1
Quello a cui ti riferisci è la distribuzione asintotica dello stimatore della massima verosimiglianza di un multinomiale. Inoltre, la prima equazione dovrebbe essere n ^ {- 1}, non n ^ {- 1/2}.
Simon Byrne,

1
Nella notazione sopra, per d = 2, X_n è il numero di teste dopo n lanci di monete, quindi è X_n / sqrt (n) che si avvicina a Normale, non X_n / n, no?
Yaroslav Bulatov,

1
Sì hai ragione. Mi stavo solo confondendo.
Simon Byrne,

Risposte:


6

La covarianza è ancora definita non negativa (quindi è una distribuzione normale multivariata valida ), ma non è definita positiva: ciò significa che (almeno) un elemento del vettore casuale è una combinazione lineare degli altri.

Di conseguenza, qualsiasi estrazione da questa distribuzione si troverà sempre su un sottospazio di . Di conseguenza, ciò significa che non è possibile definire una funzione di densità (poiché la distribuzione è concentrata sul sottospazio: pensare al modo in cui una normale univariata si concentrerà sulla media se la varianza è zero).Rd

Tuttavia, come suggerito da Robby McKilliam, in questo caso è possibile eliminare l'ultimo elemento del vettore casuale. La matrice di covarianza di questo vettore ridotto sarà la matrice originale, con l'ultima colonna e riga rilasciate, che ora sarà definita positiva e avrà una densità (questo trucco funzionerà in altri casi, ma devi stare attento a quale elemento si rilascia e potrebbe essere necessario rilasciarne più di uno).


Ciò che è un po 'insoddisfacente è la libertà di scelta, per ottenere una densità valida devo chiedere la distribuzione di A x dove A è una matrice di grado d-1 (d) x (d-1). L'errore di approssimazione CLT per finito n sarà equivalente per tutte le scelte di A? Non è chiaro per me
Yaroslav Bulatov,

1
Sì, l'errore dovrebbe essere sempre lo stesso. Tieni presente che l'ultimo elemento del vettore dipende funzionalmente dagli altri (d-1) elementi (sia nel campione finito che nei casi asintotici).
Simon Byrne,

Non è che l'ultimo elemento sia dipendente, il problema di Yaroslav è che non gli piace l'idea di scegliere quale elemento rilasciare. Sono d'accordo con la risposta che hai dato, ma penso anche che un po 'più di pensiero e cura siano richiesti qui.
Robby McKilliam,

@Yaroslav: Forse sarebbe bene avere un'idea di quale applicazione hai in mente qui, perché in questa fase ci sono potenzialmente molte risposte alla tua domanda.
Robby McKilliam,

1
Robby - l'applicazione che avevo in mente è qui mathoverflow.net/questions/37582/… Fondamentalmente gli integrali di gaussiano suggeriti da CLT forniscono un'approssimazione estremamente buona alle somme di coefficienti binomiali (per i piccoli n, anche meglio dell'integrazione diretta della rappresentazione Gamma!), quindi stavo vedendo se posso fare qualcosa di simile per ottenere somme approssimative di coefficienti multinomiali, di cui ho bisogno per ottenere limiti di errore non asintotici per vari installatori (come, massima probabilità)
Yaroslav Bulatov

2

Non ci sono problemi inerenti alla singolare covarianza qui. La tua distribuzione asintotica è la normale singolare. Vedi http://fedc.wiwi.hu-berlin.de/xplore/tutorials/mvahtmlnode34.html che fornisce la densità della normale singolare.


Tecnicamente, il problema è che la singolare matrice di covarianza significa che alcuni sottoinsiemi di variabili sono perfettamente correlati, quindi la densità di probabilità dovrebbe essere esattamente 0 in alcune aree, ma ciò non è possibile con un gaussiano. Una soluzione è invece guardare alla densità condizionale, condizionata dal fatto che la variabile casuale si trova in una regione fattibile. Questo sembra quello che stanno facendo nel link. Mai sentito il termine "G-inverso", immagino sia pseudo-inverso di Penrose-Moore?
Yaroslav Bulatov,

Mentre è vero che un gaussiano d-dimensionale convenzionale ha il supporto su tutto , il gaussiano singolare no. G-inverse è l'inverso generalizzato, e sì, credo che la definizione di Penrose-Moore funzioni qui. Penso che ci sia un CLT per le singole covarianze, affermando come previsto, la convergenza nella distribuzione al singolare CLT, anche se non riesco a trovare un riferimento in questo momento. d
Ian Fiske,

1

Mi sembra che la matrice di covarianza di Wasserman sia singolare, per vederla, moltiplicarla per un vettore di , cioè di lunghezza .[ 1 , 1 , 1 , , 1 ] dd[1,1,1,,1]d

Wikipedia offre comunque la stessa matrice di covarianza. Se ci limitiamo a una semplice distribuzione binomiale, il teorema del limite centrale standard ci dice che la distribuzione binomiale (dopo un adeguato ridimensionamento) converge alla normale man mano che diventa grande (vedi di nuovo Wikipedia ). Applicando idee simili dovresti essere in grado di dimostrare che un mulinomiale in scala appropriata converge nella distribuzione alla normale multivariata, cioè ogni distribuzione marginale è solo un binomio e converge alla distribuzione normale, e la varianza tra loro è nota.n

Quindi, sono molto fiducioso che scoprirai che la distribuzione di converge alla normale multivariata con media zero e covarianza dove è la covarianza matrice del multinomio in questione e è il vettore delle probabilità . C

Xnnpn
Cp[p1,,pd]
Cn
Cp[p1,,pd]

1
ma la matrice di covarianza del multinomiale in questione è singolare, l'hai mostrata tu stesso ...
Yaroslav Bulatov,

Oh, vedo il tuo problema! Uno degli elementi, ad esempio, il dipende completamente dagli altri. Probabilmente se tagli via l'ultima riga e colonna di otterrai che sono normalmente distribuiti, ma dovrò pensarci. Sicuramente questo è già stato risolto da qualche parte! C [ p 1 , p 2 , , p d - 1 ]dC[p1,p2,,pd1]
Robby McKilliam,

Un suggerimento che ho trovato è di usare ancora un gaussiano, ma usare pseudo-inverso invece di inverso e "prodotto di autovalori diversi da zero" al posto del determinante. Per d = 2 questo sembra dare la forma di densità corretta, ma il fattore di normalizzazione è disattivato
Yaroslav Bulatov

1

Non è vero cheper tutti dove è stata rimossa la matrice di covarianza multinomiale con l' -esima riga e colonna? Dal momento che questo è il caso, non capisco cosa intendi per "libertà di scelta" poiché qualsiasi "scelta" è equivalente.io , j S - io io|Si|=|Sj|i,jSii


Quelle matrici non sono uguali, ecco la matrice di covarianza yaroslavvb.com/upload/multinomial-covariance-matrix.png
Yaroslav Bulatov

Sì, questa è davvero la matrice della covarianza. Eliminare qualsiasi risultato con colonne e righe nello stesso termine di normalizzazione per il gaussiano era il mio punto. Forse mi manca qualcosa di ovvio?
jvdillon,

Ah ... non ha notato il segno determinante. Hm ... sembrano essere uguali su alcuni esempi che ho provato, c'è una semplice prova di questo? Gli autovalori non sono uguali tuttavia. La motivazione della domanda era scoprire se il teorema del limite centrale ti dà lo stesso errore di approssimazione per finito indipendentemente da quale dist multinomiale. componente che n
lasci

Probabilmente il modo più semplice per convincerti che è e la spina che per in . p i Spi=1jipjpiS
jvdillon,

A proposito, mi piace la tua applicazione di questa idea - da qui il mio interesse a rispondere.
jvdillon,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.