Come modellare la somma delle variabili casuali di Bernoulli per i dati dipendenti?


9

Ho quasi le stesse domande come questa: come posso modellare in modo efficiente la somma delle variabili casuali di Bernoulli?

Ma l'impostazione è abbastanza diversa:

  1. S=i=1,NXi , , ~ 20, ~ 0.1P(Xi=1)=piNpi

  2. Abbiamo i dati per i risultati delle variabili casuali di Bernoulli: ,Xi,jSj=i=1,NXi,j

  3. Se stimiamo la con la stima della massima verosimiglianza (e otteniamo ), risulta che è molto più grande di allora previsti dagli altri criteri:p M L E i P { S = 3 } ( p M L E i ) P { S = 3 } ( p M L E i ) - P e x p e c t e d { S = 3 } 0,05pip^iMLEP^{S=3}(p^iMLE)P^{S=3}(p^iMLE)P^expected{S=3}0.05

  4. Pertanto, e non possono essere considerati indipendenti (hanno una piccola dipendenza). X j ( j > k )XiXj (j>k)

  5. Ci sono alcuni vincoli come questi: e (noto), che dovrebbe aiutare con la stima di .Σ s 2 P { S = s } = A P { S }pi+1pis2P^{S=s}=AP{S}

Come potremmo provare a modellare la somma delle variabili casuali di Bernoulli in questo caso?

Quale letteratura potrebbe essere utile per risolvere il compito?

AGGIORNATO

Ci sono altre idee:

(1) È possibile supporre che la dipendenza sconosciuta tra inizi dopo 1 o più successi in serie. Quindi quando , e .i = 1 , K X i >0 p K + 1 p K + 1 p K + 1 < p K + 1Xii=1,KXi>0pK+1pK+1pK+1<pK+1

(2) Per usare MLE abbiamo bisogno del modello meno discutibile. Ecco una variante:

Σ i = 1 , k X i = 0 P { X 1 , . . . , X k , X k + 1 , . . . , X NP{X1,...,Xk}=(1p1)...(1pk) se per qualsiasi k if e e per qualsiasi k.i=1,kXi=0i = 1 , k - 1 X i = 0 X k = 1 P { X k + 1 = 1 , X k + 2 = 1 ,P{X1,...,Xk,Xk+1,...,XN}=(1p1)...pkP{Xk+1,...,XN}i=1,k1Xi=0Xk=1P{Xk+1=1,Xk+2=1,...,XN=1}pk+1pk+2...pN

(3) Poiché siamo interessati solo a , possiamo impostare (probabilità di successi per N- (k + 1) +1 somme dalla coda). E usa la parametrizzazioneP ' { x k + 1 , . . . , X N } P { i = 1 , k X i = s ; N - ( k + 1 ) + 1 = l } i = k + 1 , N X i P { P{S}P{Xk+1,...,XN}P{i=1,kXi=s;N(k+1)+1=l}i=k+1,NXiP{i=k,NXi=s;Nk+1=l}=ps,l

(4) Utilizzare MLE per il modello in base ai parametri e con per (e qualsiasi ) e alcuni altri vincoli nativi .p 0 , 1 , p 1 , 1 ; p 0 , 2 , p 1 , 2 , p 2 , 2 ; . . . p s , l = 0 s 6 lp1,...,pNp0,1,p1,1;p0,2,p1,2,p2,2;...ps,l=0s6l

Va tutto bene con questo piano?

AGGIORNATO 2

Alcuni esempi di distribuzione empirica (rosso) rispetto alla distribuzione di Poisson (blu) (le medie di poisson sono 2.22 e 2.45, le dimensioni del campione sono 332 e 259):P{S}

sample1 sample2

Per i campioni (A1, A2) con le punte di poisson 2.28 e 2.51 (le dimensioni del campione sono 303 e 249):

sample3 sample4

Per samlpe unito A1 + A2 (la dimensione del campione è 552):

campione 3 + campione 4

Sembra che una certa correzione a Poisson dovrebbe essere il modello migliore :).


2
Cosa sono gli ? Xi,j
chl

1
@Andrey Le formule in (2) e il secondo vincolo in (4) non hanno senso: cosa significano i cappelli in (4)? Che cos'è ? (Hai definito solo , non ) L'espressione in (4) è una somma di tre prodotti o qualcos'altro? S j SSSjS
whuber

Xi,j sono esiti casuali di Bernoulli (l'i-esito nella j-esima serie), è il j-esito della somma (la somma sulla serie). è la variabile casuale della somma; cappelli in (4) indicano le stime. Quindi c'è qualche informazione in più sulla somma dei valori più bassi di . Dispiace per la confusione. SjSS
Andrey,

Risposte:


3

Un approccio sarebbe quello di modellare le con un modello lineare generalizzato (GLM). Qui, dovresti formulare , la probabilità di successo -esimo processo come funzione (lineare logistica) della recente storia dell'osservazione. Quindi essenzialmente stai inserendo un GLM autoregressivo in cui il rumore è Bernoulli e la funzione di collegamento è logit. L'impostazione è:Xpii

pi=f(b+a1Xi1+a2Xi2+akXik) , dove

f(x)=11+exp(x) e

XiBernoulli(pi)

I parametri del modello sono , che possono essere stimati mediante regressione logistica. (Tutto quello che devi fare è impostare la tua matrice di progettazione usando la parte pertinente della cronologia delle osservazioni ad ogni prova e passarla in una funzione di stima della regressione logistica; la probabilità di log è concava quindi c'è un massimo globale unico per i parametri). Se i risultati sono effettivamente indipendenti, allora gli saranno impostati a zero; positivo significa che il successivo aumenta ogni volta che si osserva un successo.a i a i p i{b,a1,ak}aiaipi

Il modello non fornisce una semplice espressione della probabilità rispetto alla somma degli , ma questo è facile da calcolare mediante simulazione (filtro delle particelle o MCMC) poiché il modello ha una struttura markoviana semplice.Xi

Questo tipo di modello è stato utilizzato con grande successo per modellare le dipendenze temporali tra i "picchi" di neuroni nel cervello, e esiste una vasta letteratura sui modelli di processo dei punti autoregressivi. Vedi, ad esempio, Truccolo et al 2005 (sebbene questo documento utilizzi una probabilità di Poisson anziché una di Bernoulli, ma la mappatura dall'una all'altra è semplice).


1

Se la dipendenza è dovuta al raggruppamento, un modello composto di Poisson potrebbe essere la soluzione come modello di . Un riferimento in qualche modo casuale è questo di Barbour e Chryssaphinou.Sj

In una direzione completamente diversa, poiché indichi che è 20, e quindi relativamente piccolo, potrebbe essere quello di costruire un modello grafico di , ma non so se la tua configurazione e i tuoi dati lo rendono possibile. Come commenta @chl, sarà utile se descrivi quali sono gli .X i j X i , jNXiojXio,j

Se gli rappresentano misurazioni sequenziali, ad esempio nel tempo, e la dipendenza è correlata a ciò, una terza possibilità - e in alcuni casi estende un compromesso tra i due suggerimenti sopra - è quella di utilizzare un modello Markov nascosto di gli . X i , jXio,jXio,j


X iXio,j sono risultati casuali di Bernoulli. Ci scusiamo per l'imprecisione. Quindi, sono la somma dei punteggi per le squadre sportive per intervalli di tempo sequenziali uguali. Si scopre che dopo che il primo goal è stato segnato, le probabilità del prossimo goal in intervallo saranno diverse. Xio
Andrey,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.