Problemi di compleanno inversi con collisioni multiple


9

Supponiamo che tu abbia avuto un anno alieno con una lunghezza sconosciuta N. Se hai un campione casuale di detti alieni e alcuni di loro condividono compleanni, puoi utilizzare questi dati per stimare la durata dell'anno?

Ad esempio, in un campione di 100, potresti avere due terzine (cioè due compleanni ciascuno condiviso da tre alieni) e cinque coppie e ottantaquattro singleton. Nella stima di N, il minimo assoluto è 91 e il massimo è illimitato, ma come troverei un valore atteso ragionevole?

Ipotesi includono cose come "tutti i compleanni sono ugualmente probabili".

A differenza di un'altra domanda a cui è stata data una risposta, ci sono collisioni conosciute nella stanza. Qualsiasi anno sufficientemente lungo avrà una forte probabilità di non avere collisioni per una stanza di alieni. Ma anni molto lunghi avranno scarse probabilità di collisioni e anni brevi avranno scarse probabilità di poche collisioni, fornendo così un intervallo (teorico) per le lunghezze degli anni più probabili.


3
La mia risposta a una versione speciale di questa domanda si generalizza facilmente (usando la distribuzione multinomiale): vedi stats.stackexchange.com/questions/252813 .
whuber

@Techhead In vari modi! L'approccio ovvio per la stima dei parametri da menzionare sarebbe la massima probabilità.
Glen_b


1
@whuber Ho visto quella domanda e il tuo commento, ma non ho visto come applicarla per la maggior parte a un campione con collisioni note. Non è difficile trovare la forma estesa, ma non so come troverei la somma logaritmica.
Techhead,

1
Sono d'accordo che la tua versione sia sufficientemente più complicata da non poter essere chiusa come duplicata.
whuber

Risposte:


2

Il valore di aspettativa di una distribuzione viene calcolato come . Per questo problema, vogliamo calcolare la distribuzione di dati alcuni criteri di collisione o trovare dati alcuni criteri di collisione, dove N E ( N ) = n = 0 p n n p n = P ( N = n ) .E(X)=ΣpioXioNE(N)=Σn=0pnnpn=P(N=n).

Supponiamo di avere alcuni criteri di collisione come indicato sopra e che sia la probabilità che i criteri di collisione siano soddisfatti, dato che la lunghezza dell'anno èQuindi può essere trovato semplicemente dividendo il numero di modi in cui i criteri di collisione possono essere soddisfatti per il numero di modi in cui i compleanni possono essere organizzati in generale. Una volta trovato per ogni possibile , l'unico pezzo mancante è la traduzione di in n . q n q n n q n p n .qnn.qnqnnqnpn.

Se assumiamo che sia proporzionale a , alloraPoiché , ePertanto, abbiamo solo bisogno di una formula per per risolvere questo problema.q n p n = α q n . n = 0 p n = 1 α n = 0 q n = 1 α = 1pnqnpn=αqn.Σn=0pn=1αΣn=0qn=1qnα=1Σn=0qn.qn

Per il tuo esempio, cerchiamo innanzitutto di trovare il numero di modi in cui possono verificarsi i criteri di collisione datoLa prima Singleton alieno può atterrare in qualsiasi giorno, quindi ci sono possibilità. Il singleton successivo può atterrare in qualsiasi giorno tranne il compleanno del primo alieno, quindi ci sono possibilità . Completando questo per i primi 84 singoli, otteniamo possibili modi in cui ciò può accadere. Nota che abbiamo anche 5 coppie e 2 terzine, quindi il "primo" alieno per ogni gruppo non deve atterrare neanche sulle coppie singleton. Questo porta a modi in cui questi alieni non si scontrano (la sintassi goffa è per una generalizzazione più semplice in seguito).n n - 1 n ( n - 1 ) ( n - 2 ) . . . ( n - 83 ) n ( n - 1 ) ( n - 2 ) . . . ( n - 84 - 5 - 2 + 1 )N=n.nn-1n(n-1)(n-2)...(n-83)n(n-1)(n-2)...(n-84-5-2+1)

Successivamente, il secondo alieno per una data coppia o terzina ha 91 scelte, il successivo ha 90, ecc., Il numero totale di modi in cui ciò può accadere dato il compleanno dei primi 91 alieni è . I restanti membri delle terzine devono cadere nei compleanni delle coppie e la probabilità che ciò accada è . Moltiplichiamo le probabilità per questi tutti insieme per ottenere un numero totale di possibili modi per soddisfare i criteri di collisione come:7 691(91-1)(91-2)...(91-7+1)7*6

rn=n(n-1)...(n-84-5-2+1)(84+5+2)(84+5+2-1)...(84+1)(5+2)(5+1)

A questo punto il modello è chiaro, se abbiamo singoletto, una coppia e una tripletta , sostituiamo 84 con 5 con e 2 con per ottenere una formula generalizzata. Penso che sia anche chiaro che il numero di possibili modi per i compleanni da concordare in è generale n m , dove m è il numero totale di stranieri nel problema. Pertanto, la probabilità di soddisfare i criteri di collisione è il numero di modi per soddisfare i criteri di collisione diviso per il numero di modi in cui gli alieni potrebbero nascere, o q n = r nb c a , b , cun'Bcun',B,cnm .qn=rnnm

Un'altra cosa interessante è apparsa nella formula di . Sia y n = n ( n - 1 ) . . . ( n - ( a + b + c ) + 1 ) = n !rne lascia cheznsia la porzione rimanente dirn inmodo chern=ynzn. Nota cheznè indipendente da n, quindi possiamo semplicemente scriverezn=zcome costante! Poichépn=qn/i = 0 qieqn=yn=n(n-1)...(n-(un'+B+c)+1)=n!(n-(un'+B+c))!znrnrn=ynznznzn=zpn=qn/Σio=0qio , possiamo effettivamente fattorizzarezdalla somma nel denominatore. A questo punto, si annulla con la porzione dal numeratore per ottenerepn=ynqn=zynnmz. Possiamo semplificareynulteriormente se poniamos=un+b+c(o può essere pensato come il numero di compleanno unici nel gruppo degli stranieri), in modo da ottenere:pn=ynnm/Σio=0(yioiom)ynS=un'+B+c

pn=n!(n-S)!nm/Σio=0(io!(io-S)!iom)

Ora abbiamo una formula (abbastanza) semplice per , e quindi una formula (abbastanza) semplice per E ( N ) , in cui l'unica ipotesi fatta è che P ( N = n ) è proporzionale a q n (la probabilità di incontro i criteri di collisione dato che N = n ). Penso che questo sia un presupposto giusto da fare e qualcuno più intelligente di me potrebbe anche essere in grado di dimostrare che questo assunto è associato a P ( N = n ) a seguito di una distribuzione multinomiale. A questo punto possiamo calcolare EpnE(N)P(N=n)qnN=nP(N=n) utilizzando metodi numerici o fare alcune ipotesi di approssimazione, poiché p n si avvicinerà a 0 mentre n si avvicina a .E(N)pnn


Sembra che tu proponga di calcolare il valore di aspettativa in base a una funzione di probabilità piuttosto che a una funzione di massa di probabilità. Era intenzionale?
Sesto Empirico

2

La risposta eccellente da Cody fornisce un bel modo per esprimere la funzione di verosimiglianza per N , il numero di giorni nell'anno (o la distribuzione a posteriori sulla base di una precedente piano) dal factoring fuori una parte della probabilità che è indipendente da N .

In questa risposta vorrei scriverlo in modo più conciso e fornire anche un modo per calcolare il massimo di questa funzione di probabilità (piuttosto che il valore atteso che è molto più difficile da calcolare).


Funzione di verosimiglianza per N

Il numero di modi per disegnare una sequenza di un'+2B+3c compleanni da una serie di n compleanni, con la limitazione che un' è il numero di singoli compleanni, B compleanni duplicati e c tripli compleanni è uguale a

rn=(na+b+c)number of ways topick m unique birthdaysout of n days(a+b+c)!a!b!c!number of ways todistribute m birthdaysamong groups of size ab and c(a+2b+3c)!1!a2!b3!cnumber of ordered ways toarrange specific single, duplicate, and triplicatesamong the aliens =n!(nabc)!×(a+2b+3c)a!b!c!1!a2!b3!c

e solo il primo termine sul lato destro dipende da n , quindi prendendo in considerazione gli altri termini finiamo con una semplice espressione per una funzione di verosimiglianza

L(n|a,b,c)=n(a+2b+3c)n!(nabc)!=nmn!(ns)!P(a,b,c|n)

dove seguiamo la notazione di Cody e usiamo m per indicare il numero di alieni e s il numero di compleanni unici.


Stima della massima verosimiglianza per N

Possiamo usare questa funzione di verosimiglianza per derivare la stima di massima verosimiglianza per N .

Nota che

L(n)=L(n1)(n1n)mnns

e il massimo si verificherà poco prima della n per la quale

(n1n)mnns=1

o

s=n(1(11/n)m)

che è per n grande approssimativamente (usando una serie di Laurent che puoi trovare sostituendo x=1/n e scrivi la serie di Taylor per x nel punto x=0 )

sk=0l(mk)(n)k+O(n(l+1))

Utilizzando solo il termine del primo ordine smm(m1)2n ottieni:

n1(m2)ms

Utilizzando anche il termine del secondo ordine smm(m1)2n+m(m1)(m2)6n2 ottieni:

n2(m2)+(m2)2-4(m-S)(m3)2(m-S)

m=100S=91n1550n2515.1215n=516,82n=516

confrontando l'approssimazione con il vero MLE

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.