K successi nelle prove di Bernoulli o esperimento cinematografico di George Lucas


23

Sto leggendo "The Drunkard's Walk" ora e non riesco a capirne una storia.

Eccolo:

Immagina che George Lucas realizzi un nuovo film di Star Wars e in un mercato di test decida di eseguire un esperimento folle. Rilascia lo stesso film con due titoli: "Star Wars: episodio A" e "Star Wars: episodio B". Ogni film ha una propria campagna di marketing e un programma di distribuzione, con i dettagli corrispondenti identici, tranne per il fatto che i trailer e le pubblicità di un film dicono "Episodio A" e quelli dell'altro, "Episodio B".

Ora ne facciamo una gara. Quale film sarà più popolare? Diciamo che guardiamo i primi 20.000 spettatori e registriamo il film che scelgono di vedere (ignorando quei fan sfegatati che andranno ad entrambi e poi insistono che ci fossero differenze sottili ma significative tra i due). Poiché i film e le loro campagne di marketing sono identici, possiamo modellare matematicamente il gioco in questo modo: immagina di allineare tutti gli spettatori di fila e di lanciare una moneta per ogni spettatore a sua volta. Se la moneta atterra in alto, vede l'episodio A; se la moneta atterra con la coda, è l'episodio B. Poiché la moneta ha le stesse possibilità di salire in entrambi i modi, potresti pensare che in questa guerra sperimentale al botteghino ogni film dovrebbe essere in testa per la metà del tempo.

Ma la matematica della casualità dice il contrario: il numero più probabile di cambiamenti nel lead è 0, ed è 88 volte più probabile che uno dei due film conduca attraverso tutti i 20.000 clienti di quanto, diciamo, il lead continui a oscillare "

Probabilmente, erroneamente, lo attribuisco a un semplice problema con le prove di Bernoulli e devo dire che non riesco a capire perché il leader non abbia oscillato in media! Qualcuno può spiegare?

Risposte:


22

Ecco un codice R per simulare l'esperimento di George Lucas:

B<-20000
steps<-2*rbinom(B,1,0.5)-1
rw<-cumsum(steps)
ts.plot(rw,xlab="Number of customers",ylab="Difference")

Eseguendolo, otteniamo immagini come queste:

inserisci qui la descrizione dell'immagine

dove la differenza tra i biglietti venduti tra A e B è sull'asse y.

Successivamente, abbiamo eseguito tali esperimenti di George Lucas simulati. Per ogni esperimento, calcoliamo la percentuale di tempo trascorso 0 , ovvero la proporzione di spettatori allineati per i quali il numero di biglietti venduti a A è maggiore o uguale al numero di biglietti venduti a B. Intuitivamente, dire che questa proporzione dovrebbe essere di circa 1 / 2 . Ecco un istogramma dei risultati:10,00001/2

inserisci qui la descrizione dell'immagine

La proporzione è in media, nel senso che il valore atteso è 1 / 2 , ma 1 / 2 è un valore improbabile rispetto a valori prossimi a 0 o 1 . Per la maggior parte degli esperimenti, le differenze sono positive o negative il più delle volte!1/21/21/201

La curva rossa è la funzione di densità della distribuzione arcoseno, noto anche come la distribuzioneBeta(1/2,1/2) . Ciò che è illustrato nella figura sopra è un teorema noto come la prima legge arscina per le passeggiate casuali , che dice che quando il numero di passi della semplice passeggiata casuale simmetrica si avvicina all'infinito, la distribuzione della proporzione di tempo trascorso sopra tende al distribuzione di arcsine. Un riferimento standard per questo risultato è la Sezione III.4 di Un'introduzione alla teoria della probabilità e alle sue applicazioni, Vol 1 di William Feller.0


Il codice R per lo studio di simulazione è

prop<-vector(length=10000)
for(i in 1:10000)
{
    steps<-2*rbinom(B,1,0.5)-1
    rw<-cumsum(steps)
    prop[i]<-sum(rw>=0)/B
}
hist(prop,freq=FALSE,xlab="Proportion of time spent above 0",main="George Lucas experiment")
curve(dbeta(x,1/2,1/2),0,1,col=2,add=TRUE)

Grazie! Ho installato R e vorrei ripetere tutti i passaggi: come posso eseguire 10.000 simulazioni e calcolare la percentuale di tempo trascorso?
andreister,

@andreister: ho modificato la mia risposta, aggiungendo il codice per la simulazione alla fine. Spero che lo trovi utile!
MånsT

Grazie, è molto utile! Per essere sicuro di aver capito tutto, ho creato pastebin.com/mtRdsPkP in base al tuo codice - puoi sfogliare?
andreister,

cumsumsumcumsumiio

(cont.) Queste sono le informazioni che ci interessano, dal momento che vogliamo vedere se il leader altalena. sumsommerebbe solo tutti gli 1 e gli -1, il che darebbe il risultato finale dopo che tutti i 20.000 spettatori sono stati calcolati (ovvero l'ultimo elemento del cumsumvettore).
Martedì

11

1/2tt=13/4t=3t

11

20,000

Se desideri calcolare alcune delle probabilità, devi contare qualcosa di simile alle camminate reticolari che non attraversano la diagonale. Esiste un ottimo metodo combinatorio che si applica alle camminate casuali (e al moto browniano) che non attraversano tale linea, chiamato principio di riflessione o metodo di riflessione . Questo è un metodo per determinare i numeri catalani . Ecco altre due applicazioni:

UN10,2009,800(20,0009,800)(10,200,9,800)BBB(9,799,10,201)(10,200,9,800)B(20,0009,800)(20,00010,201)=(20,0009,800)(20,0009,799)=(20,0009,800)40110,201.B(10,200,9,800),96%

A(20,00010,000)220,000/10,000π.A1100π150π1/89.56


Grazie! Devo capire la notazione prima di capire la tua risposta però! Che cosa significa "finisce davanti a 10.200-9.800" ecc., Da dove prendi i numeri? Come vedi 20K è la modalità?
andreister,

10,2009,80011,0009,00010,0019,999.20,00000p000

0

"è 88 volte più probabile che uno dei due film conduca attraverso tutti i 20.000 clienti di quanto, diciamo, il protagonista continui a oscillare continuamente"

In parole povere: uno dei film inizia presto. Deve, dato che il primo cliente deve andare in A o B. Quel film ha quindi la stessa probabilità di mantenere il comando come perderlo.

88 volte più probabile suoni, beh, improbabili, fino a quando non ricordi che il perfetto movimento alternato è molto improbabile. Il grafico nella risposta di MansT , che mostra questo graficamente, è affascinante, vero?

A parte: Personalmente, penso che sarà più di 88 volte, a causa del <buzzword-alert>marketing virale </buzzword-alert>. Ogni persona chiederà agli altri cosa hanno visto e hanno maggiori probabilità di visitare lo stesso film. Lo faranno anche inconsciamente: le persone hanno maggiori probabilità di unirsi a una lunga coda per andare a vedere qualcosa. Vale a dire non appena la casualità tra i primi clienti ha creato un leader, la psicologia umana lo manterrà come leader :-).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.