Aiutami a calcolare quante persone verranno al mio matrimonio! Posso attribuire una percentuale a ciascuna persona e aggiungerla?


37

Sto organizzando il mio matrimonio. Vorrei stimare quante persone verranno al mio matrimonio. Ho creato un elenco di persone e la possibilità che parteciperanno in percentuale. Per esempio

Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30%

Ho un elenco di circa 230 persone con percentuali. Come posso stimare quante persone parteciperanno al mio matrimonio? Posso semplicemente sommare le percentuali e dividerlo per 100? Ad esempio, se invito 10 persone con ciascuna una probabilità del 10% di venire, posso aspettarmi 1 persona? Se invito 20 persone con una probabilità del 50% di venire, posso aspettarmi 10 persone?

AGGIORNAMENTO: 140 persone sono venute al mio matrimonio :). Usando le tecniche descritte di seguito ho previsto circa 150. Non troppo malandato!


43
Non vedo figure per la persona che stai sposando. Questa è la quantità più importante.
Nick Cox,

6
Ho usato la tua tecnica per il mio matrimonio e ha funzionato bene; abbiamo previsto circa 80 persone e ne abbiamo ottenute circa 85. Noto che una volta che hai tutte quelle persone nel tuo foglio di calcolo, puoi anche utilizzare lo stesso foglio di calcolo per tenere traccia di cose come quelle a cui hai inviato note di ringraziamento e così via.
Eric Lippert,

2
Rilevante: timharford.com/2013/10/guest-list-angst-a-statistical-approach . Per quello che vale, ho scelto il link al blog personale dell'autore ma l'articolo è tratto dalla sua rubrica sul Financial Times.
Steve Jessop,

@EricLippert Ho provato qualcosa di simile per il mio matrimonio ma non ho avuto altrettanto successo. Si è verificato un temporale molto grave il giorno e tutti <30% ish con un'ora di pendolarismo o più non hanno mostrato.
OSE,

3
@NickCox Inoltre hanno dimenticato il proprio.
JFA,

Risposte:


32

Supponendo che le decisioni delle persone invitate a venire al matrimonio siano indipendenti, il numero di ospiti che verranno al matrimonio può essere modellato come la somma delle variabili casuali di Bernoulli che non hanno necessariamente identiche probabilità di successo. Ciò corrisponde alla distribuzione binomiale di Poisson .

Lascia che sia una variabile casuale corrispondente al numero totale di persone che verranno al tuo matrimonio tra invitati. Il numero previsto di partecipanti è in effetti la somma delle probabilità individuali di '' presentazione '' , ovvero La derivazione degli intervalli di confidenza non è semplice data la forma della funzione di massa di probabilità . Tuttavia, sono facili da approssimare con le simulazioni Monte Carlo .XNpi

E(X)=i=1Npi.

La figura seguente mostra un esempio della distribuzione del numero di partecipanti al matrimonio in base a 10000 scenari simulati (a destra) utilizzando alcune false probabilità di presentazione per le 230 persone invitate (a sinistra). Il codice R utilizzato per eseguire questa simulazione è mostrato di seguito; fornisce approssimazioni di intervalli di confidenza.

inserisci qui la descrizione dell'immagine

## Parameters
N      <- 230    # Number of potential guests
nb.sim <- 10000  # Number of simulations

## Create example of groups of guests with same show-up probability
set.seed(345)
tmp    <- hist(rbeta(N, 3, 2), breaks = seq(0, 1, length.out = 21))
p      <- tmp$breaks[-1]    # Group show-up probabilities
n      <- tmp$counts        # Number of person per group

## Generate number of guests by group
guest.mat <- matrix(NA, nrow = nb.sim, ncol = length(p))
for (j in 1:length(p)) {
    guest.mat[, j] <- rbinom(nb.sim, n[j], p[j])
}

## Number of guest per scenario
nb.guests <- apply(guest.mat, 1, sum)

## Result summary
par(mfrow = c(1, 2))
barplot(n, names.arg = p, xlab = "Probability group", ylab = "Group size")
hist(nb.guests, breaks = 21, probability =  TRUE, main = "", xlab = "Guests")
par(mfrow = c(1, 1))

## Theoretical mean and variance
c(sum(n * p), sum(n * p * (1-p)))
#[1] 148.8500  43.8475

## Sample mean and variance
c(mean(nb.guests), var(nb.guests))
#[1] 148.86270  43.23657

## Sample quantiles
quantile(nb.guests, probs = c(0.01, 0.05, 0.5, 0.95, 0.99))
#1%     5%    50%    95%    99% 
#133.99 138.00 149.00 160.00 164.00 

1
Caspita è fantastico. Che tipo di simulazione è esattamente questo?
Behacad,

4
È una simulazione Monte Carlo
QuantIbex,

Come si trasforma la "dimensione del gruppo" in numero di ospiti? Ho una figura come la tua a sinistra, ma non sono sicuro di come trasformarla in figura a destra ...
Behacad,

Questo viene fatto nelle righe da 11 a 18 del codice fornito nella risposta. Per lo scenario j, ho generato il numero di "show-up" per ciascuno dei 20 gruppi di probabilità usando una distribuzione binomiale e la probabilità di presentarsi di quel gruppo.
QuantIbex,

18

Come è stato sottolineato, le aspettative si aggiungono semplicemente.

Tuttavia, sapendo che l'aspettativa non è molto utile, è anche necessario avere un'idea della probabile variazione che lo circonda.

Ci sono tre cose di cui devi preoccuparti:

  • variazione delle persone intorno alle loro aspettative (una persona con il 60% di probabilità di venire non raggiunge effettivamente le proprie aspettative; sono sempre al di sopra o al di sotto di essa)

  • dipendenza tra le persone. Le coppie che potrebbero venire entrambe tenderanno a frequentare entrambe o nessuna delle due. I bambini piccoli non parteciperanno senza i loro genitori. In alcuni casi, alcune persone potrebbero evitare di venire se sanno che ci sarà un'altra persona.

  • errore nella stima delle probabilità. Quelle probabilità sono solo ipotesi; potresti voler considerare l'effetto di ipotesi alquanto diverse (forse le valutazioni di qualcun altro su quei numeri)

Il primo è suscettibile di calcolo, mediante approssimazione normale o tramite simulazione. Il secondo potrebbe essere simulato in base a vari presupposti, specifici per le persone, o considerando una certa distribuzione delle dipendenze. (Il terzo elemento è più difficile.)


Modificato per rispondere alle domande di follow-up nei commenti:

Se capisco correttamente il tuo fraseggio, per la famiglia di 4 persone, hai una probabilità del 50% su ognuna di 4 persone o nessuna. Questo è un numero atteso di 2, certamente, ma vorresti avere un'idea della variabilità anche attorno alle aspettative, nel qual caso probabilmente vorrai mantenere la situazione attuale del 50% dello 0/50% di 4.

Se riesci a partizionare tutti in gruppi indipendenti, una buona prima approssimazione (con molti di questi gruppi) sarebbe quindi quella di aggiungere i mezzi e le varianze tra i gruppi indipendenti e quindi trattare la somma come normale (forse con correzione della continuità). Un approccio più accurato sarebbe quello di simulare il processo o calcolare la distribuzione esattamente tramite convoluzione numerica; mentre entrambi gli approcci sono semplici, questo è un livello di precisione non necessario per questa particolare applicazione, dato che ci sono già così tanti strati di approssimazione - è come dire le dimensioni di una stanza al piede più vicino e quindi calcolare quanta vernice avrai bisogno al millilitro più vicino: la precisione aggiuntiva è inutile.

Quindi immagina (per semplicità) che avevamo quattro gruppi:

1) gruppo A (1 persona) - 70% di possibilità di partecipazione

2) gruppo B (1 persona) - 60% di possibilità di partecipazione

3) gruppo C (famiglia di 4) - 0: 0,5 4: 0,5 (se qualcuno rimane a casa, nessuno verrà)

4) gruppo D (coppia di 2) - 0: 0,4 1: 0,1 2: 0,5 (ovvero 50% di probabilità di entrambi, più 10% di probabilità esattamente uno verrà, ad esempio se l'altro ha impegni di lavoro o è malato)

Quindi otteniamo i seguenti mezzi e varianze:

      mean   variance
  A    0.7     0.21
  B    0.6     0.24
  C    2.0     4.0
  D    1.1     0.89

 Tot   4.4     5.34

Quindi un'approssimazione normale sarà piuttosto approssimativa in questo caso, ma suggerirebbe che più di 7 persone sarebbero piuttosto improbabili (nell'ordine del 5%) e che 6 o meno si verificherebbero circa il 75-80% delle volte.

[Un approccio più accurato sarebbe simulare il processo, ma sul problema completo piuttosto che sull'esempio ridotto questo probabilmente non è necessario poiché ci sono già così tanti strati di approssimazione.]


Una volta che hai la tua distribuzione combinata che incorpora tali dipendenze di gruppo, potresti voler applicare qualsiasi fonte di dipendenza articolare complessiva (come il maltempo) o potresti semplicemente assicurarti o addirittura ignorare tali eventualità, a seconda delle circostanze .


5
+1 per menzionare le dipendenze. Questi sorgono per ragioni diverse dalle relazioni interpersonali, come le condizioni meteorologiche e di viaggio. Molti di essi inducono correlazioni positive - che ampliano il campo di incertezza. Se le stime verranno utilizzate per fornire logistica (pasti, posti e così via), è importante valutare accuratamente la variazione. Anche se in un'applicazione per matrimoni non si può fare molto di più che fare un'ipotesi istruita, avere una comprensione qualitativa di questi fenomeni statistici può portare a ipotesi migliori.
whuber

@whuber Un buon punto su altre fonti di dipendenza, come il tempo. In alcune circostanze, tali cose possono facilmente sommergere gli effetti che menziono.
Glen_b -Restate Monica

Come potrei facilmente prendere in considerazione la dipendenza? Ad esempio, se conosco una coppia con due figli e mi aspetto che i genitori abbiano una probabilità del 50% di venire. So che porteranno i loro figli se verranno. Si risparmia attribuire il 50% a ogni persona e fondamentalmente supporre che stanno arrivando 2 persone?
Behacad,

2
@ Behacad: se sai che è una questione di tutto o nessuno con un determinato gruppo, potresti semplicemente stimare la probabilità che il gruppo arrivi come una singola unità e ponderi il gruppo in base al numero di individui in esso. Concordo sul fatto che anche i margini di errore dovrebbero essere inclusi nelle stime.
Nick Stauner,

Grazie. Ho un tavolino con percentuali e quantità di persone con quella percentuale, ma non so esattamente cosa fare ora. Che cosa devo aggiungere? Quali variazioni? (100% -52, 90% -21, 80% -34, 70% -16,60% -32,50% -35,40% -25,30% -11,20% -22,10% -15 , 0% -9)
Behacad,

5

(Ignora il mio precedente commento su questo - mi sono appena reso conto che stavo confondendo l'aspettativa con qualcos'altro.) Dato che stai essenzialmente cercando di trovare l'aspettativa del numero di persone che si presentano, puoi teoricamente aggiungere la probabilità che ogni persona mostri fino a farlo.

01

Tuttavia, questo ti dà solo il valore atteso - senza ulteriori assunzioni sembrerebbe difficile stimare cose come la varianza delle persone che si presentano, in particolare perché è abbastanza ragionevole presumere che la persona A che si presenta non sia necessariamente indipendente dalla persona B che si presenta.

A parte questo, ecco un articolo della BBC vagamente rilevante.


Grazie! Quindi, solo per confermare, se penso che 10 persone abbiano una probabilità del 10% di venire, posso immaginare che 1 persona verrà, per esempio.
Behacad,

In teoria sì, ma sembra difficile costruire qualcosa di più utile (ad esempio intervalli di confidenza) senza ulteriori ipotesi sulle cose.

Grazie. Come potrei arrivare ad intervalli di confidenza?
Behacad,

Che non sono completamente sicuro per una serie di motivi. (Probabilmente dovrei dedicare più tempo a cercare alcune cose per dare una risposta più dettagliata al riguardo.)

4

Per grandi numeri, l'80% è quello che ti aspetteresti. Questa può essere una situazione in cui un'analisi dettagliata, come si propone, aggiunge solo errori ai calcoli.
Ad esempio, la potenziale presenza di Marc è davvero 1/3 di quella di Joseph? E Joseph è davvero il 30% o potrebbe essere il 25%? Le cose accadono quando si raggiungono numeri grandi che rendono semplicemente l'80% più valido di tutta questa analisi. Sono appena tornato da un matrimonio. 550 invitati. 452 hanno partecipato. Allo scopo di pianificare la sala e iniziare a parlare con il catering, la stima iniziale di 440 andava bene.

Posso offrire una linea dal mio brindisi alla coppia? "Ricorda, se tua moglie è felice, ma tu non sei felice, sei ancora molto più felice che se tua moglie è infelice, ma tu sei felice."


Grazie! Una preoccupazione è che le persone verranno da ogni parte e da varie distanze. Alcuni abbastanza lontani, altri in fondo alla strada.
Behacad,

3
Questa cifra potrebbe dipendere dalla cultura.
Juho Kokkala,

@Juho - potrebbe essere. Sono negli Stati Uniti e nel mio recente esempio, è stato un matrimonio di destinazione per circa la metà degli invitati, cioè il matrimonio è stato nella città natale della sposa. Mi chiedo quali differenze culturali avrebbero un impatto sull'affluenza, ma sospetto che tu abbia ragione.
JTP - Scusati con Monica il

4
Questo è un meraviglioso esempio di uno stimatore che esiste in teoria ma sembra insolito in pratica (fino a quando non cerchi questo tipo di cose): dato qualsiasi set di dati, restituisce un numero predeterminato (80% in questo caso). È facile da calcolare, molto economico (i costi di raccolta dei dati possono essere ridotti a zero) e ha varianza zero. È Bayes (per un precedente atomico) ed è ammissibile. Ci saranno ancora domande fastidiose sulla sua propensione e coerenza che possono essere difficili da affrontare e che non andranno via evitando una "analisi dettagliata".
whuber

2

Come statistico appena sposato, ti dirò che JoeTaxpayer ha la risposta giusta. La cifra dell'80% mi sembra un po 'alta, anche se potrebbe essere precisa se la maggior parte delle persone sono locali (la nostra era un matrimonio di destinazione e siamo atterrati più vicini al 65%).

Tuttavia, stai assumendo molta variabilità nelle probabilità precedenti a cui la gente frequenta, penso più di quanto esista davvero. Supponendo che non inviti persone a cui non ti piace attivamente, dovresti presumere che quasi tutti verranno per chi è nei loro mezzi e non hanno un conflitto (in senso lato), ma almeno il 10-20% Avrà qualcosa che impedisce loro di partecipare. Per coloro che devono viaggiare, ciò aumenta il tempo e il denaro necessari, quindi il 30-35% dei viaggiatori non parteciperà (a seconda della distanza). Altrimenti, mantieni le probabilità costanti (anche se i tuoi genitori dicono "oh così e così non voleranno fino ad Austin, vogliamo solo invitarli ..."). Se stai ricevendo un ricevimento divertente, specialmente con un open bar, le persone generalmente non lo salteranno a meno che non debbano farlo.

Comunque, congratulazioni per essermi sposato. Ora per quanto riguarda la probabilità che tu rimanga sposato, questa è sempre una buona lettura: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf

:-)


1

Aggiungi tutte le probabilità, ecco il tuo numero previsto di persone a venire.

Pii1iPi1i

Naturalmente, supponiamo che il fatto che qualcuno arrivi o meno non dipenda dalla presenza di altre persone. Questa ipotesi è semplicemente sbagliata. Considera le coppie, sono altamente correlate.

2×1iPiPi


1

Per il mio matrimonio, ho fatto due elenchi: probabile che parteciperà (80%) e che difficilmente parteciperà (20%). Indipendentemente da una valutazione più raffinata per qualsiasi motivo, ho assegnato tutti gli invitati a uno dei due gruppi. Ero fuori da 2 persone. N = 1. Puramente euristico.


Posso chiedere? Qual è stata la percentuale di partecipazione finale?
JTP - Scusati con Monica il

Il 72% ha risposto di sì, ma dimentico quanti giorni di annullamenti.
michaelcarniol,

0

Ho notato che nessuno ha sottolineato che non è necessario dividere per 100. Le tue percentuali possono essere viste come parti attese di una persona da mostrare, con la consapevolezza che, come il gatto di Schrödinger, non otterrai parti di una persona in presenza o meno in presenza, ma lo stato di presenza di ogni persona sarà completamente risolto al momento dell'evento.

Poiché l'intervallo delle tue percentuali va dallo 0% (nessuna delle persone che si presentano) al 100% (tutte le persone che si presentano), nei tuoi due esempi che coinvolgono 10 e 20 persone, hai sommato il valore atteso per la porzione di ciascuna persona da mostrare, e ha ottenuto un numero le cui unità erano "persone".

L'equazione di spicco nella superba risposta di QuantIbex mostra che la somma delle percentuali si traduce nel numero previsto di persone all'evento, senza alcuna divisione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.