Probabilità di cinque bambini della stessa classe con lo stesso nome


10

Sui forum sui nomi dei bambini, i futuri genitori ripetono continuamente una versione della loro Paura di Jennifer: "Non voglio che mio figlio sia uno dei 5 nella sua classe con il suo nome". Il fatto è che nessun nome si avvicina più a quel tipo di popolarità, e anche al culmine della mania di Jennifer, non ne hai avuti cinque in una classe. Vorrei una sorta di risposta per questi genitori su quanto sarebbe improbabile una tale coincidenza di ripetizione del nome.

Utilizzando i dati completi del nome del bambino della Social Security Administration ( https://www.ssa.gov/oact/babynames/limits.html ), qualcuno può dirmi come capire le possibilità di una classe di scuola elementare negli Stati Uniti con cinque bambini con lo stesso nome? (Per semplicità, per "stesso nome" intendo lo stesso ortografia e per "classe di scuola" intendo tutti i bambini nati nello stesso anno.) Non sto specificando una dimensione della classe, ma dovrebbe sicuramente essere maggiore di 4 . :-)


1
I post sui nomi dei bambini sono un tema ricorrente nel blog di Andrew Gelman. In nessuno dei post che ho trovato sul suo sito discute la tua domanda specifica. Fa un link a un "blog sul nome del bambino" in cui potresti avere più fortuna nel ricevere una risposta. andrewgelman.com/2005/09/07/baby_name_blog
Mike Hunter

Penso che potresti mettere insieme qualcosa usando la distribuzione multinomiale con probabilità di successo, i primi venti nomi estratti da dati del censimento come questo .
Antoni Parellada,

L'SSA fornisce dati sul numero di bambini nati con un nome? Sto solo trovando informazioni sui ranghi che ovviamente scarta alcune informazioni utili.
Sycorax dice di reintegrare Monica il

6
@AntoniParellada Penso che la realtà della situazione sia ancora più sottile: dal momento che il sistema scolastico americano è fortemente separato dal reddito e dalla razza, penso che le statistiche nazionali avranno una scarsa corrispondenza con le classi reali.
Sycorax dice di reintegrare Monica il

3
Quando ero uno studente in una (piccola) scuola elementare, avevamo tre Johns in una classe molto piccola (penso che ragazzi e ragazze messi insieme fossero solo circa 14). Un anno ci siamo uniti all'anno precedente per fare una lezione a grandezza naturale ... e abbiamo ottenuto un quarto John. Ora John era piuttosto comune allora, ma non così comune. (In termini di numero originale, tre sarebbero quasi fastidiosi quanto cinque). La possibilità che un determinato nome venga duplicato più volte sarebbe molto bassa, ma la possibilità che un nome appaia più volte sarà molto più alta.
Glen_b -Restate Monica

Risposte:


9

Tutti i dati possono essere trovati qui . Ogni valore nella tabella rappresenta la probabilità che dato un campione di 25 persone da quella posizione e quell'anno di nascita, 5 di loro condividano un nome.

Metodo : ho usato il PDF binomiale su ogni nome per trovare la probabilità che ogni data classe di 25 persone avesse 5 persone che condividevano un nome:

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

Pn(5+ kids share name)= namesk=5n(nk)pik(1pi)nk

Ad esempio, se ci sono 4.000.000 di bambini in totale e 21.393 di Emily, allora la probabilità che ci siano 5 Emily in una data classe con 25 studenti è Binomiale (25, 5, 0,0053) = 0,0000002. Sommare tutti i nomi non fornisce una risposta esatta, perché secondo il principio di inclusione / esclusione , dobbiamo anche tenere conto della possibilità di avere più gruppi di 5 persone che condividono nomi. Tuttavia, poiché queste probabilità sono praticamente zero per tutti gli scopi pratici, le ho considerate trascurabili, e quindi .P(Ai)P(Ai)

Aggiornamento: come molte persone hanno sottolineato, c'è una notevole varianza nel tempo e tra gli stati. Quindi ho eseguito lo stesso programma, su base STATO PER STATO e nel tempo. Ecco i risultati (la probabilità nazionale è rossa, i singoli stati sono neri):

inserisci qui la descrizione dell'immagine

È interessante notare che il Vermont (il mio stato d'origine) è stato costantemente uno dei luoghi più probabili per questo negli ultimi decenni.


3
Qualche possibilità che potresti spiegare come hai ottenuto questi numeri? Non hai bisogno di sminuire molto - ho una laurea in matematica e so dove cercare le cose - ma mi piacerebbe davvero conoscere il tipo di ragionamento che porta effettivamente alle probabilità (invece dei sospiri scoraggiati).
JPmiaou,

1
Questo presuppone che i nomi vengano dati a caso con le stesse probabilità , cosa semplicemente non vera . Anche l'esperienza della vita reale mostra che ci sono molte più classi con bambini con gli stessi nomi di 1 su 200!
Tim

4
Ottengo risultati leggermente diversi, ma sono vicini. Non vale la pena discutere, tuttavia, perché la variazione geografica e temporale dei risultati è enorme. La risposta è cambiata di due ordini di grandezza dal 1910 e varia di un ordine di grandezza tra gli stati. Poiché quasi nessuna classe di scuola elementare viene disegnata da tutti gli Stati Uniti, il modello di selezione casuale dall'elenco dei nomi nazionali è inappropriato.
whuber

2
(1) Guarda gli altri anni nel file nazionale che hai scaricato. (2) Guarda i file di stato disponibili sullo stesso sito.
whuber

2
Sì, il grafico delle probabilità nel tempo è drammatico: ha iniziato un forte declino entro il 1980. Ma la variazione di stato è davvero molto ampia, come ci si aspetterebbe: i nomi variano geograficamente e si raggruppano fortemente per etnia, reddito e altri fattori demografici. (+1 per la tua indagine estesa sullo stato e la variazione del tempo, BTW.)
whuber

0

si prega di consultare il seguente script Python per Python2.

La risposta è ispirata dalla risposta di David C.

La mia risposta finale sarebbe, la probabilità di trovare almeno cinque Jacobs in una classe, con Jacob come il nome più probabile secondo i dati di https://www.ssa.gov/oact/babynames/limits.html "Dati nazionali "dal 2006.

La probabilità viene calcolata secondo una distribuzione binomiale con Jacob-Probability come probabilità di successo.

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

Max. probabilità per almeno cinque bambini con lo stesso nome su 25: 4.7e-07 per nome Jacob

Max. probabilità per almeno cinque bambini con lo stesso nome su 50: 1.6e-05 per il nome Jacob, ovviamente.

Max. probabilità per almeno cinque bambini con lo stesso nome su 100: 0.00045 per il nome Jacob, ovviamente.

Con un fattore 10 uguale a quello di David C. Grazie. (La mia risposta non somma tutti i nomi, potrebbe essere discussa)


Questa risposta non sembra rispondere alla domanda sulla possibilità che un nome appaia cinque o più volte in una classe.
whuber

1
@feinmann Credo che prendere la somma su tutti i nomi sia appropriato perché la probabilità di avere due o più insiemi di 5 persone con lo stesso nome in una classe è quasi zero ed è trascurabile per tutti gli scopi pratici. Cioè, secondo il principio di inclusione / esclusione , se ignoriamo questa possibilità, alloraP(Ai)P(Ai)
David C

2
No, non hai risposto alla domanda mentre l'hai appena formulata. La possibilità che un nome appaia cinque o più volte è molto maggiore della probabilità massima che un determinato nome appaia cinque o più volte.
whuber

3
Come sottolinea @whuber, "5 Jacobs" è un argomento più debole rispetto a "5 di un certo nome", ma può comunque essere utile nelle discussioni sui nomi dei bambini: "Ecco la probabilità di cinque bambini con il nome più popolare. usando il nome più popolare, quindi la tua probabilità è ancora inferiore. "
JPmiaou,

2
Non è esattamente , perché le possibilità non si escludono a vicenda: potresti avere 5 o più Thomas e 5 o più Richard ( e forse anche 5 o più Henrys) in una singola classe. Quindi è un limite superiore. @DavidC sostiene in un commento che tali eventi hanno probabilità trascurabili.
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.