C'è un buon caso per avere un gran numero di bin, ad esempio bin per ogni possibile valore, ogni volta che si sospetta che il dettaglio di un istogramma non sia rumore, ma struttura fine interessante o importante.
Questo non è direttamente collegato alla motivazione precisa per questa domanda, che vuole una regola automatizzata per un numero ottimale di bin, ma è rilevante per la domanda nel suo insieme.
Passiamo subito agli esempi. Nell'arrotondamento demografico delle età riportate è comune, soprattutto ma non solo nei paesi con scarse competenze alfabetiche. Ciò che può accadere è che molte persone non conoscono la loro data esatta di nascita o che ci sono ragioni sociali o personali per sottovalutare o esagerare la loro età. La storia militare è piena di esempi di persone che raccontano bugie sulla loro età sia per evitare che per cercare servizio nelle forze armate. In effetti molti lettori conosceranno qualcuno che è molto timido o altrimenti non abbastanza sincero sulla loro età, anche se non mentono al riguardo per un censimento. Il risultato netto varia ma, come già suggerito, di solito è arrotondato, ad esempio le età che terminano con 0 e 5 sono molto più comuni delle età di un anno in meno o più.
Un fenomeno simile di preferenza delle cifre è comune anche per problemi abbastanza diversi. Con alcuni metodi di misurazione vecchio stile, l'ultima cifra di una misurazione riportata deve essere misurata a occhio mediante interpolazione tra i voti graduati. Questo era uno standard lungo in meteorologia con termometri a mercurio. È stato scoperto che alcune cifre segnalate collettivamente sono più comuni di altre e che individualmente molti di noi hanno firme, un modello personale di favorire alcune cifre piuttosto che altre. La consueta distribuzione di riferimento qui è l'uniforme, cioè finché l'intervallo delle misurazioni possibili è molte volte maggiore rispetto all '"unità" di misurazione, si prevede che le cifre finali si verifichino con uguale frequenza. Quindi se le temperature di ombra riportate potrebbero coprire un intervallo di (diciamo) 50 ⋯∘C le ultime dieci cifre, frazioni di un grado .0, .1, , .8, .9 dovrebbero verificarsi ciascuna con probabilità 0.1. La qualità di questa approssimazione dovrebbe essere buona anche per un intervallo più limitato.⋯
Per inciso, guardare le ultime cifre dei dati riportati è un metodo semplice e valido per verificare la presenza di dati fabbricati, uno che è molto più facile da capire e meno problematico rispetto al controllo attualmente alla moda delle prime cifre con un appello alla Legge di Benford.
Il risultato per gli istogrammi dovrebbe ora essere chiaro. Una presentazione a punta può servire per mostrare, o più in generale per verificare, questo tipo di struttura fine. Naturalmente, se non si nota nulla di interessante, il grafico potrebbe essere di scarsa utilità.
Un esempio mostra il cumulo di età dal censimento del Ghana per il 1960. Vedi http://www.stata.com/manuals13/rspikeplot.pdf
C'è stata una buona revisione delle distribuzioni delle cifre finali in
Preece, DA 1981. Distribuzioni delle cifre finali nei dati. Lo statistico 30: 31-60.
Una nota sulla terminologia: alcune persone scrivono dei valori univoci di una variabile quando sarebbe meglio parlare dei valori distinti di una variabile. I dizionari e le guide all'uso suggeriscono ancora che "unico" significa verificarsi una sola volta. Pertanto, le età distinte riportate di una popolazione potrebbero essere, in anni, 0, 1, 2, ecc., Ma la grande maggioranza di quelle età non sarà unica per una persona.