Esiste un limite superiore al numero di intervalli in un istogramma?

Ho letto diversi articoli ed estratti di libri che spiegano come scegliere un buon numero di intervalli (bin) per l'istogramma di un set di dati, ma mi chiedo se esiste un numero massimo di intervalli rigido basato sul numero di punti in un set di dati o qualche altro criterio.

Contesto: il motivo per cui sto chiedendo è che sto provando a scrivere software basato su una procedura di un documento di ricerca. Un passo nella procedura è creare diversi istogrammi da un set di dati, quindi scegliere la risoluzione ottimale in base a una funzione caratteristica (definita dagli autori dell'articolo). Il mio problema è che gli autori non menzionano un limite superiore per il numero di intervalli da testare. (Ho centinaia di set di dati da analizzare e ognuno può avere un diverso numero "ottimale" di bin. Inoltre, è importante selezionare il numero ottimale di bin, quindi guardare manualmente i risultati e sceglierne uno buono non lo farà lavoro.)

Impostare semplicemente il numero massimo di intervalli in modo che il numero di punti nel set di dati sia una buona linea guida, oppure esiste qualche altro criterio che viene generalmente utilizzato nelle statistiche?

distributions data-visualization histogram

— Bill the Lizard
fonte

Intendi bidoni di uguali dimensioni (ovvero bidoni, che hanno lo stesso intervallo)?

— Adam Ryczkowski il

Credo che la risposta dipenda dall'algoritmo che stai cercando di implementare. Penso che la domanda sia incompleta se non si fornisce un collegamento a quel documento di ricerca.

— Adam Ryczkowski il

Il numero di punti è certamente un massimo teorico, ma quello non sarebbe quasi un istogramma, sarebbe una trama a strisce stranamente formattata o trama di tappeto.

— Peter Flom

In realtà, il numero di punti NON è davvero il massimo, scusate, non avevo avuto abbastanza caffè! Alcuni dei bin saranno 0. ad esempio supponiamo (per un esempio ridicolmente semplice) di avere 3 punti: 1.02 2.21 e 5.92. Se vuoi davvero un numero massimo di bin, è chiaramente più di 3. Probabilmente 6: 1-2, 2-3, 3-4, 4-5 e 5-6 (con intervalli aperti e chiusi appropriati per evitare il doppio binning)

— Peter Flom

@whuber: i valori sono un insieme di misurazioni della distanza del contorno di un oggetto dal suo centroide, normalizzato a [0, 1]. L'articolo utilizza il binning di queste distanze in bin , trovando il ottimale minimizzando la somma dell'errore di quantizzazione (dal binning) più il pdf dell'istogramma. Per il meglio della mia comprensione.

2^{J}

$2^J$

J

$J$

— Wayne,

Risposte:

In realtà non esiste un limite superiore rigido, ma d'altra parte, nella maggior parte dei casi, una volta ottenute tutte le osservazioni uniche nel proprio contenitore, i contenitori più fini servono solo a individuare le loro posizioni in modo più preciso senza trasmettere molto di più. ad esempio confrontare questi:

istogramma con 30 scomparti
istogramma con 100 scomparti

Tranne in alcune circostanze molto particolari, è probabile che non ci siano vantaggi pratici nella seconda trama, e non così tanto nella prima. Se i tuoi dati sono continui, probabilmente questo va ben oltre un numero utile di bin.

Quindi, nella maggior parte dei casi, sembra almeno un limite superiore pratico - ogni osservazione unica nel suo contenitore.

(Se non v'è beneficio in più raccoglitori di uno per l'osservazione unica, probabilmente si dovrebbe essere facendo un rugplot o uno stripchart jittered per ottenere questo tipo di informazioni) - qualcosa di simile a ciò che è fatto a margine di questi istogrammi:

istogramma tappeto con jitter
istogramma con diagramma a strisce

(Questi istogrammi sono presi da questa risposta , verso la fine)

— Glen_b - Ripristina Monica
fonte

C'è un buon caso per avere un gran numero di bin, ad esempio bin per ogni possibile valore, ogni volta che si sospetta che il dettaglio di un istogramma non sia rumore, ma struttura fine interessante o importante.

Questo non è direttamente collegato alla motivazione precisa per questa domanda, che vuole una regola automatizzata per un numero ottimale di bin, ma è rilevante per la domanda nel suo insieme.

Passiamo subito agli esempi. Nell'arrotondamento demografico delle età riportate è comune, soprattutto ma non solo nei paesi con scarse competenze alfabetiche. Ciò che può accadere è che molte persone non conoscono la loro data esatta di nascita o che ci sono ragioni sociali o personali per sottovalutare o esagerare la loro età. La storia militare è piena di esempi di persone che raccontano bugie sulla loro età sia per evitare che per cercare servizio nelle forze armate. In effetti molti lettori conosceranno qualcuno che è molto timido o altrimenti non abbastanza sincero sulla loro età, anche se non mentono al riguardo per un censimento. Il risultato netto varia ma, come già suggerito, di solito è arrotondato, ad esempio le età che terminano con 0 e 5 sono molto più comuni delle età di un anno in meno o più.

Un fenomeno simile di preferenza delle cifre è comune anche per problemi abbastanza diversi. Con alcuni metodi di misurazione vecchio stile, l'ultima cifra di una misurazione riportata deve essere misurata a occhio mediante interpolazione tra i voti graduati. Questo era uno standard lungo in meteorologia con termometri a mercurio. È stato scoperto che alcune cifre segnalate collettivamente sono più comuni di altre e che individualmente molti di noi hanno firme, un modello personale di favorire alcune cifre piuttosto che altre. La consueta distribuzione di riferimento qui è l'uniforme, cioè finché l'intervallo delle misurazioni possibili è molte volte maggiore rispetto all '"unità" di misurazione, si prevede che le cifre finali si verifichino con uguale frequenza. Quindi se le temperature di ombra riportate potrebbero coprire un intervallo di (diciamo) 50 $^\circ$ C le ultime dieci cifre, frazioni di un grado .0, .1, , .8, .9 dovrebbero verificarsi ciascuna con probabilità 0.1. La qualità di questa approssimazione dovrebbe essere buona anche per un intervallo più limitato. $\cdots$

Per inciso, guardare le ultime cifre dei dati riportati è un metodo semplice e valido per verificare la presenza di dati fabbricati, uno che è molto più facile da capire e meno problematico rispetto al controllo attualmente alla moda delle prime cifre con un appello alla Legge di Benford.

Il risultato per gli istogrammi dovrebbe ora essere chiaro. Una presentazione a punta può servire per mostrare, o più in generale per verificare, questo tipo di struttura fine. Naturalmente, se non si nota nulla di interessante, il grafico potrebbe essere di scarsa utilità.

Un esempio mostra il cumulo di età dal censimento del Ghana per il 1960. Vedi http://www.stata.com/manuals13/rspikeplot.pdf

C'è stata una buona revisione delle distribuzioni delle cifre finali in

Preece, DA 1981. Distribuzioni delle cifre finali nei dati. Lo statistico 30: 31-60.

Una nota sulla terminologia: alcune persone scrivono dei valori univoci di una variabile quando sarebbe meglio parlare dei valori distinti di una variabile. I dizionari e le guide all'uso suggeriscono ancora che "unico" significa verificarsi una sola volta. Pertanto, le età distinte riportate di una popolazione potrebbero essere, in anni, 0, 1, 2, ecc., Ma la grande maggioranza di quelle età non sarà unica per una persona.

— Nick Cox
fonte

Non esiste un limite massimo per il numero di bin in un istogramma. Se la variabile che viene tracciata è continua, allora è possibile argomentare un numero infinito di categorie (e l'istogramma diventa fondamentalmente un diagramma a tappeto).

Il numero di punti nel set di dati non è un limite superiore appropriato. Considera un set di dati contenente due valori: 1 e 1000. Avere due bin non sarebbe appropriato.

Due metodi pratici per determinare un limite superiore sono: a) Determinazione dell'arrotondamento sottostante dei dati. Ad esempio, se i dati sono numeri interi, ha senso disporre di bin di larghezza intera. b) Osservando la massima risoluzione visibile (ad esempio, il numero di pixel nella dimensione orizzontale che possono essere utilizzati per la stampa).

— Tim
fonte