Quando un istogramma del cestino uniforme è migliore di un istogramma del cestino non uniforme?
Ciò richiede una sorta di identificazione di ciò che cercheremmo di ottimizzare; molte persone cercano di ottimizzare l'errore quadratico medio integrato medio, ma in molti casi penso che in qualche modo manchi il punto di fare un istogramma; spesso (ai miei occhi) "liscia"; per uno strumento esplorativo come un istogramma posso tollerare molta più rugosità, dato che la rugosità stessa mi dà un'idea della misura in cui dovrei "lisciarla" ad occhio; Tendo a raddoppiare almeno il solito numero di bin da tali regole, a volte molto di più. Tendo a concordare con Andrew Gelman su questo; anzi, se il mio interesse fosse davvero quello di ottenere un buon AIMSE, probabilmente non avrei dovuto prendere in considerazione comunque un istogramma.
Quindi abbiamo bisogno di un criterio.
Vorrei iniziare discutendo alcune delle opzioni di istogrammi di area non uguale:
Esistono alcuni approcci che rendono più uniforme (meno, più grandi bin) in aree di densità inferiore e hanno contenitori più stretti in cui la densità è maggiore, come gli istogrammi "uguale area" o "uguale conteggio". La tua domanda modificata sembra considerare la stessa possibilità di conteggio.
La histogram
funzione nel lattice
pacchetto di R può produrre barre approssimativamente uguali:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
Quel tuffo alla destra del cestino più a sinistra è ancora più chiaro se prendi la quarta radice; con bidoni di uguale larghezza non puoi vederlo se non usi da 15 a 20 volte il numero di bidoni, e quindi la coda destra sembra terribile.
C'è un istogramma di uguale conteggio qui , con codice R, che utilizza i quantili di esempio per trovare le interruzioni.
Ad esempio, sugli stessi dati di cui sopra, ecco 6 bin con (si spera) 8 osservazioni ciascuno:
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
Questa domanda CV fa riferimento a un articolo di Denby e Mallows, una versione del quale è scaricabile da qui che descrive un compromesso tra bidoni di uguale larghezza e bidoni di uguale area.
Affronta anche le domande che hai avuto in una certa misura.
Potresti forse considerare il problema come quello di identificare le interruzioni in un processo di Poisson costante a tratti. Ciò porterebbe a lavorare in questo modo . Esiste anche la possibilità correlata di esaminare gli algoritmi di tipo di clustering / classificazione su (diciamo) conteggi di Poisson, alcuni dei quali algoritmi genererebbero un numero di bin. Il clustering è stato utilizzato su istogrammi 2D ( immagini , in effetti) per identificare regioni relativamente omogenee.
-
Se avessimo un istogramma di uguale conteggio e alcuni criteri da ottimizzare, potremmo quindi provare un intervallo di conteggi per cestino e valutare il criterio in qualche modo. Il documento Wand menzionato qui [ documento , o documento di lavoro pdf ] e alcuni dei suoi riferimenti (ad esempio i documenti Sheather et al. Per esempio) delineano una stima della larghezza del cestino "plug in" basata su idee di smoothing del kernel per ottimizzare AIMSE; a grandi linee quel tipo di approccio dovrebbe essere adattabile a questa situazione, anche se non ricordo di averlo visto.