Istogramma con scomparti uniformi vs non uniformi


10

Questa domanda descrive la differenza di base tra un istogramma uniforme e un non uniforme. E questa domanda discute la regola empirica per scegliere il numero di bin di un istogramma uniforme che ottimizza (in un certo senso) il grado in cui l'istogramma rappresenta la distribuzione da cui sono stati estratti i campioni di dati.

Non riesco a trovare lo stesso tipo di discussione di "ottimalità" sugli istogrammi uniformi vs non uniformi. Ho una distribuzione non parametrica raggruppata con valori anomali lontani, quindi un istogramma non uniforme ha intuitivamente più senso. Ma mi piacerebbe vedere un'analisi più precisa delle seguenti due domande:

  1. Quando un istogramma del cestino uniforme è migliore di un istogramma del cestino non uniforme?
  2. Qual è un buon numero di bin per un istogramma non uniforme?

Per un istogramma non uniforme, sono considerato il caso più semplice in cui prendiamo campioni da una distribuzione sconosciuta, ordiniamo i valori n risultanti e li separiamo in k bin in modo tale che ogni bin abbia knnKKnncKcmaxiominio+1


Non ci sono abbastanza informazioni per rispondere (2). Quali sono le condizioni di non uniformità? Puoi scegliere qualche bidone che ti piace o c'è qualche restrizione? Cosa vuoi ottimizzare? ad esempio, vuoi media minima integrato errore quadratico tra ed f ? O qualcos'altro? ff^
Glen_b

@Glen_b Descrivo in modo un po 'più dettagliato il tipo di istogramma che sto prendendo in considerazione nel caso del contenitore non uniforme.
Alan Turing,

Controlla la tua modifica. Intendevi "n = cm" anziché "cn"? Inoltre c'è un errore di battitura successivo.
Glen_b -Restate Monica

Stai cercando di trasmettere qualcosa di simile a questo ?
Glen_b

Vedi anche questa discussione di un compromesso tra questo e il solito istogramma
Glen_b -Reinstate Monica

Risposte:


7

Quando un istogramma del cestino uniforme è migliore di un istogramma del cestino non uniforme?

Ciò richiede una sorta di identificazione di ciò che cercheremmo di ottimizzare; molte persone cercano di ottimizzare l'errore quadratico medio integrato medio, ma in molti casi penso che in qualche modo manchi il punto di fare un istogramma; spesso (ai miei occhi) "liscia"; per uno strumento esplorativo come un istogramma posso tollerare molta più rugosità, dato che la rugosità stessa mi dà un'idea della misura in cui dovrei "lisciarla" ad occhio; Tendo a raddoppiare almeno il solito numero di bin da tali regole, a volte molto di più. Tendo a concordare con Andrew Gelman su questo; anzi, se il mio interesse fosse davvero quello di ottenere un buon AIMSE, probabilmente non avrei dovuto prendere in considerazione comunque un istogramma.

Quindi abbiamo bisogno di un criterio.

Vorrei iniziare discutendo alcune delle opzioni di istogrammi di area non uguale:

Esistono alcuni approcci che rendono più uniforme (meno, più grandi bin) in aree di densità inferiore e hanno contenitori più stretti in cui la densità è maggiore, come gli istogrammi "uguale area" o "uguale conteggio". La tua domanda modificata sembra considerare la stessa possibilità di conteggio.

La histogramfunzione nel latticepacchetto di R può produrre barre approssimativamente uguali:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

confronto di uguale larghezza e uguale area

Quel tuffo alla destra del cestino più a sinistra è ancora più chiaro se prendi la quarta radice; con bidoni di uguale larghezza non puoi vederlo se non usi da 15 a 20 volte il numero di bidoni, e quindi la coda destra sembra terribile.

C'è un istogramma di uguale conteggio qui , con codice R, che utilizza i quantili di esempio per trovare le interruzioni.

Ad esempio, sugli stessi dati di cui sopra, ecco 6 bin con (si spera) 8 osservazioni ciascuno:

istogramma uguale

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

Questa domanda CV fa riferimento a un articolo di Denby e Mallows, una versione del quale è scaricabile da qui che descrive un compromesso tra bidoni di uguale larghezza e bidoni di uguale area.

Affronta anche le domande che hai avuto in una certa misura.

Potresti forse considerare il problema come quello di identificare le interruzioni in un processo di Poisson costante a tratti. Ciò porterebbe a lavorare in questo modo . Esiste anche la possibilità correlata di esaminare gli algoritmi di tipo di clustering / classificazione su (diciamo) conteggi di Poisson, alcuni dei quali algoritmi genererebbero un numero di bin. Il clustering è stato utilizzato su istogrammi 2D ( immagini , in effetti) per identificare regioni relativamente omogenee.

-

Se avessimo un istogramma di uguale conteggio e alcuni criteri da ottimizzare, potremmo quindi provare un intervallo di conteggi per cestino e valutare il criterio in qualche modo. Il documento Wand menzionato qui [ documento , o documento di lavoro pdf ] e alcuni dei suoi riferimenti (ad esempio i documenti Sheather et al. Per esempio) delineano una stima della larghezza del cestino "plug in" basata su idee di smoothing del kernel per ottimizzare AIMSE; a grandi linee quel tipo di approccio dovrebbe essere adattabile a questa situazione, anche se non ricordo di averlo visto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.