Vantaggi dell'utilizzo dei grafici QQ rispetto agli istogrammi


22

In questo commento , Nick Cox ha scritto:

Il binning in classi è un metodo antico. Mentre gli istogrammi possono essere utili, i moderni software statistici rendono semplice e consigliabile adattare le distribuzioni ai dati grezzi. Il binning elimina solo i dettagli che sono cruciali per determinare quali distribuzioni sono plausibili.

Il contesto di questo commento suggerisce l'utilizzo di grafici a QQ come mezzo alternativo per valutare l'adattamento. L'affermazione sembra molto plausibile, ma mi piacerebbe sapere un riferimento affidabile a sostegno di questa affermazione. C'è qualche articolo che fa un'indagine più approfondita di questo fatto, al di là di un semplice "beh, sembra ovvio"? Qualche confronto sistematico effettivo di risultati o simili?

Vorrei anche vedere fino a che punto questo vantaggio dei grafici QQ sugli istogrammi può essere esteso ad applicazioni diverse dall'adattamento del modello. Le risposte a questa domanda concordano sul fatto che "una trama QQ [...] ti dice solo che" qualcosa non va "". Sto pensando di usarli come strumento per identificare la struttura nei dati osservati rispetto a un modello nullo e mi chiedo se esistano procedure stabilite per usare i diagrammi QQ (oi loro dati sottostanti) non solo per rilevare ma anche descrivere non casuali struttura nei dati osservati. I riferimenti che includono questa direzione sarebbero quindi particolarmente utili.


4
stats.stackexchange.com/questions/51718/… risponde già a metà della domanda, vale a dire perché è meglio evitare gli istogrammi, indipendentemente da cosa li sostituisca.
Gala,

Risposte:


25

Il documento canonico qui era

Wilk, MB e R. Gnanadesikan. 1968. Metodi di tracciabilità delle probabilità per l'analisi dei dati. Biometrika 55: 1-17

e ripaga ancora la lettura ravvicinata e ripetuta.

È stato dato un trattamento lucido con molti buoni esempi

Cleveland, WS 1993. Visualizzazione dei dati. Summit, NJ: Hobart Press.

e vale la pena menzionare il più introduttivo

Cleveland, WS 1994. Gli elementi dei dati grafici. Summit, NJ: Hobart Press.

Altri testi contenenti una ragionevole esposizione a questo approccio includono

Davison, AC 2003. Modelli statistici. Cambridge: Cambridge University Press.

Rice, JA 2007. Statistica matematica e analisi dei dati. Belmont, CA: Duxbury.

A parte questo, non so nulla di tutto ciò che chiedi. Una volta che hai visto il punto dei grafici quantile-quantili, mostrare in dettaglio che gli istogrammi sono un'alternativa di secondo livello non sembra né interessante né utile, troppo come sparare ai pesci in un barile.

Ma vorrei riassumere in questo modo:

  1. Il binning elimina i dettagli e i dettagli sono spesso importanti. Questo può applicarsi non solo a ciò che sta accadendo nelle code, ma anche a ciò che sta accadendo nel mezzo. Ad esempio, la granularità o la multimodalità possono essere importanti così come l'asimmetria o il peso della coda.

  2. Il binning richiede decisioni sull'origine e sulla larghezza del contenitore, il che può influire notevolmente sull'aspetto degli istogrammi, quindi è difficile vedere ciò che è reale e ciò che è un effetto collaterale delle scelte. Se il tuo software prende queste decisioni per te, i problemi rimangono. (Ad esempio, le scelte del cestino predefinite sono spesso progettate in modo da non utilizzare "troppi bidoni", cioè con il motivo di levigare un po ')

  3. Il problema grafico e psicologico di confrontare due istogrammi è più complicato di quello di giudicare l'adattamento di una serie di punti a una linea retta.

[Aggiunto il 27 settembre 2017] 4. I grafici quantici possono essere variati molto facilmente se si considerano una o più scale trasformate. Per trasformazione qui intendo una trasformazione non lineare, non ad esempio ridimensionamento per un massimo o standardizzazione per (valore-media) / SD. Se i quantili sono solo le statistiche dell'ordine, tutto ciò che devi fare è applicare la trasformazione, come ad esempio il logaritmo del massimo è identicamente il massimo dei logaritmi, e così via. (Trivialmente, la reciprocazione inverte l'ordine.) Anche se tracciate i quantili selezionati che si basano su statistiche di due ordini, di solito vengono semplicemente interpolati tra due valori di dati originali e l'effetto dell'interpolazione è banale. Al contrario, gli istogrammi sul registro o altre scale trasformate richiedono una nuova decisione sull'origine e sulla larghezza del contenitore che non è particolarmente difficile, ma non è banale. Lo stesso si può dire della stima della densità come modo di riassumere la distribuzione.


8

Guarda il lavoro di William S. Cleveland.

La visualizzazione dei dati è probabilmente la migliore fonte singola, ma vede anche la sua pagina web , in particolare la bibliografia e la pagina per la visualizzazione dei dati (incluso il codice S + che è adattabile per l'uso in R).

Cleveland ha molte ragioni per cui i grafici QQ sono buoni e perché gli istogrammi non sono così buoni.



7

Una volta che hai imparato come usarli, i grafici QQ ti consentono di identificare l'asimmetria, la pesantezza, la forma generale, i picchi e così via, gli stessi tipi di caratteristiche che le persone tendono ad usare gli istogrammi per provare a valutare.

Le stime della densità del kernel o le stime della densità del log-spline possono evitare alcuni dei problemi con gli istogrammi che Gala ha indicato nei commenti.

Considera questo esempio da quel link:

Tuttavia, a meno che tu non sia molto fortunato, a volte la discrezione insospettata può essere persa con un istogramma e persino con le stime della densità regolare (perché levigate, naturalmente), ma spesso saranno evidenti sui grafici QQ. Le stime sulla densità uniforme - se non trattate in modo speciale - possono anche avere problemi con le variabili limitate.

Gli istogrammi e le stime di densità uniforme si basano entrambi su un'approssimazione dei dati - che può essere utile - ma possono anche introdurre artefatti o cose in qualche modo travisanti.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.