Differenza tra istogramma e pdf?


18

Se vogliamo vedere visibilmente la distribuzione di dati continui, quale tra istogramma e pdf dovrebbe essere usato?

Quali sono le differenze, non per quanto riguarda la formula, tra istogramma e pdf?


Potrebbe chiarire se questa domanda riguarda dati (la cui distribuzione potrebbe essere rappresentata da un istogramma) o costrutti teorici (come un pdf, che descrive una distribuzione di probabilità).
whuber

4
Ma da dove viene il pdf? Per definizione, un pdf descrive una distribuzione di probabilità teorica. Intendi forse l'edf (funzione di distribuzione empirica)?
whuber

Risposte:


22

Per chiarire il punto Dirks:

Supponiamo che i tuoi dati siano un esempio di una distribuzione normale. È possibile costruire il seguente diagramma:

testo alternativo

La linea rossa è la stima della densità empirica, la linea blu è il pdf teorico della distribuzione normale sottostante. Si noti che l'istogramma è espresso in densità e non in frequenze qui. Questo viene fatto per scopi di stampa, in generale le frequenze sono utilizzate negli istogrammi.

Quindi, per rispondere alla tua domanda: usi la distribuzione empirica (cioè l'istogramma) se vuoi descrivere il tuo campione, e il pdf se vuoi descrivere la distribuzione sottostante ipotizzata.

Il diagramma è generato dal seguente codice in R:

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)

qual è la differenza tra frequenza e densità?
Lakshay,

2
Le frequenze @Lakshay sono conteggi. Tutte le frequenze sommate equivalgono al numero di osservazioni. Densità è l'abbreviazione di PDF (funzione di densità di probabilità), che è un proxy per la probabilità di avere un determinato valore. L'area sotto il PDF è pari a 1.
Joris Meys

13

Un istogramma è una stima dell'età pre-computer di una densità. Una stima della densità è un'alternativa.

In questi giorni usiamo entrambi e c'è una ricca letteratura su quali valori predefiniti si dovrebbero usare.

Un pdf, d'altra parte, è un'espressione in forma chiusa per una determinata distribuzione. Ciò è diverso dalla descrizione del set di dati con una densità o istogramma stimati .


1
μσ2density

*ab***ab**$\sqrt{2}$2

6

Non c'è una regola dura e veloce qui. Se conosci la densità della tua popolazione, allora un PDF è migliore. D'altra parte, spesso abbiamo a che fare con campioni e un istogramma potrebbe trasmettere alcune informazioni che una densità stimata copre. Ad esempio, Andrew Gelman sottolinea questo punto:

Variazioni sull'istogramma

Un vantaggio chiave di un istogramma è che, come un diagramma di dati grezzi, contiene i semi della propria valutazione dell'errore. Oppure, per dirla in altro modo, il frastuono di un istogramma leggermente smussato esegue un servizio utile indicando visivamente la variabilità del campionamento. Ecco perché, se guardi gli istogrammi nei miei libri e articoli pubblicati, uso quasi sempre molti contenitori. Inoltre, non mi piacciono quasi mai le stime sulla densità del kernel che le persone a volte usano per visualizzare distribuzioni unidimensionali. Preferirei vedere l'istogramma e sapere dove sono i dati.


3
Devo ammettere di non aver mai compreso appieno il motivo per cui Gelman sostiene l'uso dell'istogramma con larghezza del cestino ridotta; perché non usare il diagramma a strisce o dati grezzi con stime della densità del kernel sovrapposte, che trasmettono molto meglio la distribuzione empirica dei dati osservati?
chl,

2
@chl: Esistono ovviamente altri buoni metodi di visualizzazione per avere un'idea della variabilità del campionamento. Ma sul confronto più stretto tra istogramma e pdf in discussione qui, penso che il suo punto sia ben espresso.
ARS

1
questo è un bel link, così come gli articoli discussi lì. Ma questo approccio vale per le simulazioni, nel qual caso stiamo effettivamente cercando di stimare una densità?
David LeBauer,

1

Istogramma di frequenza relativa ( discreto )

  • l'asse "y" è il conteggio normalizzato
  • L'asse 'y' è una probabilità discreta per quel particolare bin / intervallo
  • I conteggi normalizzati si sommano a 1

Istogramma densità ( discreto )

  • l'asse 'y' è il valore di densità ('Conteggio normalizzato' diviso per 'larghezza del contenitore')
  • Le aree della barra sono pari a 1

Funzione densità densità PDF ( continua )

  • Il PDF è una versione continua di un istogramma poiché i contenitori dell'istogramma sono discreti
  • l'area totale in Curva si integra con 1

Questi riferimenti sono stati utili :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function

Continuous_probability_distribution dal sito sopra

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.