Se vogliamo vedere visibilmente la distribuzione di dati continui, quale tra istogramma e pdf dovrebbe essere usato?
Quali sono le differenze, non per quanto riguarda la formula, tra istogramma e pdf?
Se vogliamo vedere visibilmente la distribuzione di dati continui, quale tra istogramma e pdf dovrebbe essere usato?
Quali sono le differenze, non per quanto riguarda la formula, tra istogramma e pdf?
Risposte:
Per chiarire il punto Dirks:
Supponiamo che i tuoi dati siano un esempio di una distribuzione normale. È possibile costruire il seguente diagramma:
La linea rossa è la stima della densità empirica, la linea blu è il pdf teorico della distribuzione normale sottostante. Si noti che l'istogramma è espresso in densità e non in frequenze qui. Questo viene fatto per scopi di stampa, in generale le frequenze sono utilizzate negli istogrammi.
Quindi, per rispondere alla tua domanda: usi la distribuzione empirica (cioè l'istogramma) se vuoi descrivere il tuo campione, e il pdf se vuoi descrivere la distribuzione sottostante ipotizzata.
Il diagramma è generato dal seguente codice in R:
x <- rnorm(100)
y <- seq(-4,4,length.out=200)
hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Un istogramma è una stima dell'età pre-computer di una densità. Una stima della densità è un'alternativa.
In questi giorni usiamo entrambi e c'è una ricca letteratura su quali valori predefiniti si dovrebbero usare.
Un pdf, d'altra parte, è un'espressione in forma chiusa per una determinata distribuzione. Ciò è diverso dalla descrizione del set di dati con una densità o istogramma stimati .
Non c'è una regola dura e veloce qui. Se conosci la densità della tua popolazione, allora un PDF è migliore. D'altra parte, spesso abbiamo a che fare con campioni e un istogramma potrebbe trasmettere alcune informazioni che una densità stimata copre. Ad esempio, Andrew Gelman sottolinea questo punto:
Un vantaggio chiave di un istogramma è che, come un diagramma di dati grezzi, contiene i semi della propria valutazione dell'errore. Oppure, per dirla in altro modo, il frastuono di un istogramma leggermente smussato esegue un servizio utile indicando visivamente la variabilità del campionamento. Ecco perché, se guardi gli istogrammi nei miei libri e articoli pubblicati, uso quasi sempre molti contenitori. Inoltre, non mi piacciono quasi mai le stime sulla densità del kernel che le persone a volte usano per visualizzare distribuzioni unidimensionali. Preferirei vedere l'istogramma e sapere dove sono i dati.
Istogramma di frequenza relativa ( discreto )
Istogramma densità ( discreto )
Funzione densità densità PDF ( continua )
Questi riferimenti sono stati utili :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function
Continuous_probability_distribution dal sito sopra
http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html