Qual è la differenza tra grafici di probabilità, grafici PP e grafici QQ quando si tenta di analizzare una distribuzione adattata ai dati?
Qual è la differenza tra grafici di probabilità, grafici PP e grafici QQ quando si tenta di analizzare una distribuzione adattata ai dati?
Risposte:
Come osserva @ vector07 , il grafico delle probabilità è la categoria più astratta di cui sono membri i grafici pp e i grafici qq. Pertanto, discuterò la distinzione tra gli ultimi due. Il modo migliore per comprendere le differenze è pensare a come sono costruite e capire che è necessario riconoscere la differenza tra i quantili di una distribuzione e la proporzione della distribuzione che hai attraversato quando raggiungi un determinato quantile. È possibile visualizzare la relazione tra questi tracciando la funzione di distribuzione cumulativa (CDF) di una distribuzione. Ad esempio, considera la distribuzione normale standard:
Vediamo che circa il 68% dell'asse y (regione tra le linee rosse) corrisponde a 1/3 dell'asse x (regione tra le linee blu). Ciò significa che quando utilizziamo la proporzione della distribuzione che abbiamo attraversato per valutare la corrispondenza tra due distribuzioni (ovvero, utilizziamo un diagramma pp), otterremo molta risoluzione al centro delle distribuzioni, ma meno a le code. D'altra parte, quando usiamo i quantili per valutare la corrispondenza tra due distribuzioni (cioè, usiamo un diagramma qq), otterremo un'ottima risoluzione alle code, ma meno al centro. (Poiché gli analisti di dati sono in genere più preoccupati per le code di una distribuzione, che avrà un maggiore effetto sull'inferenza, ad esempio, i grafici qq sono molto più comuni dei grafici pp).
Per vedere questi fatti in azione, guiderò attraverso la costruzione di una trama in pp e una trama in qq. (Passo anche attraverso la costruzione di una trama qq verbalmente / più lentamente qui: la trama QQ non corrisponde all'istogramma .) Non so se usi R, ma spero che sia autoesplicativo:
set.seed(1) # this makes the example exactly reproducible
N = 10 # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1)) # from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x)) # here I calculate the probabilities associated
# w/ these data if they came from a normal
# distribution w/ the same mean & SD
# I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x)) # this calculates the quantiles (ie
# z-scores) associated w/ the props
my.data = data.frame(x=x, props=props, # here I bundle them together
normal.proportions=n.props,
normal.quantiles=n.quantiles)
round(my.data, digits=3) # & display them w/ 3 decimal places
# x props normal.proportions normal.quantiles
# 1 -0.836 0.091 0.108 -0.910
# 2 -0.820 0.182 0.111 -0.577
# 3 -0.626 0.273 0.166 -0.340
# 4 -0.305 0.364 0.288 -0.140
# 5 0.184 0.455 0.526 0.043
# 6 0.330 0.545 0.600 0.221
# 7 0.487 0.636 0.675 0.404
# 8 0.576 0.727 0.715 0.604
# 9 0.738 0.818 0.781 0.841
# 10 1.595 0.909 0.970 1.174
Sfortunatamente, questi grafici non sono molto distintivi, perché ci sono pochi dati e stiamo confrontando una vera normalità con la corretta distribuzione teorica, quindi non c'è niente di speciale da vedere al centro o nelle code della distribuzione. Per dimostrare meglio queste differenze, ho tracciato una distribuzione a T (coda grassa) con 4 gradi di libertà e una distribuzione bimodale di seguito. Le code grasse sono molto più distintive nella trama qq, mentre la bi-modalità è più distintiva nella trama pp.
Ecco una definizione da v8doc.sas.com :
Un grafico PP confronta la funzione di distribuzione cumulativa empirica di un set di dati con una specifica funzione di distribuzione cumulativa teorica F (·). Un diagramma QQ confronta i quantili di una distribuzione di dati con i quantili di una distribuzione teorica standardizzata di una specifica famiglia di distribuzioni.
Nel testo menzionano anche:
Riferimento :
SAS Institute Inc., SAS OnlineDoc®, Versione 8, Cary, NC: SAS Institute Inc., 1999