Grafici PP vs. grafici QQ


39

Qual è la differenza tra grafici di probabilità, grafici PP e grafici QQ quando si tenta di analizzare una distribuzione adattata ai dati?


4
Sembra che Wikipedia possa aiutarti con questo: grafico delle probabilità . Trama QQ , trama PP . Se hai una domanda più specifica, chiarisci!
vector07

Grazie, penso che stavo confondendo la trama PP e la probabilità probabilità!
kay,

Risposte:


41

Come osserva @ vector07 , il grafico delle probabilità è la categoria più astratta di cui sono membri i grafici pp e i grafici qq. Pertanto, discuterò la distinzione tra gli ultimi due. Il modo migliore per comprendere le differenze è pensare a come sono costruite e capire che è necessario riconoscere la differenza tra i quantili di una distribuzione e la proporzione della distribuzione che hai attraversato quando raggiungi un determinato quantile. È possibile visualizzare la relazione tra questi tracciando la funzione di distribuzione cumulativa (CDF) di una distribuzione. Ad esempio, considera la distribuzione normale standard:

inserisci qui la descrizione dell'immagine

Vediamo che circa il 68% dell'asse y (regione tra le linee rosse) corrisponde a 1/3 dell'asse x (regione tra le linee blu). Ciò significa che quando utilizziamo la proporzione della distribuzione che abbiamo attraversato per valutare la corrispondenza tra due distribuzioni (ovvero, utilizziamo un diagramma pp), otterremo molta risoluzione al centro delle distribuzioni, ma meno a le code. D'altra parte, quando usiamo i quantili per valutare la corrispondenza tra due distribuzioni (cioè, usiamo un diagramma qq), otterremo un'ottima risoluzione alle code, ma meno al centro. (Poiché gli analisti di dati sono in genere più preoccupati per le code di una distribuzione, che avrà un maggiore effetto sull'inferenza, ad esempio, i grafici qq sono molto più comuni dei grafici pp).

Per vedere questi fatti in azione, guiderò attraverso la costruzione di una trama in pp e una trama in qq. (Passo anche attraverso la costruzione di una trama qq verbalmente / più lentamente qui: la trama QQ non corrisponde all'istogramma .) Non so se usi R, ma spero che sia autoesplicativo:

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

inserisci qui la descrizione dell'immagine

Sfortunatamente, questi grafici non sono molto distintivi, perché ci sono pochi dati e stiamo confrontando una vera normalità con la corretta distribuzione teorica, quindi non c'è niente di speciale da vedere al centro o nelle code della distribuzione. Per dimostrare meglio queste differenze, ho tracciato una distribuzione a T (coda grassa) con 4 gradi di libertà e una distribuzione bimodale di seguito. Le code grasse sono molto più distintive nella trama qq, mentre la bi-modalità è più distintiva nella trama pp.

inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine


14
@AleksandrH Apprezziamo davvero la tua preoccupazione per gli studenti. Il tuo presupposto implicito che questo sito è solo per gli studenti che sono nuovi alle statistiche è errato, tuttavia; e la tua insinuazione che le "risposte verbose" siano inadeguate per gli studenti non regge alla realtà, come attestano molte risposte "prolisse" su questo sito. Un modo più costruttivo per esprimere il tuo reclamo è l'esempio: mostraci come migliorare le nostre risposte e ispiraci a emularti, pubblicando qui una risposta che soddisfi i tuoi standard per rispondere alle esigenze dei nuovi studenti.
whuber

12

Ecco una definizione da v8doc.sas.com :

Un grafico PP confronta la funzione di distribuzione cumulativa empirica di un set di dati con una specifica funzione di distribuzione cumulativa teorica F (·). Un diagramma QQ confronta i quantili di una distribuzione di dati con i quantili di una distribuzione teorica standardizzata di una specifica famiglia di distribuzioni.

Nel testo menzionano anche:

  • differenze relative al modo in cui i grafici PP e i diagrammi QQ sono costruiti e interpretati.
  • vantaggi dell'uso dell'uno o dell'altro, rispetto al confronto tra distribuzioni empiriche e teoriche.

Riferimento :

SAS Institute Inc., SAS OnlineDoc®, Versione 8, Cary, NC: SAS Institute Inc., 1999

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.