Quantificazione del diagramma QQ


10

Il diagramma qq può essere usato per visualizzare quanto sono simili due distribuzioni (ad es. Per visualizzare la somiglianza di una distribuzione con una distribuzione normale, ma anche per confrontare due distribuzioni di dati di artebraria). Esistono statistiche che generano una misura numerica più obiettiva che rappresenta la loro somiglianza (preferibilmente in una forma normalizzata (0 <= x <= 1))? Il coefficiente Gini è ad esempio utilizzato in economia quando si lavora con le curve di Lorenz; c'è qualcosa per i grafici QQ?

Risposte:


8

Come ho detto in risposta al tuo commento sulla tua domanda precedente, dai un'occhiata al test di Kolmogorov-Smirnov. Utilizza la distanza assoluta massima tra due funzioni di distribuzione cumulativa (in alternativa concepita come la distanza assoluta massima della curva nel diagramma QQ dalla linea di 45 gradi) come statistica. Il test KS può essere trovato in R usando il comando ks.test()nella libreria 'stats'. Ecco ulteriori informazioni sul suo utilizzo di R.


Si noti che (a quanto ho capito), il test KS è per testare dati empirici contro una distribuzione a priori. Non è appropriato per confrontare due distribuzioni empiriche, né è appropriato confrontare i dati empirici con una distribuzione a priori i cui valori dei parametri sono stati stimati dai dati empirici.
Mike Lawrence,

4
@Mike, puoi usare il test KS per confrontare due distribuzioni derivate empiricamente, vedi la risposta e i commenti precedenti di Charlie stats.stackexchange.com/questions/2918/lorenz-curve-qq-plot/…
Andy W

@Andy, Ah, ho preso il punto 3 da itl.nist.gov/div898/handbook/eda/section3/eda35g.htm come avere il corollario che non puoi confrontare due CDF empirici, ma vedo che la mia ipotesi non era adeguata. Buono a sapersi, grazie!
Mike Lawrence,

2
Tuttavia, il punto 3 implica che non è possibile utilizzare KS per verificare se i dati provengono da una distribuzione normale con media e sd stimati dai dati . Questo è un errore popolare tra gli studenti di psicologia che incontro.
Stephan Kolassa,

1
(+1) L'aspetto superiore di questa risposta è che la statistica KS può essere letta direttamente dal diagramma QQ.
whuber

2

Recentemente ho usato la correlazione tra il CDF empirico e il CDF montato per quantificare la bontà di adattamento, e mi chiedo se questo approccio potrebbe anche essere utile nel caso attuale, che a mio avviso implica il confronto tra due set di dati empirici. L'interpolazione potrebbe essere necessaria se ci sono diversi numeri di osservazioni tra le serie.


Il tuo documento include figure molto belle :)
chl

@chi: sono stati tutti creati in R usando ggplot2. È un fantastico sistema di produzione grafica!
Mike Lawrence,

Cosa intendi con CDF montato?
Ampio

@Ampleforth, in quel documento, ho adattato una distribuzione ai dati empirici, quindi per "CDF adattato" intendevo il CDF teorico della distribuzione adattata. Scusa, vedo come avrei potuto essere più chiaro!
Mike Lawrence,

Oh, per favore, non scusarti. La mia mancanza di statistiche è piuttosto grande e questo è l'unico problema qui;) Inoltre non ho letto il tuo articolo, ma ho solo dato un'occhiata ai tuoi grafici che mi sono piaciuti molto.
Ampleforth,

1

Direi che il modo più o meno canonico di confrontare due distribuzioni sarebbe un test chi-quadrato. Tuttavia, la statistica non è normalizzata e dipende da come si scelgono i contenitori. L'ultimo punto può ovviamente essere visto come una caratteristica, non un bug: la scelta dei contenitori in modo appropriato consente di cercare più da vicino la somiglianza nelle code rispetto al mezzo delle distribuzioni, ad esempio.


1

Una misura abbastanza diretta della "vicinanza" alla linearità in un diagramma QQ sarebbe una statistica di test Shapiro-Francia (che è strettamente correlata al più noto Shapiro-Wilk e può essere considerata una semplice approssimazione ad esso).

La statistica Shapiro-Francia è la correlazione quadrata tra i valori dei dati ordinati e le statistiche dell'ordine normale atteso (a volte etichettati "quantili teorici") - cioè, dovrebbe essere il quadrato della correlazione che vedi nella trama, piuttosto diretto misura sommaria.

(Lo Shapiro-Wilk è simile ma tiene conto delle correlazioni tra le statistiche degli ordini; ha un'interpretazione simile a quella dello Shapiro-Francia ed è praticamente altrettanto utile come una sintesi del diagramma QQ.)

In entrambi i casi, per un riepilogo a numero singolo di ciò che mostra il diagramma QQ, uno di questi potrebbe essere un modo adatto per riassumere il diagramma.

1-W'

n1-W')nn(1-W')nnnlog(n)log(n)n

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.