Trama QQ in Python


11

Ho generato un diagramma qq usando il seguente codice. So che la trama qq viene utilizzata per verificare se i dati sono distribuiti normalmente o meno. La mia domanda è: cosa indicano le etichette degli assi xey nel grafico qq e qual è il valore di quel quadrato r che indica ??

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

inserisci qui la descrizione dell'immagine

So che c'è già una discussione sulla trama di qq , ma non sono riuscito a capire il concetto di nonostante abbia affrontato quella discussione.


4
Questo è molto vicino all'essere un duplicato del thread collegato - Python vs R non è una distinzione importante qui - ma l' aspetto è nuovo. Potrebbe essere una buona idea per domande e risposte concentrarsi un po 'di più su quell'aspetto per evitare duplicazioni. (Mi chiedo se sia incline a essere frainteso, dal momento che anche per una scarsa vestibilità, la pendenza verso l'alto che è inevitabile in un diagramma QQ significa che ci aspettiamo un un po 'più grande di zero. Quindi valori che potrebbero essere piuttosto impressionanti in una regressione l'analisi potrebbe non essere così impressionante qui.)R2R2R2
Silverfish

@Silverfish Non troverei utile o utile concentrarmi su . I grafici QQ sono in genere visti , non solo riportati con una tabella di miriadi di valori . Finché la visualizzazione è presente, perché ridurla a un singolo numero? Se il diagramma QQ sembra "cattivo", ma sembra in qualche modo "buono", vorresti comunque affermare che è normale? La maggior parte dei buoni pacchetti non fornisce nemmeno proprio per questo motivo. Questo argomento viz contro momento ha anche un nome carino: il quartetto di Anscombe . R2R2R2R2
Mike Williamson,

@MikeWilliamson Sono d'accordo sul fatto che non si rivelerà particolarmente utile (questo era parte del mio punto, anche se potrei averlo espresso male). Il mio punto principale era che "come interpretare una trama QQ" è stato discusso a lungo qui , come già nota nella domanda - l'unica ragione per cui questo thread non dovrebbe essere chiuso come duplicato è la query su , in modo che davvero dovrebbe essere discusso nelle risposte qui (anche se è per dire che non è utile!)R2R2
Silverfish

Sei sicuro di tracciare una trama QQ? help(probplot)stati: probplotgenera un diagramma di probabilità, che non deve essere confuso con un diagramma QQ o PP.
abukaj,

Risposte:


10

La risposta di Macond è accurata, tuttavia dal post originale, ho pensato che potesse essere utile semplificare un po 'la verbosità.

Un diagramma QQ sta per "diagramma quantile-quantile" .

È un diagramma in cui gli assi vengono volutamente trasformati per far apparire una distribuzione normale (o gaussiana) in linea retta . In altre parole, una distribuzione perfettamente normale seguirà esattamente una linea con pendenza = 1 e intercetta = 0.

Pertanto, se la trama non sembra essere - approssimativamente - una linea retta, la distribuzione sottostante non è normale. Se si piega, allora ci sono più valori "high flyer" del previsto, per esempio. (Il collegamento fornisce altri esempi.)


  1. Cosa rappresentano le etichette x & y?

I quantili teorici sono posizionati lungo l'asse x. Cioè, l'asse x non è i tuoi dati , è semplicemente un'aspettativa di dove sarebbero stati i tuoi dati, se fosse normale.

I dati effettivi vengono tracciati lungo l'asse y.

I valori sono le deviazioni standard dalla media. Quindi, 0è la media dei dati, 1è 1 deviazione standard sopra, ecc. Ciò significa, ad esempio, che 68.27%tutti i tuoi dati dovrebbero essere compresi tra -1 e 1, se hai una distribuzione normale.

  1. Cosa significa il valore ?R2

Il valore non è particolarmente utile per questo tipo di trama. viene in genere utilizzato per determinare se una variabile dipende da un'altra. Bene, stai confrontando un valore teorico con un valore reale. Quindi ci sarà necessariamente una sorta di . (Ad esempio, anche una distribuzione uniforme casuale avrà un moderatamente decente .)R2R2R2R2


Infine, esiste una trama simile che viene usata raramente chiamata trama pp . Questa trama è più utile se sei interessato a concentrarti su dove si trova la maggior parte dei dati, anziché sugli estremi.


1
La parola obliqua non è la scelta migliore qui: direi trasformata .
Nick Cox,

Ottima spiegazione Puoi spiegare come vengono generati l'asse x (valori previsti)?
Vivek Ananthan

1

L'asse Y mostra i valori della distribuzione osservata e l'asse X, i valori della distribuzione teorica.

Ogni punto è un quantile. Supponiamo che se sul grafico vi fossero 100 punti, il primo punto (quello sul lato inferiore sinistro) indica un limite superiore per un intervallo e, se ordinato dal più piccolo al più grande, l'1 percento più piccolo dei punti dati del la distribuzione corrispondente rimane in questo intervallo. Allo stesso modo, il 2 ° punto è il limite superiore di un intervallo, dove si trova il 2 percento più piccolo di punti dati dalla distribuzione. Questo è il concetto di quantile. Ma non si limita a un caso con 100 intervalli, è un concetto generale e puoi avere il maggior numero di intervalli possibile, quindi avrai molti quantili che descrivono i confini degli intervalli.

--

Ho usato i punti dati in tutta la mia risposta, come punti dati ordinati ecc. Questo si riferisce a distribuzioni discrete, ma il concetto può essere generalizzato per distribuzioni continue.

R2R2


3
R2R2
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.