Il diagramma QQ non corrisponde all'istogramma

12

Ho un istogramma, una densità del kernel e una distribuzione normale adattata dei rendimenti dei registri finanziari, che vengono trasformati in perdite (i segni vengono cambiati) e un normale diagramma QQ di questi dati:

Il diagramma QQ mostra chiaramente che le code non sono montate correttamente. Ma se guardo l'istogramma e la distribuzione normale adattata (blu), anche i valori intorno a 0,0 non sono adattati correttamente. Quindi il diagramma QQ mostra che solo le code non sono adattate in modo appropriato, ma chiaramente l'intera distribuzione non è montata correttamente. Perché questo non viene visualizzato nel diagramma QQ?

— Stat Tistician
fonte

10

La curva blu a sinistra corrisponde a un'ipotetica linea di "miglior adattamento" a destra. La linea a destra non è quella più adatta: è quella che si adatta meglio ai valori medi nella distribuzione. Se dovessi adattare una "curva a campana" ai due terzi circa dell'istogramma, anziché al tutto, quella curva si avvicinerebbe a seguire il picco e i lati ripidi, ma poi sarebbe lontano troppo basso alle spalle e alle code. Questo è esattamente ciò che mostra anche la linea nel diagramma qq: quei grafici sono in perfetto accordo; sono gli attacchi che differiscono.

— whuber

11

Da +1 a @NickSabbe, perché "la trama ti dice semplicemente che" qualcosa non va "", che è spesso il modo migliore per usare una trama qq (poiché può essere difficile capire come interpretarli). È possibile imparare come interpretare una trama qq pensando a come crearne una, comunque.

Cominceresti ordinando i tuoi dati, poi saliresti dal valore minimo prendendo ciascuno come una percentuale uguale. Ad esempio, se avevi 20 punti dati, quando contavi il primo (il minimo), ti dicevi: "Ho contato il 5% dei miei dati". Seguiresti questa procedura fino alla fine, a quel punto avresti passato il 100% dei tuoi dati. Questi valori percentuali possono quindi essere confrontati con gli stessi valori percentuali della corrispondente norma teorica (cioè la normale con la stessa media e SD).

Quando vai a tracciare questi, scoprirai che hai problemi con l'ultimo valore, che è il 100%, perché quando hai superato il 100% di un normale teorico sei "all'infinito". Questo problema viene risolto aggiungendo una piccola costante al denominatore in ciascun punto dei dati prima di calcolare le percentuali. Un valore tipico sarebbe quello di aggiungere 1 al denominatore; ad esempio, chiameresti il tuo primo (di 20) punto dati 1 / (20 + 1) = 5% e il tuo ultimo sarebbe 20 / (20 + 1) = 95%. Ora, se tracciate questi punti contro una corrispondente norma teorica, avrete una trama in pp(per tracciare le probabilità contro le probabilità). Una trama del genere mostrerebbe molto probabilmente le deviazioni tra la tua distribuzione e una normale al centro della distribuzione. Questo perché il 68% di una distribuzione normale si trova all'interno di +/- 1 DS, quindi i grafici in pp hanno una risoluzione eccellente lì e una scarsa risoluzione altrove. (Per ulteriori informazioni su questo punto, può essere utile leggere la mia risposta qui: grafici PP vs grafici QQ .)

Spesso, siamo più preoccupati per ciò che sta accadendo nelle code della nostra distribuzione. Per ottenere una migliore risoluzione lì (e quindi una peggiore risoluzione nel mezzo), possiamo invece costruire un diagramma qq . Lo facciamo prendendo le nostre serie di probabilità e facendole passare attraverso l'inverso del CDF della distribuzione normale (è come leggere la tabella z sul retro di un libro delle statistiche al contrario - leggi una probabilità e leggi una z- Punto). Il risultato di questa operazione sono due insiemi di quantili , che possono essere tracciati uno contro l'altro in modo simile.

@whuber ha ragione sul fatto che la linea di riferimento viene tracciata in seguito (in genere) trovando la linea di adattamento migliore attraverso il 50% medio dei punti (ovvero, dal primo quartile al terzo). Questo viene fatto per rendere la trama più facile da leggere. Usando questa linea, puoi interpretare la trama come se ti mostrasse se i quantili della tua distribuzione divergono progressivamente da una vera normalità mentre ti muovi nelle code. (Nota che la posizione dei punti più lontani dal centro non è realmente indipendente da quelli più vicini; quindi il fatto che, nel tuo istogramma specifico, le code sembrano unirsi dopo che le 'spalle' differiscono non significa che i quantili ora sono di nuovo uguali.)

È possibile interpretare un diagramma qq in modo analitico considerando i valori letti dal confronto degli assi per un dato punto tracciato. Se i dati sono stati ben descritti da una distribuzione normale, i valori dovrebbero essere più o meno gli stessi. Ad esempio, prendi il punto estremo nell'angolo in basso a sinistra: il suo valore è da qualche parte oltre , ma il suo valore è solo un po 'oltre , quindi è molto più lontano di quanto dovrebbe "essere". In generale, una semplice rubrica per interpretare un diagramma qq è che se una data coda si attorciglia in senso antiorario dalla linea di riferimento, ci sono più dati in quella coda della tua distribuzione che in una normale teoria, e se una coda si attorciglia in senso orario lì è di meno $x$ $-3$ $y$ $-.2$ dati in quella coda della tua distribuzione che in una normale teoria. In altre parole:

se entrambe le code ruotano in senso antiorario, si hanno code pesanti ( leptokurtosi ),
se entrambe le code ruotano in senso orario, si hanno code leggere (platicurtosi),
se la coda destra si gira in senso antiorario e la coda sinistra si gira in senso orario, si ha l'inclinazione a destra
se la tua coda sinistra gira in senso antiorario e la tua destra gira in senso orario, hai lasciato l'inclinazione

— gung - Ripristina Monica
fonte

Trovo tali rubriche meno che soddisfacenti. Uno è che non hanno una connessione diretta con i principi alla base della trama: devono essere memorizzati separatamente (e possono essere completamente confusi da una memoria difettosa). Un altro (in questo caso) è che è troppo complicato per essere affidabile in modo affidabile. Ancora un altro è che una mancanza di standardizzazione nel modo in cui tali grafici vengono disegnati può rendere questo metodo errato quando applicato a un diagramma qq realizzato con una procedura diversa. Ma i grafici qq sono facili da interpretare: vedi il mio tentativo di spiegazione a metà strada quantdec.com/envstats/notes/class_03/probability.htm .

— whuber

5

In poche parole: il diagramma QQ mostra la classifica nella distribuzione empirica rispetto alla distribuzione prevista. Nel tuo caso (e questo è in realtà abbastanza spesso il caso; sempre con distribuzioni simmetriche), i ranghi vicino al centro saranno simili tra previsto ed empirico, quindi il diagramma QQ è vicino alla linea lì.

Non è così semplice identificare effettivamente le "strane" osservazioni in base alla loro posizione in un diagramma QQ: il diagramma ti dice semplicemente che "qualcosa non va" e se sai di più sui dati / distribuzioni, potresti scoprire dove sono i problemi.

— Nick Sabbe
fonte

1

Manterrei la conclusione opposta, Nick: la trama qq rende molto più facile identificare e valutare risultati "strani" rispetto al corpo dei dati, mentre l'istogramma tende a oscurare molto ciò che rivela la trama qq. Il problema qui non è se la trama qq è vicina a una linea: riguarda quale linea è stata scelta dal software come riferimento per la trama! (Sospetto che si Rbasi su alcuni percentili moderati, come i quartili, mentre evidentemente l'adattamento all'istogramma si basava su momenti corrispondenti.)

— whuber

1

@whuber: Personalmente, mi piace vedere entrambi, se possibile (soprattutto perché ho "letto" gli istogrammi più facilmente dei grafici QQ). Ma hai ragione e io sono corretto.

— Nick Sabbe,

E hai ragione nel dire che le due tecniche sono complementari. Ad esempio, la bimodalità tende ad essere più facile da rilevare (e quantificare) in un istogramma che in un diagramma qq. Credo che con la pratica sia gli istogrammi che i grafici qq diventino facili da leggere. I diagrammi QQ potrebbero richiedere un po 'più tempo per l'apprendimento solo perché non hanno una forma standard di presentazione: devi sempre controllare quale asse è il valore e quale il quantile, e talvolta i quantili vengono convertiti in "valori equivalenti" (invece di essere standardizzato).

— whuber