Confronto delle code di due distribuzioni campione


13

Ho due set di dati che sono approssimativamente centrati attorno allo zero ma sospetto che abbiano code diverse. Conosco alcuni test per confrontare la distribuzione con una distribuzione normale, ma vorrei confrontare direttamente le due distribuzioni.

Esiste un semplice test per confrontare la gravità della coda di 2 distribuzioni ?

Grazie
rosso


Il tag "fat-tails" è davvero significativo (per domande future)?
chl

@chl Dimmi, non sono certo esperto come te nelle statistiche. Ma l'IMO è un classico pregiudizio per sottovalutare l'importanza delle code. Hai letto il lavoro di Mandelbrot? Le code di grasso sono molto importanti nelle statistiche applicate per la finanza e la crisi del credito del 2008 è arrivata in parte da alcuni modelli di prezzi che stavano assumendo la normalità e sottovalutando le code di grasso di una certa distribuzione di correlazione.
Ne

1
Questa domanda è potenzialmente interessante ma alcuni chiarimenti sarebbero ben accetti. Sei preoccupato per una coda o entrambi? Come si misura il "grasso"? (Sei disposto a spostare e ridimensionare le due distribuzioni per fare il confronto, per esempio?) Come misuri le deviazioni nella "grassezza"? Se contempli un test di ipotesi, quale sarà esattamente l'ipotesi alternativa?
whuber

@ RockScience, ho due distribuzioni e voglio confrontare solo le code, sei riuscito a farlo? So che puoi calcolare la curtosi, ma come hai verificato che entrambe le code sono diverse?
user2380782

Risposte:



2

Costruendo una soglia, dicendo lambda, possiamo testare l'uguaglianza di due mezzi o varianze delle due distribuzioni limitate sulla regione di coda (\ lambda, infinito) sulla base di due insiemi di dati di osservazioni che ricadono in questa regione di coda. Naturalmente, i due test t-test o F-test potrebbero essere OK ma non essere potenti poiché la variabile casuale limitata su questa regione di coda non è normale, nemmeno quelli originali.


La teoria del valore estremo studia tali distribuzioni troncate: asintoticamente, la distribuzione delle code di solito appartiene alla famiglia Pareto generalizzata . Si potrebbe anche provare ad adattare i dati a questa famiglia di distribuzioni e confrontare i parametri.
Vincent Zoonekynd,

@Vincent Una coda può avere praticamente qualsiasi distribuzione. La teoria del valore estremo dice poco sulle code: si concentra sulla distribuzione dei massimi (o minimi) dei campioni iid, che è una cosa abbastanza diversa.
whuber

1

Che ne dici di adattare la distribuzione generalizzata lambda e gli intervalli di confidenza bootstrap sul 3 ° e 4 ° parametro?


2
Perché questa famiglia di distribuzioni dovrebbe essere particolarmente utile per questo problema e non un'altra famiglia come le distribuzioni Pearson?
whuber

1

Il test Chi Square (test di bontà di adattamento) sarà molto buono nel confrontare le code di due distribuzioni poiché è strutturato per confrontare due distribuzioni da secchi di valori (rappresentati graficamente da un istogramma). E le code consisteranno nella maggior parte dei secchi.

Anche se questo test si concentra sull'intera distribuzione, non solo sulla coda puoi facilmente osservare quanta parte del valore di Chi Square o la divergenza deriva dalla differenza nella grassezza della coda.

Osserva che l'istogramma derivato può effettivamente fornirti visivamente molte più informazioni riguardo al rispettivo grasso delle code rispetto a qualsiasi significato statistico relativo al test. Una cosa è affermare che il grasso della coda è statisticamente diverso. È un altro osservarlo visivamente. Dicono che un'immagine vale più di mille parole. A volte vale anche mille numeri (ha senso dato che i grafici incapsulano tutti i numeri).


3
Mi sembra che il test di Chi Square sarà particolarmente scarso nell'identificare le differenze nelle code. Se le code sono coperte da molti bin, allora - poiché sono code! - potrebbero esserci pochi dati in qualsiasi bin, invalidando l'approssimazione chi-quadrato. Se le code sono coperte da pochi contenitori, perdi quasi tutto il potere di discriminare le loro forme e ciò che riesci a discriminare potrebbe non essere terribilmente rilevante o utile. (Un problema che stiamo affrontando qui è che la "stanchezza della coda" non è stata definita, quindi la domanda è davvero troppo vaga per rispondere bene.)
whuber

@whuber, non posso dire se concordo con il tuo commento perché non capisco completamente uno dei tuoi punti. Cosa intendi esattamente con "invalidare l'approssimazione chi-quadrata"?
Sympa,

Il test del chi-quadrato si basa su un'approssimazione della teoria normale alla vera distribuzione della statistica del chi-quadrato. In genere questa approssimazione diventa scarsa quando le popolazioni di bin scendono al di sotto di 5.
whuber

@whuber, grazie per la spiegazione. Alla luce di ciò, mi sembra che la prima frase del tuo commento iniziale potrebbe non essere così sfumata come ti sarebbe potuto interessare ("il test di Chi Square sarà particolarmente scarso nell'identificare la differenza nelle code"). Forse la frase più appropriata sarebbe stata "dipende ..." Questo test ha diversi meriti, incluso il forzarti a definire i cassonetti rilevanti. E, altrettanto importante, facilitare la costruzione di un istogramma. Concesso se hai meno di 5 osservazioni in un cestino, perderai la precisione come hai spiegato bene.
Sympa,

@Gaetan Apprezzo l'attenzione alla sfumatura, ma in questo caso il giudizio sembra giustificato. Rispetto a molti altri metodi disponibili per confrontare le distribuzioni, il test Chi Squared non regge bene. Se "definisci bin rilevanti" in base ai dati stessi, il test non è valido. Inoltre, un istogramma non è in genere un modo utile per esaminare le code delle distribuzioni. Tuttavia, sono riluttante a proporre alternative perché il problema è mal definito: cosa potrebbe significare per due distribuzioni avere la stessa "grassezza delle code"? La kurtosi è una possibilità, ma è una misura grezza.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.