Una misura robusta (non parametrica) come Coefficiente di variazione - IQR / mediana o alternativa?


12

Per un dato set di dati, la diffusione viene spesso calcolata come deviazione standard o come IQR (intervallo inter-quartile).

Considerando che a standard deviationè normalizzato (punteggi z, ecc.) E quindi può essere utilizzato per confrontare lo spread tra due diverse popolazioni, questo non è il caso dell'IQR poiché i campioni di due diverse popolazioni potrebbero avere valori su due scale piuttosto diverse,

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

Quello che sto cercando è una misura robusta (non parametrica) che posso usare per confrontare la variazione all'interno di diverse popolazioni.

Scelta 1: IQR / Median- questo sarebbe per analogia al coefficiente di variazione , cioè a .σμ

Scelta 2: Range / IQR

Domanda: Qual è la misura più significativa per confrontare le variazioni tra le popolazioni? E se si tratta della scelta 1, la scelta 2 è utile per qualcosa / significativo o è una misura fondamentalmente imperfetta?


Grazie per la discussione molto utile. Alcuni utili follow-up: diverse definizioni di quartili e quindi IQR (John), deviazione standard che non standardizza (Harvey) e grafici QQ come strumento per confrontare due distribuzioni (Peter). (+1 a tutte e tre le risposte!)
Assad Ebrahim,

Risposte:


13

La domanda implica che la deviazione standard (SD) è in qualche modo normalizzata, quindi può essere utilizzata per confrontare la variabilità di due diverse popolazioni. Non così. Come dicevano Peter e John, questa normalizzazione viene eseguita come quando si calcola il coefficiente di variazione (CV), che equivale a SD / Media. La SD è nelle stesse unità dei dati originali. Al contrario, il CV è un rapporto senza unità.

La tua scelta 1 (IQR / Median) è analoga al CV. Come il CV, avrebbe senso solo quando i dati sono dati di rapporto. Ciò significa che zero è davvero zero. Un peso pari a zero non è un peso. Una lunghezza di zero non è lunghezza. Come contro esempio, non avrebbe senso la temperatura in C o F, poiché la temperatura di zero gradi (C o F) non significa che non ci sia temperatura. Il semplice passaggio tra l'uso della scala C o F ti darebbe un valore diverso per il CV o per il rapporto IQR / mediana, il che rende entrambi quei rapporti privi di significato.

Concordo con Peter e John sul fatto che la tua seconda idea (Range / IQR) non sarebbe molto robusta per gli outlier, quindi probabilmente non sarebbe utile.


2
Harvey - grazie - hai ragione, SD non è affatto normalizzata ... Stavo confondendo il concetto di z-scoresstandardizzazione dei valori e normalizzazione della loro posizione all'interno di una distribuzione in termini di deviazione media e standard, con questo problema, che si tratta di essere in grado di classificare gruppi di prodotti in ordine di variabilità. Scegliendo la tua risposta come quella corretta perché mentre Peter e John erano entrambi molto utili, la tua mi ha avvisato del disordine concettuale. Un buon punto sulla scelta 1 è di uso limitato vicino alla mediana 0. Fortunatamente, nel mio problema, non devo preoccuparmi di questo.
Assad Ebrahim,

Vorrei usarlo in un documento. C'è un buon posto a cui fa riferimento (libro / da qualche parte peer-reviewed)?
Ben Bolker,

15

È importante rendersi conto che il minimo e il massimo spesso non sono statistiche molto buone da usare (ad esempio, possono oscillare notevolmente da un campione all'altro e non seguire una distribuzione normale poiché, ad esempio, la media potrebbe essere dovuta al teorema del limite centrale) . Di conseguenza, l'intervallo è raramente una buona scelta se non per indicare l'intervallo di questo campione esatto . Affinché una statistica semplice, non parametrica rappresenti la variabilità, l'intervallo quartile è molto meglio. Tuttavia, mentre vedo l'analogia tra IQR / mediana e il coefficiente di variazione, non penso che questa sia probabilmente l'opzione migliore.

Potresti voler esaminare la deviazione assoluta mediana dalla mediana ( MADM ). Cioè: Sospetto che una migliore analogia non parametrica al coefficiente di variazione sarebbe MADM / mediana, piuttosto che IQR / mediana.

MADM=median(|ximedian(x)|)

1
Scelta interessante di MADM/median, essenzialmente la differenza media dal valore medio. Chiamiamo questa scelta 3. Concorda con la tua valutazione della scelta 1, quindi è fuori, grazie. Quando suggerisci "meglio", quali attributi potresti usare per confrontare la Scelta 2 con la Scelta 3 per vedere qual è la migliore?
Assad Ebrahim,

1
Gli attributi che useresti dipenderebbero dai tuoi obiettivi per la metrica. Tuttavia, intendevo solo che si tratta di un'analogia migliore per il CoV. NB che il 3 ° quartile è la mediana dei tuoi dati che sono al di sopra della mediana e il 1 ° q è la mediana di quelli sotto, quindi IQR / 2 a lungo termine sarà uguale a MADM (nb, non è garantito che siano uguali in un dato campione). L'IQR varierà ulteriormente, su Ave, dal suo vero valore nel pop, ma non sono sicuro di quali possibili implicazioni avrebbe, e lo stand. err. di IQR / 2 dovrebbe essere uguale a SE di MADM.
gung - Ripristina Monica

Vedo, grazie per il chiarimento. Un buon punto sull'interpretazione mediana di Q3 e Q1. Ti darò MADM/medianuna prova a fianco IQR/median. Il confronto fianco a fianco può essere interessante. (+1 per il suggerimento interessante)
Assad Ebrahim,

6

"Scelta 1" è ciò che si desidera se si utilizzano parametri non parametrici allo scopo comune di ridurre l'effetto dei valori anomali. Anche se lo stai usando a causa dell'inclinazione che ha anche l'effetto collaterale di avere valori estremi nella coda, potrebbero essere anomali. La tua "Scelta 2" potrebbe essere drammaticamente influenzata da valori anomali o da qualsiasi valore estremo mentre i componenti della tua prima equazione sono relativamente robusti nei loro confronti.

[Questo dipenderà un po 'dal tipo di IQR selezionato (consultare la guida R sul quantile).]


Hai ragione, avrei dovuto dire "questo è analogo alla definizione del coefficiente di variazione ... (risolto ora nella domanda)!
Assad Ebrahim

Grazie per il commento che dipende dal tipo di QIQ selezionato ... - Non avevo capito che c'erano così tante possibili definizioni per quartili / quantili! Sto usando la funzione integrata di Excel quartile( ), e quindi prendendo IQR := Q3 - Q1. I miei numeri provengono da una serie temporale di misurazioni settimanali nell'arco di un anno. Le misure sono misure di prestazione industriale e lo sono anche da una distribuzione continua. Le diverse popolazioni sono diversi gruppi di prodotti. In questa situazione, non penso che le diverse definizioni sarebbero molto diverse nella pratica?
Assad Ebrahim,

6

Preferisco non calcolare misure come CV perché ho quasi sempre un'origine arbitraria per la variabile casuale. Per quanto riguarda la scelta di una solida misura di dispersione, è difficile battere la differenza media di Gini, che è la media di tutti i possibili valori assoluti delle differenze tra due osservazioni. Per un calcolo efficiente vedere ad esempio la funzione rmspacchetto R. GiniMdSotto la normalità, la differenza media di Gini è 0,98 efficiente quanto la DS per la stima della dispersione.


3

Come @John non ho mai sentito parlare di quella definizione di coefficiente di variazione. Non lo definirei che se lo avessi usato, confonderebbe le persone.

"Qual è più utile?" dipenderà da cosa vuoi usarlo. Sicuramente la scelta 1 è più robusta per gli outlier, se sei sicuro che è quello che vuoi. Ma qual è lo scopo di confrontare le due distribuzioni? Cosa stai cercando di fare?

Un'alternativa è standardizzare entrambe le misure e quindi esaminare i riassunti.

Un altro è un diagramma QQ.

Ce ne sono anche molti altri.


Un buon punto: avrei dovuto dire analogo al coefficiente di variazione (ho apportato la correzione).
Assad Ebrahim,

I miei numeri provengono da una serie temporale di misurazioni settimanali nell'arco di un anno. Le misure sono misure di prestazione industriale e lo sono anche da una distribuzione continua. Le diverse popolazioni sono diversi gruppi di prodotti e ho circa 50 gruppi di prodotti. Quello che sto cercando di fare è essere in grado di confrontare la variabilità intrinseca tra i diversi gruppi di prodotti. In particolare, voglio essere in grado di classificare i gruppi di prodotti in ordine decrescente di variabilità.
Assad Ebrahim,

Cosa intendi con 'standardizzare entrambe le misure e poi guardare i riassunti'? Pensavo che la scelta 1 li stesse standardizzando ...!
Assad Ebrahim,

2

Questo documento presenta due buone valide alternative per il coefficiente di variazione. Uno è l' intervallo interquartile diviso per la mediana, ovvero:

IQR / mediana = (Q3-Q1) / mediana

L'altra è la deviazione assoluta mediana divisa per la mediana, ovvero:

MAD / mediana

Li confrontano e concludono in generale che il secondo è un po 'meno variabile e probabilmente migliore per la maggior parte delle applicazioni.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.