La differenza sta nelle statistiche riassuntive: coefficiente di Gini e deviazione standard


12

Esistono diverse statistiche di riepilogo. Quando si desidera descrivere la diffusione di una distribuzione, è possibile utilizzare ad esempio la deviazione standard o il coefficiente di Gini .

So che la deviazione standard si basa sulla tendenza centrale, cioè la deviazione dalla media, e il coefficiente di Gini una misurazione generale della dispersione. So anche che il coefficiente di Gini ha un limite inferiore e superiore [0 1] e la deviazione standard no . Queste proprietà sono buone da sapere ma quali intuizioni può fornire la deviazione standard che il Gini non può e viceversa? Se dovessi scegliere di usare uno dei due, quali sono i vantaggi di usarne uno rispetto all'altro quando si tratta di essere informativo e perspicacia.


1
Hai avuto una strana scelta di tag. Li ho modificati.
ameba,

Risposte:


8

Due cose da considerare

Il Gini è indipendente dalla scala mentre la SD è nelle unità originali

Supponiamo di avere una misura limitata sopra e sotto. SD assume il suo valore massimo se la metà delle misurazioni è su ciascun limite mentre Gini assume il massimo se uno è su un limite e tutto il resto sull'altro.


Pensi che potremmo espandere l'uso di Gini per tenere conto della concentrazione / eterogeneità nella meta-analisi? Potrebbe essere interessante come mezzo per quantificare la concentrazione nell'eterogeneità ...
Joe_74

1
Poiché il presupposto è che gli effetti sono normali, allora no. Ma penso che una discussione più approfondita sia fuori tema in questo thread
mdewey,

@mdewey L'ultima frase è stata perspicace e mi ha aiutato di più. Grazie!
Olivier_s_j

@mdewey L'ho provato io stesso con un po 'di codice, ma c'è una pubblicazione che ne parla da qualche parte? O una prova? (Mi riferisco all'ultima frase)
Olivier_s_j

@Ojtwist l'articolo di Wikipedia en.wikipedia.org/wiki/Gini_coefficient è utile.
mdewey,

10

Il coefficiente di Gini è invariante per scalare ed è limitato, la deviazione standard invariante per uno spostamento e non limitato, quindi sono difficili da confrontare direttamente. Ora puoi definire una versione invariante di scala della deviazione standard, dividendo per la media (coefficiente di variazione).

Tuttavia, l'indice Gini è ancora basato su valori, il secondo su valori quadrati, quindi puoi aspettarti che il secondo sarà più influenzato dagli outlier (valori eccessivamente bassi o alti). Questo si trova nelle misure di disuguaglianza di reddito , F De Maio, 2007:

Questa misura della disuguaglianza di reddito è calcolata dividendo la deviazione standard della distribuzione del reddito per la sua media. Una distribuzione più equa del reddito avrà deviazioni standard più piccole; come tale, il CV sarà più piccolo nelle società più uguali. Nonostante sia una delle misure più semplici di disuguaglianza, l'uso del CV è stato piuttosto limitato nella letteratura sulla salute pubblica e non è stato inserito nella ricerca sull'ipotesi della disuguaglianza di reddito. Ciò può essere attribuito a importanti limiti della misura CV: (1) non ha un limite superiore, a differenza del coefficiente Gini, 18 rendendo l'interpretazione e il confronto un po 'più difficili; e (2) le due componenti del CV (la media e la deviazione standard) possono essere eccessivamente influenzate da valori di reddito anormalmente bassi o alti. In altre parole,

Quindi il coefficiente di variazione è meno robusto e ancora illimitato. Per fare un ulteriore passo, puoi rimuovere la media e dividere invece per la deviazione assoluta ( ). Fino a un fattore, si rapporto norma , che può essere limitato, poiché, per un vettore , .1 / 2 N 2 ( x ) 1 ( x ) 1(xm)=|xnm|1/2N2(x)1(x)N2(x)

Ora hai, con l'indice Gini e il rapporto della norma , due interessanti misure di di distribuzione, invariante alla scala e limitata.1/2

Vengono confrontati in Comparing Measures of Sparsity , 2009. Testato su diverse proprietà di sparsità naturali (Robin Hood, Scaling, Rising Tide, Cloning, Bill Gates e Babies), l'indice Gini si distingue come il migliore. Ma la sua forma rende difficile l'utilizzo come funzione di perdita e in questo contesto è possibile utilizzare versioni regolarizzate di1/2 .

Quindi, a meno che non si desideri caratterizzare una distribuzione quasi gaussiana, se si desidera misurare una sparsità, utilizzare l'indice Gini, se si desidera promuovere la sparsità tra diversi modelli, è possibile provare un tale rapporto di norma.

Conferenza aggiuntiva: differenza media di Gini: una misura superiore della variabilità per distribuzioni non normali , Shlomo Yitzhaki, 2003, il cui abstract potrebbe apparire interessante:

Di tutte le misure di variabilità, la varianza è di gran lunga la più popolare. Questo articolo sostiene che la differenza media di Gini (GMD), un indice alternativo di variabilità, condivide molte proprietà con la varianza, ma può essere più informativo sulle proprietà delle distribuzioni che si discostano dalla normalità


1

La deviazione standard ha una scala (diciamo, ° K, metri, mmHg, ...). Di solito, questo influenza il nostro giudizio sulla sua grandezza. Quindi tendiamo a preferire il coefficiente di variazione o ancora meglio (su campioni finiti) l'errore standard.

Il coefficiente di Gini è costruito su valori percentuali (senza scale) e quindi non ha scala sulla propria unità (come ad esempio il numero di Mach). Utilizzare il coefficiente Gini se si desidera confrontare l'uguaglianza delle azioni su qualcosa di comune (azioni del 100%). Si noti che per questa applicazione potrebbe essere utilizzata anche la deviazione standard, quindi penso che la tua domanda per confrontare vantaggi e svantaggi si applichi solo a questo tipo di applicazione. In questo caso, anche la deviazione standard sarebbe limitata a . Entrambi gli indicatori dipenderebbero dal numero di azioni (non negative) ma in una direzione opposta: Gini aumenta all'aumentare del numero, diminuisce la deviazione standard.[0,1]

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.