Il coefficiente di Gini è invariante per scalare ed è limitato, la deviazione standard invariante per uno spostamento e non limitato, quindi sono difficili da confrontare direttamente. Ora puoi definire una versione invariante di scala della deviazione standard, dividendo per la media (coefficiente di variazione).
Tuttavia, l'indice Gini è ancora basato su valori, il secondo su valori quadrati, quindi puoi aspettarti che il secondo sarà più influenzato dagli outlier (valori eccessivamente bassi o alti). Questo si trova nelle misure di disuguaglianza di reddito , F De Maio, 2007:
Questa misura della disuguaglianza di reddito è calcolata dividendo la deviazione standard della distribuzione del reddito per la sua media. Una distribuzione più equa del reddito avrà deviazioni standard più piccole; come tale, il CV sarà più piccolo nelle società più uguali. Nonostante sia una delle misure più semplici di disuguaglianza, l'uso del CV è stato piuttosto limitato nella letteratura sulla salute pubblica e non è stato inserito nella ricerca sull'ipotesi della disuguaglianza di reddito. Ciò può essere attribuito a importanti limiti della misura CV: (1) non ha un limite superiore, a differenza del coefficiente Gini, 18 rendendo l'interpretazione e il confronto un po 'più difficili; e (2) le due componenti del CV (la media e la deviazione standard) possono essere eccessivamente influenzate da valori di reddito anormalmente bassi o alti. In altre parole,
Quindi il coefficiente di variazione è meno robusto e ancora illimitato. Per fare un ulteriore passo, puoi rimuovere la media e dividere invece per la deviazione assoluta ( ). Fino a un fattore, si rapporto norma , che può essere limitato, poiché, per un vettore , .ℓ 1 / ℓ 2 N ℓ 2 ( x ) ≤ ℓ 1 ( x ) ≤ √ℓ1(x−m)=∑|xn−m|ℓ1/ℓ2Nℓ2(x)≤ℓ1(x)≤N−−√ℓ2(x)
Ora hai, con l'indice Gini e il rapporto della norma , due interessanti misure di di distribuzione, invariante alla scala e limitata.ℓ1/ℓ2
Vengono confrontati in Comparing Measures of Sparsity , 2009. Testato su diverse proprietà di sparsità naturali (Robin Hood, Scaling, Rising Tide, Cloning, Bill Gates e Babies), l'indice Gini si distingue come il migliore. Ma la sua forma rende difficile l'utilizzo come funzione di perdita e in questo contesto è possibile utilizzare versioni regolarizzate diℓ1/ℓ2 .
Quindi, a meno che non si desideri caratterizzare una distribuzione quasi gaussiana, se si desidera misurare una sparsità, utilizzare l'indice Gini, se si desidera promuovere la sparsità tra diversi modelli, è possibile provare un tale rapporto di norma.
Conferenza aggiuntiva: differenza media di Gini: una misura superiore della variabilità per distribuzioni non normali , Shlomo Yitzhaki, 2003, il cui abstract potrebbe apparire interessante:
Di tutte le misure di variabilità, la varianza è di gran lunga la più popolare. Questo articolo sostiene che la differenza media di Gini (GMD), un indice alternativo di variabilità, condivide molte proprietà con la varianza, ma può essere più informativo sulle proprietà delle distribuzioni che si discostano dalla normalità