Coefficiente di Gini vs impurità di Gini - alberi decisionali


25

Il problema si riferisce alla costruzione di alberi decisionali. Secondo Wikipedia il " coefficiente di Gini " non deve essere confuso con "l' impurità di Gini ". Tuttavia, entrambe le misure possono essere utilizzate quando si costruisce un albero decisionale: possono supportare le nostre scelte quando si divide il set di elementi.

1) "Gini impurità" - è una metrica standard di suddivisione dell'albero decisionale (vedi nel link sopra);

2) "Coefficiente di Gini": ogni scissione può essere valutata in base al criterio AUC. Per ogni scenario di scissione possiamo costruire una curva ROC e calcolare la metrica AUC. Secondo Wikipedia AUC = (GiniCoeff + 1) / 2;

La domanda è: entrambe queste misure sono equivalenti? Da un lato, sono informato che il coefficiente di Gini non deve essere confuso con l'impurità di Gini. D'altra parte, entrambe queste misure possono essere utilizzate per fare la stessa cosa: valutare la qualità di una divisione dell'albero decisionale.


Sono arrivato a questa domanda alla ricerca di una definizione: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
Martin Thoma

Risposte:


28

No, nonostante i loro nomi non sono equivalenti o simili.

  • L'impurità di Gini è una misura di classificazione errata, che si applica in un contesto di classificazione multiclasse.
  • Il coefficiente di Gini si applica alla classificazione binaria e richiede un classificatore che può in qualche modo classificare esempi in base alla probabilità di essere in una classe positiva.

Entrambi potrebbero essere applicati in alcuni casi, ma sono misure diverse per cose diverse. L'impurità è ciò che viene comunemente utilizzato negli alberi delle decisioni .


7

Ho preso un esempio di dati con due persone A e B con ricchezza rispettivamente di unità 1 e 3. Gini Impurità secondo Wikipedia = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8

Il coefficiente di Gini secondo Wikipedia sarebbe il rapporto dell'area tra la linea rossa e blu rispetto all'area totale sotto la linea blu nel seguente grafico

inserisci qui la descrizione dell'immagine

L'area sotto la linea rossa è 1/2 + 1 + 3/2 = 3

Area totale sotto la linea blu = 4

Quindi coefficiente di Gini = 3/4

Chiaramente i due numeri sono diversi. Controllerò più casi per vedere se sono proporzionali o c'è una relazione esatta e modificherò la risposta.

Modifica: ho controllato anche altre combinazioni, il rapporto non è costante. Di seguito è riportato un elenco di alcune combinazioni che ho provato. inserisci qui la descrizione dell'immagine


Che spiegazione !!
Outlier

0

Penso che entrambi rappresentino lo stesso concetto.

Negli alberi di classificazione, l'indice Gini viene utilizzato per calcolare l'impurità di una partizione di dati. Quindi supponiamo che la partizione di dati D sia composta da 4 classi ciascuna con uguale probabilità. Quindi l'indice Gini (Gini Impurity) sarà: Gini (D) = 1 - (0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2)

In CART eseguiamo divisioni binarie. Quindi l'indice gini verrà calcolato come la somma ponderata delle partizioni risultanti e selezioniamo la divisione con l'indice gini più piccolo.

Quindi l'uso di Gini Impurity (Gini Index) non si limita alle situazioni binarie.

Un altro termine per Gini Impurity è Gini Coefficient che viene normalmente utilizzato come misura della distribuzione del reddito.


3
Il coefficiente di Gini non è impurità di Gini. Vedi i link nella domanda
Sean Owen,

2
Wikipedia non è sempre una fonte affidabile di informazioni :-)
Pasmod Turing,

2
Sicuro. Vai a cercarlo altrove: mathworld.wolfram.com/GiniCoefficient.html Cosa ti fa pensare al coefficiente di Gini = impurità di Gini?
Sean Owen,


1
Penso che stiamo parlando di alberi decisionali. Quindi siamo nel campo dell'apprendimento automatico! Si prega di leggere la domanda più attentamente
Pasmod Turing,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.