Riduzione di Gini e impurità di Gini dei nodi infantili

Sto lavorando alla misura di importanza della funzione Gini per la foresta casuale. Pertanto, devo calcolare la diminuzione di Gini nell'impurità del nodo. Ecco il modo in cui lo faccio, che porta a un conflitto con la definizione, suggerendo che devo sbagliarmi da qualche parte ... :)

Per un albero binario, e date le probabilità dei bambini sinistro e destro, posso calcolare l'impurità di Gini di un nodo $n$ :

io (n) = 1 - p_{l}^{2} - p_{r}^{2}

$i(n) = 1 - p_l^2 - p_r^2$

E il Gini diminuisce:

Δ io (n) = io (n) - p_{l} io (n_{l}) - p_{r} io (n_{r})

$\Delta i(n) = i(n) - p_li(n_l) - p_ri(n_r)$

Quindi, per questo esempio con 110 osservazioni su un nodo:

- node (110)
   - left (100)
      - left_left (60)
      - left_right (40)
   - right (10)
      - right_left (5)
      - right_right (5)

Vorrei calcolare la diminuzione di Gini per il nodo in questo modo:

\begin{aligned} i (l e f t) & = 1 - (60 / 100)^{²} - (40 / 100)^{²} & = 0.48 \\ i (r i g h t) & = 1 - (5 / 10)^{²} - (5 / 10)^{²} & = 0.50 \\ i (n o d e) & = 1 - (100 / 110)^{²} - (10 / 110)^{²} & = 0.16 \end{aligned}

$\begin{align} i({\rm left}) &= 1 - (60/100)^² - (40/100)^²& &= 0.48 \\ i({\rm right}) &= 1 - (5/10)^² - (5/10)^²& &= 0.50 \\ i({\rm node}) &= 1 - (100/110)^² - (10/110)^²& &= 0.16 \end{align}$

Ma seguendo la definizione di Breiman (o questa risposta su CV: Come misurare / classificare "importanza variabile" quando uso CART , ma non ho accesso al libro di riferimento), il criterio di impurità del discendente dovrebbe essere inferiore al genitore nodo:

Importanza di Gini
Ogni volta che viene effettuata una divisione di un nodo sulla variabile m il criterio di impurità gini per i due nodi discendenti è inferiore al nodo principale. Sommare i gini diminuisce per ogni singola variabile su tutti gli alberi della foresta dà un'importanza variabile veloce che è spesso molto coerente con la misura dell'importanza della permutazione.

Perché altrimenti, porta a una diminuzione negativa di Gini ...

Δ i (n o d e) = i (n o d e) - (100 / 110) * i (l e f t) - (10 / 110) * i (r i g h t) = - 0.32

$\Delta i({\rm node}) = i({\rm node}) - (100/110)*i({\rm left}) - (10/110)*i({\rm right}) = -0.32$

Quindi, se qualcuno potesse dire dove sbaglio, sarei molto grato perché sembra che mi manchi qualcosa di evidente qui ...

feature-selection random-forest cart

— Remi Mélisson
fonte

Semplicemente non hai usato affatto la variabile della classe target. L'impurità di Gini come tutte le altre funzioni di impurità, misura l'impurità degli output dopo una divisione. Quello che hai fatto è misurare qualcosa usando solo la dimensione del campione.

Cerco di ricavare la formula per il tuo caso.

Supponiamo che tu abbia un classificatore binario per semplicità. Indicare con l'attributo test, con l'attributo class con valori . $A$ $C$ $c_+, c_-$

L'indice gini iniziale prima della divisione è dato da dove è la proporzione di punti dati che hanno valore per la classe variabile.

io (UN) = 1 - P ({UN}_{+})^{2} - P ({UN}_{-})^{2}

$I(A) = 1 - P(A_+)^2 - P(A_-)^2$

P (A_{+})

$P(A_+)$

c_{+}

$c_+$

Ora, l'impurità per il nodo sinistro sarebbe dove è la proporzione di punti dati dal sottoinsieme sinistro di che hanno valore nella variabile di classe, ecc.

io (UN l) = 1 - P (UN l_{+})^{2} - P (UN l_{-})^{2}

$I(Al) = 1 - P(Al_+)^2-P(Al_-)^2$

io (UN r) = 1 - P (UN r_{+})^{2} - P (UN r_{-})^{2}

$I(Ar) = 1 - P(Ar_+)^2-P(Ar_-)^2$

P (A l_{+})

$P(Al_+)$

A

$A$

c_{+}

$c_+$

Ora la formula finale per GiniGain sarebbe

sol io n io sol un' io n (UN) = io (UN) - p_{l e f t} io (UN l) - p_{r io g h t} io (UN r)

$GiniGain(A) = I(A) - p_{left}I(Al) - p_{right}I(Ar)$ dove è la proporzione di istanze per il sottoinsieme sinistro, oppure (quante istanze sono in sottoinsieme sinistra diviso per il numero totale di istanze da .

p_{l e f t}

$p_{left}$

\frac{# | A l |}{# | A l | + # | A r |}

$\frac{\#|Al|}{\#|Al|+\#|Ar|}$

A

$A$

Sento che la mia notazione potrebbe essere migliorata, guarderò più tardi quando avrò più tempo.

Conclusione

L'uso del solo numero di punti dati non è sufficiente, impurità significa quanto una funzione (funzione di test) è in grado di riprodurre la distribuzione di un'altra funzione (funzione di classe). La distribuzione della funzione di test produce il numero che hai usato (come a sinistra, come a destra), ma la distribuzione della funzione di classe non viene utilizzata nelle tue formule.

Modifica successiva: dimostra perché diminuisce

Ora ho notato che mi mancava la parte che dimostra perché l'indice gini sul nodo figlio è sempre inferiore rispetto al nodo padre. Non ho un proove completo o verificato, ma sto pensando che sia una prova valida. Per altre cose interessanti relative all'argomento, è possibile controllare Nota tecnica: alcune proprietà dei criteri di scissione - Leo Breiman . Ora seguirà la mia prova.

Supponiamo che siamo nel caso binario, e tutti i valori in un nodo potrebbe essere completamente descritto da una coppia con il significato di istanze della prima classe, e istanze della seconda classe. Possiamo affermare che nel nodo genitore abbiamo istanze . $(a,b)$ $a$ $b$ $(a,b)$

Per trovare la migliore suddivisione ordiniamo le istanze in base a una funzione di test e proviamo tutte le possibili divisioni binarie. Ordinato per una determinata funzione è in realtà una permutazione di istanze, in cui le classi iniziano con un'istanza della prima classe o della seconda classe. Senza perdere la generalità, supponiamo che inizi con un'istanza della prima classe (in caso contrario abbiamo una prova speculare con lo stesso calcolo).

La prima divisione da provare è nelle istanze sinistra e destra . Come viene confrontato l'indice gini per quei possibili candidati per i nodi figlio sinistro e destro con il nodo padre? Ovviamente a sinistra abbiamo . Quindi sul lato sinistro abbiamo un valore dell'indice gini più piccolo. E il nodo giusto? $(1,0)$ $(a-1,b)$ $h(left) = 1 - (1/1)^2 - (0/1)^2 = 0$

h (p un' r e n t) = 1 - (\frac{un'}{un' + B})^{2} - (\frac{B}{un' + B})^{2}

$h(parent) = 1 - (\frac{a}{a+b})^2 - (\frac{b}{a+b})^2$

h (r io g h t) = 1 - (\frac{un' - 1}{(un' - 1) + B})^{2} - (\frac{B}{(un' - 1) + B})^{2}

$h(right) = 1 - (\frac{a-1}{(a-1)+b})^2 - (\frac{b}{(a-1)+b})^2$

Considerando che è maggiore o uguale a (poiché altrimenti come potremmo separare un'istanza della prima classe nel nodo sinistro?) E dopo la semplificazione è semplice vedere che l'indice gini per il nodo destro ha un valore inferiore rispetto a nodo padre. $a$ $0$

Ora la fase finale della dimostrazione è quella di dare un nodo al fatto che, considerando tutti i possibili punti di divisione dettati dai dati che abbiamo, manteniamo quello che ha il più piccolo indice gini aggregato, il che significa che l'ottimale che scegliamo è inferiore o uguale al banale quello che mi è sembrato più piccolo. Il che conclude che alla fine l'indice gini diminuirà.

Come conclusione finale dobbiamo notare anche se varie divisioni possono dare valori più grandi di quel nodo genitore, quello che scegliamo sarà il più piccolo tra loro e anche più piccolo del valore dell'indice gini genitore.

Spero che sia d'aiuto.

— rapaio
fonte

Grazie mille, mi hai sbloccato il cervello ... In effetti, dato che ho a che fare con alberi di regressione, l'uso della variabile di classe target è apparso meno ovvio che per un semplice compito di classificazione. Ma ora ha perfettamente senso.

— Remi Mélisson,

Ho aggiornato la risposta per contenere le parti mancanti.

— rapaio,