Matematica dietro alberi di classificazione e regressione

14

Qualcuno può aiutare a spiegare alcune delle matematiche alla base della classificazione in CART? Sto cercando di capire come accadono due fasi principali. Ad esempio, ho addestrato un classificatore CART su un set di dati e ho usato un set di dati di prova per contrassegnare le prestazioni predittive ma:

Come viene scelta la radice iniziale dell'albero?
Perché e come si forma ogni ramo?

Il mio set di dati, essendo 400 mila record con 15 colonne e 23 classi, raggiunge un'accuratezza del 100% da una matrice di confusione, uso un set di 10 volte il crossvalidation sul set di dati. Sarei davvero grato se qualcuno potesse aiutare a spiegare le fasi della classificazione CART?

— G Gr
fonte

24

Il CART e gli alberi decisionali come gli algoritmi funzionano attraverso il partizionamento ricorsivo del set di addestramento al fine di ottenere sottoinsiemi il più puri possibile per una data classe target. Ogni nodo dell'albero è associato a un particolare insieme di record che è diviso da un test specifico su una funzione. Ad esempio, una prova su un attributo continuo può essere indotta dal test . L'insieme dei record viene quindi partizionato in due sottoinsiemi che conducono al ramo sinistro dell'albero e a quello destro. $T$ $A$ $A \le x$ $T$

$T_l = \{ t \in T: t(A) \le x \}$

e

$T_r = \{ t \in T: t(A) > x \}$

Allo stesso modo, una caratteristica categorica può essere utilizzata per indurre divisioni in base ai suoi valori. Ad esempio, se ogni ramo può essere indotto dal test . $B$ $B = \{b_1, \dots, b_k\}$ $i$ $B = b_i$

La fase di divisione dell'algoritmo ricorsivo per indurre l'albero decisionale tiene conto di tutte le possibili divisioni per ciascuna caratteristica e cerca di trovare la migliore in base a una misura di qualità scelta: il criterio di divisione. Se il set di dati viene indotto nel seguente schema

A_{1}, \dots, A_{m}, C

$A_1, \dots, A_m, C$

dove sono attributi e è la classe target, tutte le suddivisioni dei candidati vengono generate e valutate dal criterio di suddivisione. Le suddivisioni su attributi continui e quelli categoriali vengono generate come descritto sopra. La selezione della migliore divisione viene di solito effettuata mediante misure di impurità. L'impurità del nodo padre deve essere ridotta della divisione . Sia una divisione indotta sull'insieme dei record , un criterio di divisione che utilizza la misura di impurità è: $A_j$ $C$ $(E_1, E_2, \dots, E_k)$ $E$ $I(\cdot)$

Δ = I (E) - \sum_{i = 1}^{k} \frac{| E_{i} |}{| E |} I (E_{i})

$\Delta = I(E) - \sum_{i=1}^{k}\frac{|E_i|}{|E|}I(E_i)$

Le misure standard di impurità sono l'entropia di Shannon o l'indice Gini. Più specificamente, CART utilizza l'indice Gini definito per l'insieme come segue. Sia la frazione dei record in di classe $E$ $p_j$ $E$ $c_j$ quindi dove

p_{j} = \frac{| {t \in E : t [C] = c_{j}} |}{| E |}

$p_j = \frac{|\{t \in E:t[C] = c_j\}|}{|E|}$

G i n i (E) = 1 - \sum_{j = 1}^{Q} p_{j}^{2}

$\mathit{Gini}(E) = 1 - \sum_{j=1}^{Q}p_j^2$

Q

$Q$ è il numero di classi.

Porta a un'impurità 0 quando tutti i record appartengono alla stessa classe.

Per fare un esempio, diciamo che abbiamo una serie di classe binario di record dove la distribuzione classe è - La seguente è una buona spaccatura per $T$ $(1/2, 1/2)$ $T$

Buona divisione

$T_l$ $(1,0)$ $T_r$ $(0,1)$ $T_l$ $T_r$ $|T_l|/|T| = |T_r|/|T| = 1/2$ $\Delta$

Δ = 1 - 1 / 2^{2} - 1 / 2^{2} - 0 - 0 = 1 / 2

$\Delta = 1 - 1/2^2 - 1/2^2 - 0 - 0 = 1/2$

$\Delta$ Spaccatura sbagliata

Δ = 1 - 1 / 2^{2} - 1 / 2^{2} - 1 / 2 (1 - (3 / 4)^{2} - (1 / 4)^{2}) - 1 / 2 (1 - (1 / 4)^{2} - (3 / 4)^{2}) = 1 / 2 - 1 / 2 (3 / 8) - 1 / 2 (3 / 8) = 1 / 8

$\Delta = 1 - 1/2^2 - 1/2^2 - 1/2 \bigg( 1 - (3/4)^2 - (1/4)^2 \bigg) - 1/2 \bigg( 1 - (1/4)^2 - (3/4)^2 \bigg) = 1/2 - 1/2(3/8) - 1/2(3/8) = 1/8$

La prima divisione verrà selezionata come migliore suddivisione e quindi l'algoritmo procede in modo ricorsivo.

È facile classificare una nuova istanza con un albero decisionale, infatti è sufficiente seguire il percorso dal nodo radice a una foglia. Un record è classificato con la classe di maggioranza della foglia che raggiunge.

Diciamo che vogliamo classificare il quadrato su questa figura

Set di dati con due funzioni

$A,B,C$ $C$ $A$ $B$

Un possibile albero decisionale indotto potrebbe essere il seguente: inserisci qui la descrizione dell'immagine

È chiaro che il quadrato del record verrà classificato dall'albero decisionale come un cerchio dato che il record cade su una foglia etichettata con cerchi.

In questo esempio di giocattolo l'accuratezza sul set di addestramento è del 100% perché nessun record è classificato male dall'albero. Sulla rappresentazione grafica del set di allenamento sopra possiamo vedere i confini (linee tratteggiate grigie) che l'albero usa per classificare le nuove istanze.

C'è molta letteratura sugli alberi delle decisioni, volevo solo scrivere un'introduzione abbozzata. Un'altra famosa implementazione è C4.5.

— Simone
fonte

1

grandi diagrammi!

— Cam.Davidson.Pilon il

Grazie, sfortunatamente sembra che l'editor non supporti il caricamento in formato PDF. Erano vettoriali.

— Simone,

2

Non sono un esperto di CART ma puoi provare il libro "Elementi di apprendimento statistico" che è disponibile gratuitamente online (vedi capitolo 9 per CART). Credo che il libro sia stato scritto da uno dei creatori dell'algoritmo CART (Friedman).

— bitwise
fonte

Ciò ha aiutato molto! +1 trovare brillante!

— G Gr,

@GarrithGraham nessun problema, pensavo che questo libro gratuito fosse un "segreto ben noto".

— Bitwise,