Sto cercando di capire come comprendere appieno il processo decisionale di un modello di classificazione dell'albero decisionale creato con sklearn. I 2 aspetti principali che sto guardando sono una rappresentazione grafica dell'albero e l'elenco delle importazioni delle funzionalità. Quello che non capisco è come viene determinata l'importanza della funzione nel contesto dell'albero. Ad esempio, ecco il mio elenco di importanti funzionalità:
Classifica delle caratteristiche: 1. Caratteristica A (0.300237)
FeatureB (0.166800)
Caratteristica C (0,092472)
FeatureD (0.075009)
Caratteristica E (0,068310)
FeatureF (0.067118)
FeatureG (0.066510)
CaratteristicaH (0.043502)
FeatureI (0.040281)
FeatureJ (0.039006)
FeatureK (0.032618)
FeatureL (0.008136)
FeatureM (0.000000)
Tuttavia, quando guardo la parte superiore dell'albero, si presenta così:
In effetti, alcune delle caratteristiche classificate "più importanti" non appaiono fino a molto più in basso nella struttura e la parte superiore della struttura è FeatureJ, che è una delle caratteristiche con la classificazione più bassa. La mia ingenua ipotesi sarebbe che le caratteristiche più importanti sarebbero state classificate vicino alla cima dell'albero per avere il massimo impatto. Se ciò non è corretto, cos'è che rende "importante" una funzione?