Qual è il lato debole degli alberi delle decisioni?


34

Gli alberi delle decisioni sembrano essere un metodo di apprendimento automatico molto comprensibile. Una volta creato, può essere facilmente ispezionato da un essere umano, il che è un grande vantaggio in alcune applicazioni.

Quali sono i lati pratici deboli degli alberi decisionali?

Risposte:


37

Ecco un paio a cui riesco a pensare:

  • Possono essere estremamente sensibili alle piccole perturbazioni dei dati: un leggero cambiamento può comportare un albero drasticamente diverso.
  • Possono facilmente adattarsi. Questo può essere negato con metodi di convalida e potatura, ma questa è un'area grigia.
  • Possono avere problemi con la previsione fuori campione (ciò è dovuto al fatto che non sono fluidi).

Alcuni di questi sono legati al problema della multicollinearità : quando due variabili spiegano entrambe la stessa cosa, un albero decisionale sceglierà avidamente il migliore, mentre molti altri metodi li useranno entrambi. Metodi di ensemble come foreste casuali possono negare questo in una certa misura, ma perdi la facilità di comprensione.

Tuttavia, il problema più grande, almeno dal mio punto di vista, è la mancanza di un quadro probabilistico di principio. Molti altri metodi hanno elementi come intervalli di confidenza, distribuzioni posteriori ecc., Che ci danno un'idea di quanto sia buono un modello. Un albero decisionale è in definitiva un euristico ad hoc, che può ancora essere molto utile (sono eccellenti per trovare le fonti di bug nell'elaborazione dei dati), ma c'è il pericolo che le persone trattino l'output come "il" modello corretto (dal mio esperienza, questo succede molto nel marketing).


2
Da un punto di vista ML gli alberi possono essere testati come qualsiasi altro classificatore (ad esempio CV). Tuttavia mostra piuttosto che si è verificato un eccessivo equipaggiamento ;-) Anche RF sfugge alla multicollinearità non perché è un insieme, ma perché i suoi alberi non sono ottimali.

2
Per un quadro probabilistico di alberi decisionali, consultare DTREE (url: datamining.monash.edu.au/software/dtree/index.shtml ) che si basa sul documento "Wallace CS & Patrick JD,` Coding Decision Trees ', Machine Learning , 11, 1993, pp7-22 ".
emakalic

2
Inoltre, non è possibile ottenere CI (per le previsioni) usando il bootstrap?
Tal Galili,

@Simon Byrne, ho una domanda sul tuo commento "Tuttavia il problema più grande, almeno dal mio punto di vista, è la mancanza di un quadro probabilistico di principio". Perdona la mia ignoranza, ma potresti indicarmi alcuni quadri probabilistici pratici di principio (in particolare nel contesto della classificazione). Sono molto interessato a questa limitazione degli alberi decisionali.
Amelio Vazquez-Reina,

2
@AmV, un esempio potrebbe essere la regressione logistica: possiamo usare il fatto che ogni osservazione proviene da un binomio per ottenere intervalli di confidenza / credibilità e verificare i presupposti del modello.
Simon Byrne,

23

Uno svantaggio è che si presume che tutti i termini interagiscano. Cioè, non puoi avere due variabili esplicative che si comportano in modo indipendente. Ogni variabile nella struttura ad albero è costretta a interagire con ogni variabile più in alto nella struttura ad albero. Ciò è estremamente inefficiente se esistono variabili che non hanno interazioni deboli o assenti.


mi chiedo se questa sia una limitazione pratica, però - per una variabile che influenza solo debolmente la classificazione, la mia intuizione è che l'albero probabilmente non si dividerà su quella variabile (cioè non sarà un nodo) che a sua volta significa è invisibile per quanto riguarda la classificazione dell'albero decisionale.
Doug

Sto parlando di interazioni deboli, non di effetti deboli sulla classificazione. Un'interazione è una relazione tra due delle variabili predittive.
Rob Hyndman,

2
Questo può essere inefficiente, ma la struttura ad albero può gestirlo.

Ecco perché ho detto inefficiente piuttosto che parziale o errato. Se hai un sacco di dati, non importa molto. Ma se si adatta un albero a poche centinaia di osservazioni rispetto alle interazioni ipotizzate, si può ridurre notevolmente la precisione predittiva.
Rob Hyndman,

2
Essere d'accordo; Volevo solo evidenziarlo. Penso ancora che la riduzione della precisione predittiva possa essere rimossa usando un addestramento adeguato; in filogenetica il problema simile (avidità) è ridotto dalla scansione di Monte Carlo del possibile spazio dell'albero per trovare quelli con la massima probabilità - non so che ci sia un approccio simile nelle statistiche, probabilmente nessuno è stato disturbato da questo problema a tale estensione.

12

La mia risposta è indirizzata al CART (le implementazioni C 4.5 / C 5) anche se non credo che siano limitate ad esso. La mia ipotesi è che questo è ciò che l'OP ha in mente - di solito è ciò che qualcuno intende quando dicono "Albero decisionale".

Limitazioni degli alberi decisionali :


Low-Performance

Per "prestazioni" non intendo risoluzione, ma velocità di esecuzione . Il motivo per cui è scadente è che è necessario "ridisegnare l'albero" ogni volta che si desidera aggiornare il modello CART - dati classificati da un albero già addestrato, che si desidera aggiungere all'albero (ovvero utilizzare come punto dati di training) richiede di iniziare da istanze di training eccessivo che non possono essere aggiunte in modo incrementale, come accade per la maggior parte degli altri algoritmi di apprendimento supervisionato. Forse il modo migliore per affermarlo è che gli alberi decisionali non possono essere addestrati in modalità online, piuttosto solo in modalità batch. Ovviamente non noterai questa limitazione se non aggiorni il tuo classificatore, ma poi mi aspetterei di vedere un calo della risoluzione.

Ciò è significativo perché, ad esempio, per Pertrtron multistrato, una volta addestrato, può iniziare a classificare i dati; tali dati possono anche essere utilizzati per "ottimizzare" il classificatore già addestrato, sebbene con gli alberi decisionali, è necessario riqualificarsi con l'intero set di dati (dati originali utilizzati nella formazione più eventuali nuove istanze).


Scarsa risoluzione dei dati con relazioni complesse tra le variabili

Gli alberi decisionali classificano in base alla valutazione graduale di un punto dati di classe sconosciuta, un nodo alla volta, a partire dal nodo principale e terminando con un nodo terminale. E su ciascun nodo, sono possibili solo due possibilità (sinistra-destra), quindi ci sono alcune relazioni variabili che gli alberi decisionali non sono in grado di apprendere.


Praticamente limitato alla classificazione

Gli alberi decisionali funzionano meglio quando vengono addestrati per assegnare un punto dati a una classe, preferibilmente una delle poche classi possibili. Non credo di aver mai avuto successo usando un albero decisionale in modalità di regressione (ovvero produzione continua, come il prezzo o le entrate previste per la vita). Questa non è una limitazione formale o intrinseca, ma pratica. Il più delle volte, gli alberi decisionali vengono utilizzati per la previsione di fattori o risultati discreti.


Scarsa risoluzione con variabili di aspettativa continua

Ancora una volta, in linea di principio, va bene avere variabili indipendenti come "tempo di download" o "numero di giorni dall'acquisto online precedente" - basta cambiare il criterio di suddivisione in varianza (di solito è Entropia di informazioni o Impurità di Gini per variabili discrete) ma nel mio esperienza Gli alberi decisionali raramente funzionano bene in questi casi. Eccezioni sono casi come "l'età dello studente" che sembra continuo ma in pratica l'intervallo di valori è piuttosto piccolo (in particolare se sono riportati come numeri interi).


1
+1 per la buona chiamata sull'angolo delle prestazioni, che di solito non ottiene abbastanza gioco. Ho visto alberi della decisione incorrere in problemi di prestazioni su diverse piattaforme software progettate per set di dati di grandi dimensioni (come SQL Server), almeno rispetto ad altri metodi di data mining. Questo è a parte l'intero problema di riqualificazione che hai sollevato. Sembra peggiorare nei casi in cui si verifica un overfitting (anche se si può dire di molti altri algoritmi di mining).
SQLServerSteve

10

Ci sono buone risposte qui, ma sono sorpreso che una cosa non sia stata enfatizzata. CART non fa alcuna ipotesi distributiva sui dati, in particolare sulla variabile di risposta. Al contrario, OLS regressione (per le variabili risposta continue) e regressione logistica (per alcune variabili di risposta categoriali), per esempio, fanno fare ipotesi forti; in particolare, la regressione OLS presuppone che la risposta sia distribuita in modo condizionale e la logistica presuppone che la risposta sia binomiale o multinomiale.

La mancanza di tali presupposti da parte del CART è un'arma a doppio taglio. Quando tali ipotesi non sono giustificate, questo dà all'approccio un vantaggio relativo. D'altra parte, quando valgono tali presupposti, è possibile estrarre maggiori informazioni dai dati tenendo conto di tali fatti. Cioè, i metodi di regressione standard possono essere più informativi di CART quando i presupposti sono veri.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.