La mia risposta è indirizzata al CART (le implementazioni C 4.5 / C 5) anche se non credo che siano limitate ad esso. La mia ipotesi è che questo è ciò che l'OP ha in mente - di solito è ciò che qualcuno intende quando dicono "Albero decisionale".
Limitazioni degli alberi decisionali :
Low-Performance
Per "prestazioni" non intendo risoluzione, ma velocità di esecuzione . Il motivo per cui è scadente è che è necessario "ridisegnare l'albero" ogni volta che si desidera aggiornare il modello CART - dati classificati da un albero già addestrato, che si desidera aggiungere all'albero (ovvero utilizzare come punto dati di training) richiede di iniziare da istanze di training eccessivo che non possono essere aggiunte in modo incrementale, come accade per la maggior parte degli altri algoritmi di apprendimento supervisionato. Forse il modo migliore per affermarlo è che gli alberi decisionali non possono essere addestrati in modalità online, piuttosto solo in modalità batch. Ovviamente non noterai questa limitazione se non aggiorni il tuo classificatore, ma poi mi aspetterei di vedere un calo della risoluzione.
Ciò è significativo perché, ad esempio, per Pertrtron multistrato, una volta addestrato, può iniziare a classificare i dati; tali dati possono anche essere utilizzati per "ottimizzare" il classificatore già addestrato, sebbene con gli alberi decisionali, è necessario riqualificarsi con l'intero set di dati (dati originali utilizzati nella formazione più eventuali nuove istanze).
Scarsa risoluzione dei dati con relazioni complesse tra le variabili
Gli alberi decisionali classificano in base alla valutazione graduale di un punto dati di classe sconosciuta, un nodo alla volta, a partire dal nodo principale e terminando con un nodo terminale. E su ciascun nodo, sono possibili solo due possibilità (sinistra-destra), quindi ci sono alcune relazioni variabili che gli alberi decisionali non sono in grado di apprendere.
Praticamente limitato alla classificazione
Gli alberi decisionali funzionano meglio quando vengono addestrati per assegnare un punto dati a una classe, preferibilmente una delle poche classi possibili. Non credo di aver mai avuto successo usando un albero decisionale in modalità di regressione (ovvero produzione continua, come il prezzo o le entrate previste per la vita). Questa non è una limitazione formale o intrinseca, ma pratica. Il più delle volte, gli alberi decisionali vengono utilizzati per la previsione di fattori o risultati discreti.
Scarsa risoluzione con variabili di aspettativa continua
Ancora una volta, in linea di principio, va bene avere variabili indipendenti come "tempo di download" o "numero di giorni dall'acquisto online precedente" - basta cambiare il criterio di suddivisione in varianza (di solito è Entropia di informazioni o Impurità di Gini per variabili discrete) ma nel mio esperienza Gli alberi decisionali raramente funzionano bene in questi casi. Eccezioni sono casi come "l'età dello studente" che sembra continuo ma in pratica l'intervallo di valori è piuttosto piccolo (in particolare se sono riportati come numeri interi).