Gli alberi decisionali sono quasi sempre alberi binari?


21

Quasi ogni esempio di albero decisionale che ho incontrato sembra essere un albero binario. È praticamente universale? La maggior parte degli algoritmi standard (C4.5, CART, ecc.) Supporta solo alberi binari? Da quello che raccolgo, CHAID non si limita agli alberi binari, ma sembra essere un'eccezione.

Una divisione a due vie seguita da un'altra divisione a due vie su uno dei bambini non è la stessa cosa di una singola divisione a tre. Questo potrebbe essere un punto accademico, ma sto cercando di assicurarmi di capire i casi d'uso più comuni.

Risposte:


18

Questo è principalmente un problema tecnico: se non ti limiti alle scelte binarie, ci sono semplicemente troppe possibilità per la prossima divisione nella struttura. Quindi hai sicuramente ragione in tutti i punti sollevati nella tua domanda.

Tenere presente che la maggior parte degli algoritmi di tipo ad albero funzionano in modo graduale e non sono pertanto garantiti per fornire il miglior risultato possibile. Questo è solo un avvertimento in più.

Per la maggior parte degli scopi pratici, sebbene non durante la costruzione / potatura dell'albero, i due tipi di spaccature sono equivalenti, tuttavia, dato che appaiono immediatamente uno dopo l'altro.


Solo per amplificare il tuo primo punto: il numero di possibili divisioni aumenta esponenzialmente. Se si esegue la divisione su una variabile continua con 1000 valori distinti, ci sono 999 divisioni binarie, ma 999 * 998 divisioni trinitarie.
Peter Flom - Ripristina Monica

2
@Peter Ci sono (1000131)=999998/2 divisioni ternarie, in realtà.
whuber

5

Una divisione a due vie seguita da un'altra divisione a due vie su uno dei bambini non è la stessa cosa di una singola divisione a tre vie

Non sono sicuro di cosa intendi qui. Qualsiasi divisione multipla può essere rappresentata come una serie di suddivisioni bidirezionali. Per una divisione a tre, puoi dividere in A, B e C dividendo prima in A&B contro C e poi dividendo A da B.

Un determinato algoritmo potrebbe non scegliere quella particolare sequenza (specialmente se, come la maggior parte degli algoritmi, è avido), ma certamente potrebbe. E se qualsiasi procedura di randomizzazione o per fasi viene eseguita come in foreste casuali o alberi potenziati, le possibilità di trovare la giusta sequenza di divisioni aumentano. Come altri hanno sottolineato, le suddivisioni multidirezionali sono costose dal punto di vista computazionale, quindi date queste alternative, la maggior parte dei ricercatori sembra aver scelto le divisioni binarie.

Spero che sia di aiuto


3
Sì, capisco che A, B e C possono essere raggiunti prima dividendo in A&B vs. C e poi dividendo A da B. Il mio punto era in effetti che un determinato algoritmo potrebbe non scegliere quella particolare sequenza.
Michael McGowan,

2

Per quanto riguarda gli usi dell'albero decisionale e della suddivisione (binaria rispetto ad altre), conosco solo CHAID che ha suddivisioni non binarie ma probabilmente ce ne sono altre. Per me, l'uso principale di una divisione non binaria è negli esercizi di data mining in cui sto esaminando come binare in modo ottimale una variabile nominale con molti livelli. Una serie di divisioni binarie non è utile come un raggruppamento fatto da CHAID.


È divertente che tu abbia menzionato il binning, perché pensare al binning è ciò che mi ha fatto iniziare a chiedermi questa domanda (anche se stavo pensando al binning delle variabili numeriche piuttosto che delle variabili nominali).
Michael McGowan,

@Michael, Sì, funziona anche ma butti via informazioni. Lo uso quando ho bisogno di combinare livelli sparsi di una variabile nominale - quando la modellazione finale verrà eseguita senza un approccio di tipo ad albero (ad esempio la regressione logistica o SVM e molte variabili fittizie sparse causano problemi)
B_Miner

0

Per favore leggi questo

Per motivi pratici (esplosione combinatoria) la maggior parte delle biblioteche implementano alberi decisionali con divisioni binarie. La cosa bella è che sono NP-completi (Hyafil, Laurent e Ronald L. Rivest. "Costruire alberi di decisione binari ottimali è NP-completo." Information Processing Letters 5.1 (1976): 15-17.)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.