Algoritmo per l'ottimizzazione degli alberi decisionali

sfondo

Un albero di decisione binario $T$ è un albero radicato dove ogni nodo interno (e radice) è etichettato da un indice $j \in \{1,..., n\}$ tale che nessun percorso dalla radice alla foglia ripete un indice, le foglie sono etichettate dagli output in $\{A,B\}$ e ogni bordo è etichettato da $0$ per il figlio sinistro e $1$ per il figlio destro. Per applicare un albero a un input $x$ :

Inizia dalla radice
se si è in foglia, si produce l'etichetta foglia $A$ o $B$ e termina
Leggi l'etichetta del tuo nodo corrente, se quindi passa al figlio sinistro e se quindi passa al figlio destro. $j$ $x_j = 0$ $x_j = 1$
vai al passaggio (2)

L'albero è usato come un modo per valutare una funzione, in particolare diciamo che un albero rappresenta una funzione totale se per ogni abbiamo . La complessità della query di un albero è la sua profondità e la complessità della query di una funzione è la profondità dell'albero più piccolo che lo rappresenta. $T$ $f$ $x \in \{0,1\}^n$ $T(x) = f(x)$

Problema

Dato un albero decisionale binario T emette un albero decisionale binario T 'di profondità minima tale che T e T' rappresentino la stessa funzione.

Domanda

Qual è l'algoritmo più noto per questo? Sono noti limiti inferiori? E se sappiamo che la ? Che dire se richiediamo che abbia una profondità approssimativamente minima? $\text{depth}(T') = O(\log \text{depth}(T))$ $T'$

Approccio ingenuo

L'approccio ingenuo è dato per enumerare in modo ricorsivo tutti gli alberi di decisione binaria di profondità durante il test se si valutano per la stessa cosa di . Questo sembra richiedere $d = \text{depth}(T)$ $d - 1$ $T$ passi (supponendo che siano necessaripassi per verificare a cosavaluta per unaarbitraria). C'è un approccio migliore? $O(\frac{d 2^n n!}{(n - d)!})$ $d$ $T(x)$ $x$

Motivazione

Questa domanda è motivata da una precedente domanda sul compromesso tra complessità della query e complessità temporale . In particolare, l'obiettivo è limitare la separazione temporale per le funzioni totali. Possiamo creare un albero da un algoritmo ottimale nel tempo con runtime , e quindi vorremmo convertirlo in un albero per un algoritmo di query ottimale. Sfortunatamente, se (E spesso $T$ $t$ $T'$ $t \in O(n!/(n - d)!)$ $d \in \Theta(n)$ ) il collo di bottiglia è la conversione. Sarebbe bello se potessimo sostituire da qualcosa come . $n!/(n - d)!$ $2^d$

ds.algorithms query-complexity decision-trees

— Artem Kaznatcheev
fonte

Trovare l'albero delle decisioni ottimale è NP-completo. Mi è stato insegnato che nelle lezioni di teoria delle decisioni e data mining, tuttavia quelle erano basate su note e non sono a conoscenza del documento originale che ha introdotto il risultato.

— Chazisop,

@chazisop cool, grazie. Non è ovvio per me che trovare l'albero decisionale ottimale sia in NP, ma ci penserò / lo cercherò ancora. A volte conoscere la dichiarazione del teorema è a metà strada per dimostrarlo: D.

— Artem Kaznatcheev

Penso che il primo riferimento per questo sia: Limiti inferiori sull'apprendimento di elenchi e alberi di decisioni. (Hancock et al. 1994) cs.uwaterloo.ca/~mli/dl.ps

— Lev Reyzin

La prova che trovare l'albero decisionale ottimale è un problema completo di NP è stata fornita da Laurent Hyafil e Ronald L. Rivest nella costruzione di alberi decisionali binari ottimali è NP-complete (1976). riferimento: qui

— antoine,

Ho 3 risposte, tutte con risultati di durezza leggermente diversi.

Sia sia una funzione. $f: \{0,1\}^n \rightarrow \{0,1\}$

risposta 1

Dato un albero di decisione calcolo e un numero, è NP-difficile dire se esiste un albero di decisione di calcolo di dimensioni al massimo quel numero. $T$ $f$ $T'$ $f$ ( Zantema e Bodlaender '00 )

Risposta 2

Dato un albero decisionale calcola , NP è difficile approssimare il più piccolo albero decisionale che calcola con qualsiasi fattore costante. $T$ $f$ $f$ ( Sieling '08 )

Risposta 3

Let essere la dimensione del più piccolo albero di decisione di calcolo . Dato un albero decisionale calcola , assumendo per alcuni , non è possibile trovare un albero decisionale equivalente di dimensione per qualsiasi . $s$ $f$ $T$ $f$ $NP \subsetneq DTIME(2^{n^\epsilon})$ $\epsilon < 1$ $T'$ $s^k$ $k \ge 0$

Penso che questa risposta più forte (basandosi su un'ipotesi più debole) possa essere fatta da risultati noti nella teoria dell'apprendimento degli algoritmi Occam per gli alberi delle decisioni, attraverso il seguente argomento:

È possibile trovare un albero decisionale su variabili nel tempo , dove è il più piccolo albero decisionale coerente con esempi provenienti da una distribuzione (modello PAC). ( Blum '92 $n$ $n^{\log s}$ $s$ )
Supponendo per qualche , non possiamo PAC imparare dimensioni alberi di decisione per dimensioni decisione alberi per ogni . ( Alekhnovich et al. '07 ) $NP \subsetneq DTIME(2^{n^\epsilon})$ $\epsilon < 1$ $s$ $s^k$ $k \ge 0$

Questi due risultati sembrano implicare un risultato di durezza per il tuo problema. Da un lato (1), possiamo trovare un grande albero decisionale; d'altra parte (2), non dovremmo essere in grado di minimizzarlo per ottenerne uno "piccolo" equivalente, di dimensione , anche quando ne esiste uno di dimensione . $s^k$ $s$

— Lev Reyzin
fonte

(Ho trovato la tua risposta da questa risposta , che è stata pubblicata meno di un'ora fa.)

$\:$ Sembra che "

" può essere sostituito con "positivo

, poiché diminuendo

rende destra-mano-lato del contenimento più piccola .

ϵ < 1

$\epsilon < 1$

ϵ

$\epsilon$

ϵ

$\epsilon$

$\:$ Inoltre, dove in quel foglio è mostrato 2.?

$\;\;\;\;$

Vedi il punto n. 2 in astratto qui: researcher.watson.ibm.com/researcher/files/us-vitaly/…

— Lev Reyzin

(proveniente dalla stessa risposta di Ricky Demer) potresti approfondire un po 'di più come puoi ottenere la "risposta 3" dai punti 1. e 2.? Non conosco molto bene la teoria dell'apprendimento e faccio fatica a collegare le parti ...

— Marc

Questo problema di coerenza e l'apprendimento sono strettamente correlati tramite il rasoio di Occam. L'idea è che se riesci a trovare una funzione coerente da un piccolo set, puoi riuscire nell'apprendimento PAC. Pertanto una durezza del risultato dell'apprendimento implica un risultato di "durezza della coerenza". Non sono sicuro di quanto di più posso spiegare in un commento ...

— Lev Reyzin

P o l y (n, s)

$Poly(n,s)$