La somma di due alberi decisionali equivale a un singolo albero decisionale?


15

Supponiamo di avere due alberi di regressione (albero A e albero B) che mappa ingresso di uscita yR . Let y = f A ( x ) per l'albero A e f B ( x ) per l'albero B. Ogni albero utilizza spaccature binari, con iperpiani come le funzioni di separazione.XRdy^Ry^=fUN(X)fB(X)

Supponiamo ora di prendere una somma ponderata degli output dell'albero:

fC(X)=wUN fUN(X)+wB fB(X)

La funzione equivale a un singolo albero di regressione (più profondo)? fCSe la risposta è "a volte", a quali condizioni?

Idealmente, vorrei consentire gli iperpiani obliqui (ovvero le divisioni eseguite su combinazioni lineari di funzioni). Tuttavia, supponendo che le divisioni a funzionalità singola potrebbero essere accettabili se questa è l'unica risposta disponibile.

Esempio

Ecco due alberi di regressione definiti su uno spazio di input 2d:

inserisci qui la descrizione dell'immagine

La figura mostra come ogni albero partizioni input spazio e l'output per ogni regione (codificato in scala di grigi). I numeri colorati indicano le regioni dello spazio di input: 3,4,5,6 corrispondono ai nodi foglia. 1 è l'unione di 3 e 4, ecc.

Supponiamo ora di calcolare la media della produzione di alberi A e B:

inserisci qui la descrizione dell'immagine

L'output medio viene tracciato a sinistra, con i limiti di decisione degli alberi A e B sovrapposti. In questo caso, è possibile costruire un singolo albero più profondo il cui output è equivalente alla media (tracciato a destra). Ogni nodo corrisponde a una regione di spazio di input che può essere costruita dalle regioni definite dagli alberi A e B (indicati da numeri colorati su ciascun nodo; più numeri indicano l'intersezione di due regioni). Nota che questo albero non è unico: avremmo potuto iniziare a costruire dall'albero B invece che dall'albero A.

Questo esempio mostra che esistono casi in cui la risposta è "sì". Mi piacerebbe sapere se questo è sempre vero.


2
Hmm .. Se fosse così, perché dovremmo addestrare una foresta a caso? (Perché chiaramente la combinazione lineare di 500 alberi può essere ri-espressa come 499 somme ponderate a coppie di 500 alberi) Bella domanda, +1.
usεr11852 dice Reinstate Monic il

domanda interessante! Suppongo che lo spazio di ipotesi degli alberi delle decisioni e degli insiemi degli alberi delle decisioni (potenziamento, combinazione lineare di alberi) sia lo stesso. In attesa di una risposta ..
Laksan Nathan,

@ usεr11852 Forse perché usare un singolo albero molto grande al posto della foresta è molto più lento? Proprio come nelle reti neurali, le reti a un livello nascosto possono già approssimare tutte le funzioni continue, ma l'aggiunta di livelli rende la rete più veloce. Non dire questo è il caso qui, ma potrebbe essere.
Harto Saarinen,

1
@HartoSaarinen: questo è un modo interessante di pensare a questo, ma sospetto che non regge facilmente. È ammesso che alberi molto profondi possano sovrautilizzare e generalizzare male (anche le loro previsioni sono piuttosto instabili). Inoltre (per quanto riguarda le considerazioni sulla velocità) alberi più profondi richiedono esponenzialmente più divisioni e quindi più tempo di addestramento. (Un albero di profondità 10 ha al massimo 1023 divisioni ma un albero di profondità 20, 1048575 si divide. Molto più lavoro!)
usεr11852 dice Reinstate Monic

1
@ usεr11852 Sono d'accordo che potrebbe essere totalmente falso e la risposta potrebbe essere qualcosa di totalmente diverso. Questo è ciò che rende il campo così interessante in questo momento, super molte cose da scoprire!
Harto Saarinen,

Risposte:


6

Sì, la somma ponderata degli alberi di regressione equivale a un singolo albero di regressione (più profondo).

Approssimatore di funzioni universale

Un albero di regressione è un approssimatore di funzioni universale (vedi ad esempio cstheory ). La maggior parte della ricerca sulle approssimazioni di funzioni universali viene effettuata su reti neurali artificiali con un livello nascosto (leggi questo fantastico blog). Tuttavia, la maggior parte degli algoritmi di apprendimento automatico sono approssimazioni di funzioni universali.

Essere un approssimatore di funzioni universali significa che qualsiasi funzione arbitraria può essere approssimativamente rappresentata. Pertanto, indipendentemente dalla complessità della funzione, un'approssimazione di funzione universale può rappresentarla con qualsiasi precisione desiderata. Nel caso di un albero di regressione, puoi immaginarne uno infinitamente profondo. Questo albero infinitamente profondo può assegnare qualsiasi valore a qualsiasi punto nello spazio.

Poiché una somma ponderata di un albero di regressione è un'altra funzione arbitraria, esiste un altro albero di regressione che rappresenta quella funzione.

Un algoritmo per creare un tale albero

T1T2T2T1T1T2 .

L'esempio seguente mostra due alberi semplici che vengono aggiunti con peso 0,5. Si noti che un nodo non verrà mai raggiunto, poiché non esiste un numero inferiore a 3 e maggiore di 5. Ciò indica che questi alberi possono essere migliorati, ma non li rende non validi.

inserisci qui la descrizione dell'immagine

Perché usare algoritmi più complessi

@ Usεr11852 ha sollevato un'interessante domanda aggiuntiva nei commenti: perché dovremmo usare algoritmi di potenziamento (o in realtà qualsiasi algoritmo di apprendimento automatico complesso) se ogni funzione può essere modellata con un semplice albero di regressione?

Gli alberi di regressione possono effettivamente rappresentare qualsiasi funzione, ma questo è solo uno dei criteri per un algoritmo di apprendimento automatico. Un'altra importante proprietà è quanto bene generalizzano. Gli alberi di regressione profonda sono inclini a un eccesso di adattamento, cioè non si generalizzano bene. Una foresta casuale calcola in media molti alberi profondi per evitarlo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.