Gli alberi CART acquisiscono interazioni tra i predittori?


9

Questo documento afferma che in CART, poiché una divisione binaria viene eseguita su una singola covariata ad ogni passaggio, tutte le divisioni sono ortogonali e quindi le interazioni tra covariate non sono considerate.

Tuttavia, molti riferimenti molto seri sostengono, al contrario, che la struttura gerarchica di un albero garantisce che le interazioni tra predittori siano automaticamente modellate (ad esempio, questo documento e, naturalmente, Hastie).

Chi ha ragione? Gli alberi cresciuti in CART acquisiscono interazioni tra le variabili di input?


Il difetto nell'argomento è che le suddivisioni sono fatte su sottoinsiemi di covariate definite da suddivisioni fatte in precedenza.

@mbq, quindi le nuove divisioni sono condizionate rispetto alle divisioni precedenti ... Capisco ... Credo di avere difficoltà a capire che "condizionato da una divisione precedente fatta su un determinato predittore" equivale a "interagire con questo predittore "...
Antoine,

Risposte:


12

CART può catturare effetti di interazione. Un effetto di interazione tra e verifica quando l'effetto della variabile esplicativa sulla variabile di risposta dipende dal livello di . Questo succede nel seguente esempio:X1X2X1YX2

inserisci qui la descrizione dell'immagine

L'effetto di cattive condizioni economiche (chiama questo ) dipende dal tipo di edificio che viene acquistato ( ). Quando si investe in un edificio per uffici, le cattive condizioni economiche riducono il valore previsto dell'investimento di 140.000 dollari. Ma quando si investe in un condominio, il valore previsto dell'investimento diminuisce di 20.000 dollari. L'effetto di cattive condizioni economiche sul valore previsto dell'investimento dipende dal tipo di proprietà acquistata. Questo è un effetto di interazione.X1X2


2

Risposta breve

I CART hanno bisogno di aiuto per catturare le interazioni.

Risposta lunga

Prendi l'esatto algoritmo avido (Chen e Guestrin, 2016):

L'esatto algoritmo avido

La media sulla foglia sarà un'aspettativa condizionale, ma ogni divisione sulla strada per la foglia è indipendente dall'altra. Se la funzione A non ha importanza da sola ma è importante nell'interazione con la funzione B, l'algoritmo non si dividerà sulla funzione A. Senza questa divisione, l'algoritmo non può prevedere la divisione sulla funzione B, necessaria per generare l'interazione.

Gli alberi possono scegliere le interazioni negli scenari più semplici. Se hai un set di dati con due funzioni e target , l'algoritmo non ha nulla su cui dividere se non e , quindi otterrai quattro foglie con stimato correttamente.X1,X2y=XOR(X1,X2)X1X2XOR

Con molte funzionalità, regolarizzazione e il limite rigido al numero di divisioni, lo stesso algoritmo può omettere le interazioni.

soluzioni alternative

Interazioni esplicite come nuove funzionalità

Un esempio di Zhang ("Winning Data Science Competitions", 2015):

Zhang sulle interazioni

Algoritmi dell'albero non avido

Nell'altra domanda, Simone suggerisce algoritmi basati su lookahead e alberi decisionali obliqui .

Un approccio di apprendimento diverso

Alcuni metodi di apprendimento gestiscono meglio le interazioni.

Ecco una tabella da The Elements of Statistical Learning (riga "Capacità di estrarre combinazioni lineari di funzionalità"):

Confronto di metodi di apprendimento

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.