La foresta casuale per la regressione è una regressione "vera"?


18

Le foreste casuali vengono utilizzate per la regressione. Tuttavia, da quello che ho capito, assegnano un valore target medio ad ogni foglia. Dato che ci sono solo foglie limitate in ogni albero, ci sono solo valori specifici che il target può raggiungere dal nostro modello di regressione. Quindi non è solo una regressione "discreta" (come una funzione a gradino) e non una regressione lineare che è "continua"?

Lo capisco correttamente? Se sì, quale vantaggio offre la foresta casuale in regressione?


Risposte:


23

Questo è corretto: le foreste casuali discretizzano le variabili continue poiché sono basate su alberi decisionali, che funzionano attraverso il partizionamento binario ricorsivo. Ma con dati sufficienti e suddivisioni sufficienti, una funzione di passo con molti piccoli passi può approssimare una funzione regolare. Quindi questo non deve essere un problema. Se vuoi davvero catturare una risposta fluida da parte di un singolo predittore, calcoli l'effetto parziale di una particolare variabile e ad essa si adatta una funzione uniforme (ciò non influisce sul modello stesso, che manterrà questo carattere graduale).

Le foreste casuali offrono alcuni vantaggi rispetto alle tecniche di regressione standard per alcune applicazioni. Per citarne solo tre:

  1. Consentono l'uso di molti predittori arbitrariamente (sono possibili più predittori di punti dati)
  2. Possono approssimare forme complesse non lineari senza una specifica a priori
  3. Possono catturare interazioni complesse tra previsioni senza una specifica a priori .

Per quanto riguarda se si tratti di una "vera" regressione, questo è in qualche modo semantico. Dopotutto, anche la regressione a tratti è regressione, ma non è uniforme. Come ogni regressione con un predittore categorico, come sottolineato nei commenti qui sotto.


7
Inoltre, la regressione con solo le caratteristiche categoriche non sarebbe regolare.
Tim

3
Una regressione con persino una caratteristica categorica potrebbe essere regolare?
Dave,

4

È discreto, ma qualsiasi output sotto forma di un numero in virgola mobile con un numero fisso di bit sarà discreto. Se un albero ha 100 foglie, allora può dare 100 numeri diversi. Se hai 100 alberi diversi con 100 foglie ciascuno, la tua foresta casuale può teoricamente avere 100 ^ 100 valori diversi, che possono dare 200 cifre (decimali) di precisione o ~ 600 bit. Naturalmente, ci saranno alcune sovrapposizioni, quindi non vedrai effettivamente 100 ^ 100 valori diversi. La distribuzione tende a diventare più discreta quanto più si arriva agli estremi; ogni albero avrà una foglia minima (una foglia che dà un risultato inferiore o uguale a tutte le altre foglie) e una volta ottenuta la foglia minima da ogni albero, non puoi ottenere alcuna foglia inferiore. Quindi ci sarà un valore complessivo minimo per la foresta, e man mano che vi discostate da quel valore, inizierete con tutti tranne alcuni alberi che sono alla loro foglia minima, facendo piccole deviazioni dall'aumento del valore minimo nei salti discreti. Ma la ridotta affidabilità agli estremi è una proprietà delle regressioni in generale, non solo delle foreste casuali.


Le foglie possono memorizzare qualsiasi valore dai dati di allenamento (quindi con i giusti dati di allenamento, 100 alberi di 100 foglie possono memorizzare fino a 10.000 valori distinti). Ma il valore restituito è la media della foglia scelta da ciascun albero. Quindi il numero di bit di precisione di quel valore è lo stesso se hai 2 alberi o 100 alberi.
Darren Cook,

3

La risposta dipenderà dalla tua definizione di regressione, vedi Definizione e delimitazione del modello di regressione . Ma una definizione abituale (o parte di una definizione) è che la regressione modella le aspettative condizionali . E un albero di regressione può davvero essere visto come uno stimatore delle aspettative condizionali.

Nei nodi foglia si prevede la media delle osservazioni del campione che raggiungono quella foglia e una media aritmetica è uno stimatore di un'aspettativa. Il modello di ramificazione nella struttura rappresenta il condizionamento.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.