La foresta casuale è un algoritmo di potenziamento?


51

Breve definizione di potenziamento :

Un gruppo di studenti deboli può creare un singolo studente forte? Uno studente debole è definito come un classificatore che è solo leggermente correlato con la vera classificazione (può etichettare esempi meglio delle ipotesi casuali).

Breve definizione di Foresta casuale :

Le foreste casuali coltivano molti alberi di classificazione. Per classificare un nuovo oggetto da un vettore di input, posiziona il vettore di input su ciascuno degli alberi nella foresta. Ogni albero fornisce una classificazione e noi diciamo che l'albero "vota" per quella classe. La foresta sceglie la classificazione con il maggior numero di voti (su tutti gli alberi della foresta).

Un'altra breve definizione di Random Forest :

Una foresta casuale è un meta stimatore che si adatta a una serie di classificatori dell'albero decisionale su vari sottocampioni del set di dati e utilizza la media per migliorare l'accuratezza predittiva e il controllo del sovra-adattamento.

A quanto ho capito, Random Forest è un algoritmo di potenziamento che utilizza gli alberi come classificatori deboli. So che utilizza anche altre tecniche e le migliora. Qualcuno mi ha corretto che Random Forest non è un algoritmo di potenziamento?

Qualcuno può approfondire questo, perché Random Forest non è un algoritmo di potenziamento?


13
Le foreste casuali sono un algoritmo di insaccamento: en.wikipedia.org/wiki/Bootstrap_aggregating . Ti suggerisco di leggere più della più breve descrizione possibile di potenziamento per vedere la differenza. Nel potenziamento, la strategia di ricampionamento non è casuale.
Marc Claesen,

12
Curiosità: nel documento originale di Random Forest Breiman suggerisce che AdaBoost (sicuramente un algoritmo di potenziamento) fa principalmente Random Forest quando, dopo poche iterazioni, il suo spazio di ottimizzazione diventa così rumoroso che si sposta semplicemente stocasticamente.

Risposte:


81

Random Forest è un algoritmo di insacco piuttosto che un algoritmo di potenziamento. Sono due modi opposti per ottenere un errore basso.

Sappiamo che l'errore può essere composto da bias e varianza. Un modello troppo complesso ha una bassa propensione ma una grande varianza, mentre un modello troppo semplice ha una bassa discrepanza ma una grande propensione, entrambi con un errore elevato ma due motivi diversi. Di conseguenza, vengono in mente due modi diversi di risolvere il problema (forse Breiman e altri), la riduzione della varianza per un modello complesso o la riduzione del pregiudizio per un modello semplice, che si riferisce alla foresta casuale e al potenziamento.

La foresta casuale riduce la varianza di un gran numero di modelli "complessi" con bassa propensione. Possiamo vedere che gli elementi della composizione non sono modelli "deboli" ma modelli troppo complessi. Se leggi l'algoritmo, gli alberi sottostanti vengono piantati "in qualche modo" il più grande "possibile". Gli alberi sottostanti sono modelli paralleli indipendenti. Inoltre, viene introdotta un'ulteriore selezione casuale di variabili per renderle ancora più indipendenti, il che le rende migliori del normale insacco e danno il nome "casuale".

Mentre il potenziamento riduce la distorsione di un gran numero di "piccoli" modelli con bassa varianza. Sono modelli "deboli" come hai citato. Gli elementi sottostanti sono in qualche modo come un modello iterativo "a catena" o "nidificato" sul pregiudizio di ciascun livello. Quindi non sono modelli paralleli indipendenti ma ogni modello è costruito sulla base di tutti i precedenti modelli di piccole dimensioni mediante ponderazione. Questo è il cosiddetto "potenziamento" da uno a uno.

Le carte e i libri di Breiman parlano di alberi, foreste casuali e potenziamento abbastanza. Ti aiuta a capire il principio alla base dell'algoritmo.


26

Una foresta casuale non è considerata un tipo di algoritmo potenziante.

Come spiegato nel tuo link di potenziamento:

... la maggior parte degli algoritmi di potenziamento consiste nell'apprendere iterativamente classificatori deboli rispetto a una distribuzione e aggiungerli a un classificatore forte finale. Quando vengono aggiunti, in genere vengono ponderati in un modo che è generalmente correlato alla precisione degli studenti deboli. Dopo l'aggiunta di uno studente debole, i dati vengono nuovamente ponderati ...

Un esempio di questo processo iterativo è adaboost, in base al quale risultati più deboli vengono potenziati o ponderati su molte iterazioni per consentire allo studente di concentrarsi maggiormente sulle aree che ha sbagliato e meno su quelle osservazioni che erano corrette.

Una foresta casuale, al contrario, è un metodo di insacco o calcolo della media che mira a ridurre la varianza dei singoli alberi selezionando casualmente (e quindi de-correlando) molti alberi dal set di dati e facendone la media.


7

È un'estensione del bagging. La procedura è la seguente, prendi un campione bootstrap dei tuoi dati e poi lo usi per far crescere un albero di classificazione o regressione (CART). Questo viene fatto un numero predefinito di volte e la previsione è quindi l'aggregazione delle singole previsioni degli alberi, potrebbe essere un voto di maggioranza (per la classificazione) o una media (per la regressione). Questo approccio si chiama insaccamento (Breiman 1994). Inoltre la variabile candidata per ciascuna divisione di ciascunal'albero viene preso da un campione casuale di tutte le variabili indipendenti disponibili. Ciò introduce una maggiore variabilità e rende gli alberi più diversi. Questo è chiamato metodo del sottospazio casuale (Ho, 1998). Come accennato, questo produce alberi molto diversi che si traducono in alberi che sono altamente indipendenti l'uno dall'altro. A causa della disuguaglianza di Jensen sappiamo che la media degli errori di queste previsioni sugli alberi sarà più piccola o uguale all'errore dell'albero medio cresciuto da quel set di dati. Un altro modo per esaminarlo è quello di guardare l' errore quadratico medio e notare come può essere scomposto in parti di bias e varianza (questo è correlato a un problema di apprendimento supervisionato chiamato compromesso di bias-varianza). La foresta casuale ottiene una migliore precisione riducendo la varianza attraverso la media della previsione degli alberi ortogonali. Va notato che eredita il pregiudizio dei suoi alberi, che è un problema abbastanza discusso, controlla ad esempio questa domanda.



3

La foresta casuale è una tecnica di insacco e non una tecnica di potenziamento. Nel potenziare come suggerisce il nome, uno sta imparando dall'altro che a sua volta aumenta l'apprendimento.

Gli alberi nelle foreste casuali sono eseguiti in parallelo. Non c'è interazione tra questi alberi durante la costruzione degli alberi. Una volta che tutti gli alberi sono stati costruiti, viene presa una valutazione o una media su tutte le previsioni degli alberi a seconda che il problema sia un problema di classificazione o regressione.

Gli alberi negli algoritmi di potenziamento come il GBM-Gradient Boosting machine sono addestrati in sequenza.

Supponiamo che il primo albero sia stato addestrato e abbia fatto alcune previsioni sui dati di allenamento. Non tutte queste previsioni sarebbero corrette. Diciamo su un totale di 100 previsioni, il primo albero ha commesso un errore per 10 osservazioni. Ora a queste 10 osservazioni verrebbe dato più peso durante la costruzione del secondo albero. Si noti che l'apprendimento del secondo albero è stato potenziato dall'apprendimento del primo albero. Da qui il termine potenziamento. In questo modo, ciascuno degli alberi viene costruito in sequenza sugli insegnamenti degli alberi passati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.