Presupposti casuali della foresta


43

Sono un po 'nuovo nella foresta casuale quindi sto ancora lottando con alcuni concetti di base.
Nella regressione lineare, assumiamo osservazioni indipendenti, varianza costante ...

  • Quali sono le ipotesi / ipotesi di base che facciamo quando usiamo la foresta casuale?
  • Quali sono le differenze chiave tra foresta casuale e baia ingenua in termini di ipotesi di modello?

Risposte:


33

Grazie per un'ottima domanda! Proverò a dare il mio intuito dietro di esso.

Per capirlo, ricorda gli "ingredienti" del classificatore di foresta casuale (ci sono alcune modifiche, ma questa è la pipeline generale):

  1. Ad ogni passo della costruzione di singoli alberi troviamo la migliore suddivisione dei dati
  2. Durante la costruzione di un albero non utilizziamo l'intero set di dati, ma un esempio di bootstrap
  3. Aggreghiamo gli output dei singoli alberi facendo la media (in realtà 2 e 3 significano insieme una procedura di insaccamento più generale ).

Assumi il primo punto. Non è sempre possibile trovare la migliore divisione. Ad esempio, nel seguente set di dati ogni divisione fornirà esattamente un oggetto classificato erroneamente. Esempio del set di dati senza migliore suddivisione

E penso che esattamente questo punto possa essere fonte di confusione: in effetti, il comportamento della singola suddivisione è in qualche modo simile al comportamento del classificatore Naive Bayes: se le variabili sono dipendenti - non esiste una suddivisione migliore per Decision Trees e anche il classificatore Naive Bayes fallisce (solo per ricordare: variabili indipendenti è il presupposto principale che facciamo nel classificatore Naive Bayes; tutte le altre ipotesi provengono dal modello probabilistico che scegliamo).

Ma ecco che arriva il grande vantaggio degli alberi delle decisioni: prendiamo qualsiasi divisione e continuiamo a dividere ulteriormente. E per le seguenti divisioni troveremo una separazione perfetta (in rosso). Esempio del limite di decisione

E poiché non abbiamo un modello probabilistico, ma solo una divisione binaria, non dobbiamo assolutamente fare alcuna ipotesi.

Riguardava l'albero decisionale, ma vale anche per la foresta casuale. La differenza è che per Random Forest usiamo Bootstrap Aggregation. Non ha alcun modello al di sotto e l'unico presupposto che si basi è che il campionamento è rappresentativo . Ma questo è di solito un presupposto comune. Ad esempio, se una classe è composta da due componenti e nel nostro set di dati un componente è rappresentato da 100 campioni e un altro componente è rappresentato da 1 campione - probabilmente la maggior parte dei singoli alberi decisionali vedrà solo il primo componente e Foresta casuale classificherà erroneamente il secondo . Esempio di secondo componente debolmente rappresentato

Spero che possa dare ulteriore comprensione.


10

In un articolo del 2010 gli autori hanno documentato che i modelli di foresta casuali stimavano in modo inarrestabile l'importanza delle variabili quando le variabili erano multicolori nello spazio statistico multidimensionale. Di solito lo controllo prima di eseguire modelli di foresta casuali.

http://www.esajournals.org/doi/abs/10.1890/08-0879.1


3
Credi alle conclusioni di "Quantificare la connettività di Bufo boreas nel Parco Nazionale di Yellowstone con la genetica del paesaggio" in Ecologia scritta dagli autori dello Stato del Colorado rispetto agli autori di Berkeley in Machine Learning sull'argomento degli algoritmi di apprendimento automatico?
Hack-R,

8
Non penso che siano in contrasto tra loro. Breiman non ha studiato questo "caso speciale" di multinearità nello spazio multidimensionale. Inoltre, anche le persone del Colorado State possono essere intelligenti, e lo sono anche questi ragazzi.
Mina,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.