Le foreste casuali mostrano una propensione alla previsione?

12

Penso che questa sia una domanda semplice, anche se il ragionamento alla base del perché o del perché potrebbe non esserlo. Il motivo per cui mi chiedo è che di recente ho scritto la mia implementazione di una RF e sebbene funzioni bene, non sta funzionando come mi aspettavo (basato sul set di dati della competizione Kaggle Photo Quality Prediction , i punteggi vincenti e alcuni dei le informazioni successive disponibili su quali tecniche sono state utilizzate).

La prima cosa che faccio in tali circostanze è l'errore di previsione della trama per il mio modello, quindi per ogni dato valore di previsione determino la distorsione media (o la deviazione) dal valore target corretto. Per la mia RF ho ottenuto questa trama:

Valore di previsione rispetto a distorsione dal valore target corretto

Mi chiedo se questo è un modello di polarizzazione comunemente osservato per RF (in caso contrario, potrebbe forse essere qualcosa di specifico per il set di dati e / o la mia implementazione). Ovviamente posso usare questa trama per migliorare le previsioni usandola per compensare la distorsione, ma mi chiedo se ci sia un errore o una lacuna più fondamentale nel modello RF stesso che deve essere affrontato. Grazie.

== ADDENDUM ==

La mia indagine iniziale è su questo post di blog Random Forest Bias - Update

algorithms random-forest cart

— redcalx
fonte

2

Potrebbe essere una caratteristica dei tuoi dati; hai provato a eseguire altre implementazioni RF sullo stesso set di dati per vedere se riproduce questo effetto?

4

(Sono tutt'altro che esperto. Queste sono solo riflessioni di uno statistico junior che ha affrontato problemi diversi, ma vagamente analoghi. La mia risposta potrebbe essere fuori contesto.)

Dato un nuovo campione da prevedere e un oracolo che ha accesso a un set di addestramento molto più ampio, forse la previsione "migliore" e più onesta è dire "Prevedo con il 60% di probabilità che questo appartenga alla classe Red piuttosto che la classe blu ".

Darò un esempio più concreto. Immagina che, nel nostro set di addestramento molto ampio, ci sia un ampio set di campioni molto simili al nostro nuovo campione. Di questi, il 60% è blu e il 40% è rosso. E non sembra esserci nulla che distingua il blu dal rosso. In tal caso, è ovvio che un 60% / 40% è l'unica previsione che una persona sana di mente può fare.

Certo, non abbiamo un simile oracolo, invece abbiamo molti alberi. Gli alberi decisionali semplici non sono in grado di fare queste previsioni del 60% / 40% e quindi ogni albero farà una previsione discreta (rosso o blu, niente in mezzo). Mentre questo nuovo campione cade sul lato rosso della superficie decisionale, scoprirai che quasi tutti gli alberi prevedono il rosso piuttosto che il blu. Ogni albero finge di essere più sicuro di quello che è e inizia una fuga verso una previsione distorta.

Il problema è che tendiamo a fraintendere la decisione da un singolo albero. Quando un singolo albero mette un nodo nella classe rosso, dovremmo non interpretare quel come / 0% al 100% la previsione dall'albero. (Non sto solo dicendo che "sappiamo" che probabilmente è una cattiva previsione. Sto dicendo qualcosa di più forte, cioè che dovremmo stare attenti a interpretare come la previsione dell'albero). Non riesco a espandere concisamente su come risolvere questo problema. Ma è possibile prendere in prestito idee da aree statistiche su come costruire più divisioni "sfocate" all'interno di un albero per incoraggiare un singolo albero a essere più onesto sulla sua incertezza. Quindi, dovrebbe essere possibile fare una media significativa delle previsioni da una foresta di alberi.

Spero che questo aiuti un po '. In caso contrario, spero di imparare da qualsiasi risposta.

— Aaron McDaid
fonte

Fuzzy si divide, capito, nello spirito della RF estrema (ma forse non così estrema?). Proverò questo perché la tua spiegazione ha senso per me. Grazie.

— redcalx,

[Random Forest - Thoughts on Bias Problem] ( the-locster.livejournal.com/134241.html ) "La chiave quindi (penso) è usare una randomizzazione non uniforme [della soglia divisa] in modo tale che l'insieme di tutti i punti di divisione quando combinati ricreano y = f (x) e si avvicinano a una rappresentazione perfetta di y = f (x) poiché il numero di DT nella RF tende verso l'infinito. "

— redcalx,

Le previsioni del 60/40% non sarebbero gestite da un albero di regressione? La sicurezza sarebbe il rapporto di classe nella partizione di una foglia (per il set di addestramento). Forse questo può / è stato ampliato per gestire anche il potere statistico

— Alter

3

Sì. La maggior parte degli alberi ha un pregiudizio nelle code. Vedere:

Come devono essere implementate le suddivisioni dell'albero decisionale quando si prevedono variabili continue?

"Un potenziale problema con gli alberi è che tendono ad adattarsi male alle code. Pensa a un nodo terminale che cattura la gamma bassa del set di addestramento. Prevede usando la media di quei set point di addestramento, che saranno sempre sottostimati il risultato (poiché è la media). "

— topepo
fonte

Non credo che il commento si applichi alle foreste casuali

— Zach,

Credo che l'implementazione di riferimento delle foreste casuali si fermi con ~ 5 osservazioni nei nodi quando la variabile di risposta è continua. Ciò introdurrebbe comunque una piccola distorsione se anche la variabile di divisione fosse continua. Simile al motivo per cui LOESS appare spesso migliore di una media mobile centrata ai bordi del supporto ...

— Shea Parkes