Random Forest è adatto a set di dati molto piccoli?


13

Ho un set di dati che comprende 24 righe di dati mensili. Le caratteristiche sono PIL, arrivi in ​​aeroporto, mese e pochi altri. La variabile dipendente è il numero di visitatori verso una destinazione turistica popolare. Random Forest sarebbe adatto a un simile problema?

I dati non sono pubblici, quindi non riesco a pubblicare un campione.


In genere l'unica restrizione sulla foresta casuale è che il numero di funzioni dovrebbe essere piuttosto elevato: il primo passo di RF è scegliere 1 / 3n o sqrt (n) caratteristiche per costruire un albero (a seconda dell'attività, regressione / classificazione). Quindi, se hai un sacco di funzioni, usa la RF anche su piccoli set di dati: non esiste un algoritmo che funzioni davvero bene su piccoli set di dati, quindi non perdi nulla.
Demidov tedesco,

Sei nella fascia bassa. La RF funzionerà, ma probabilmente non imparerà cose molto più complesse di quelle che potresti realizzare recitando i dati grezzi. Aiuta, se i tuoi dati sono molto silenziosi. Da 40-50 campioni inizia a migliorare. 500 bene. 5000 fantastico.
Soren Havelund Welling,

per la regressione la possibile profondità dell'albero è limitata da minnodo = 5, quindi i campioni non verrebbero suddivisi in media più di 2 volte [[24 -> (1) 12 -> (2) 6.]] Inclusa la limitazione di mtry, la il modello farebbe fatica a catturare qualsiasi effetto di interazione o anche un semplice effetto non lineare. Potresti giocherellare con minnode e mtry, ma dovresti farlo solo se i tuoi dati sono praticamente meno rumorosi. Il rovescio della medaglia potrebbe essere una conclusione potenzialmente eccessiva. Si ottiene che la struttura del modello sembrerebbe una funzione di passaggio approssimativamente levigata.
Soren Havelund Welling,


Per piccoli set di dati, utilizzare la tecnica di convalida incrociata. Per ulteriori informazioni, stats.stackexchange.com/questions/19048/…
Asif Khan,

Risposte:


4

La foresta casuale è essenzialmente il ricampionamento del bootstrap e l'addestramento degli alberi delle decisioni sui campioni, quindi la risposta alla tua domanda deve essere indirizzata a quei due.

Il ricampionamento Bootstrap non è una cura per piccoli campioni . Se nel set di dati sono presenti solo ventiquattro osservazioni, ciascuno dei campioni prelevati con la sostituzione da questi dati consisterebbe in non più di ventiquattro valori distinti. Mescolare i casi e non disegnarne alcuni non cambierebbe molto sulla tua capacità di apprendere qualcosa di nuovo sulla distribuzione sottostante. Quindi un piccolo campione è un problema per bootstrap.

Gli alberi decisionali vengono addestrati suddividendo i dati in modo condizionale sulle variabili predittive, una variabile alla volta, per trovare tali sottocampioni che abbiano il massimo potere discriminatorio. Se hai solo ventiquattro casi, allora dì che se tu fossi fortunato e tutte le spaccature fossero di dimensioni pari, quindi con due spaccature finiresti con quattro gruppi di sei casi, con spaccature di alberi, con otto gruppi di tre. Se hai calcolato le medie condizionali sui campioni (per prevedere i valori continui negli alberi di regressione o le probabilità condizionali negli alberi delle decisioni), baseresti la tua conclusione solo su quei pochi casi! Quindi i sottocampioni che useresti per prendere le decisioni sarebbero anche più piccoli dei tuoi dati originali.

Con piccoli campioni è generalmente consigliabile utilizzare metodi semplici . Inoltre, è possibile recuperare il piccolo campione utilizzando priori informativi in ​​ambiente bayesiano (se si dispone di una ragionevole conoscenza al di fuori dei dati sul problema), quindi è possibile prendere in considerazione l'utilizzo di un modello bayesiano su misura.


1

Da un lato, questo è un piccolo set di dati e la foresta casuale ha fame di dati.

D'altra parte, forse qualcosa è meglio di niente. Non c'è altro da dire che "Provalo e vedi". Puoi decidere se un particolare modello è "buono"; inoltre, non possiamo dirti se un modello è adatto a uno scopo particolare (né vorresti che lo facessimo, se non ci sbagliamo non ci sarà alcun costo!).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.