Previsione dei dati di conteggio con foresta casuale


12

Una foresta casuale può essere addestrata per prevedere in modo appropriato i dati di conteggio? Come procederebbe? Ho una vasta gamma di valori, quindi la classificazione non ha davvero senso. Se usassi la regressione, troncerei semplicemente i risultati? Sono abbastanza perso qui. Qualche idea?


1
non puoi usare la regressione di Poisson?
RJ

Volevo usare qualcosa di non parametrico. Non ricordo davvero le ipotesi di regressione di Poisson, ma sono abbastanza sicuro che una di queste sia che le osservazioni sono indipendenti e che qui non è stato pienamente soddisfatto. Questo potrebbe influenzarmi molto?
JEquihua,

2
Hai semplicemente provato a fare la regressione RF (possibilmente anche nel registro)? Potrebbe funzionare abbastanza bene.

1
Non aver. Ma quello era il mio primo istinto. Trasformazione log o radice quadrata. Ma volevo vedere se qualcuno avesse esperienza su questo.
JEquihua,

Ho provato a fare solo la regressione della risposta, il registro (risposta) e sqrt (risposta) e non ho ottenuto nulla di buono. Penso che il problema sia più che le mie variabili indipendenti spiegano la risposta. Oh bene.
JEquihua

Risposte:


8

Esiste un pacchetto R chiamato mobForestche può contenere una foresta casuale reale per i dati di conteggio. Si basa su mod()(partizionamento ricorsivo basato sul modello) nel partypacchetto. Esegue la regressione di Poisson se l' familyargomento è specificato come poisson(). Il pacchetto non si trova più nel repository CRAN, ma le versioni precedentemente disponibili possono essere ottenute dall'archivio.

Se non si è limitati a foresta / insaccamento casuali, è disponibile anche una versione potenziante per i dati di conteggio. Cioè gbm(modelli generalizzati di regressione potenziata). Può anche adattarsi a un modello di Poisson.


5

Vedo alcune possibilità.

  • È possibile raggruppare la risposta in alcune categorie arbitrarie e utilizzare un albero di classificazione
  • Se i conteggi sono in genere molto bassi, 0, 0, 0, 1, 0, 3, 0, 2, puoi considerare ogni conteggio intero come una classe e utilizzare nuovamente un albero di classificazione (probabilmente non il tuo caso). In questi casi, sarà più difficile ottenere una varianza elevata spiegando il tipo di metrica anziché la regressione continua.
  • Se i conteggi non sono generalmente bassi e ci sono molte variazioni, lo farei semplicemente con un albero di regressione. L'uso della regressione di Poisson sulla regressione lineare, per esempio, è solo una questione di gravità quando si tratta di ottenere un buon predittore lineare. Se non vedi un buon potere predittivo con la foresta casuale, allora dubito che un modello più elaborato che adatta specificamente i dati di conteggio farà molto per te.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.