l'importanza delle caratteristiche tramite foresta casuale e regressione lineare sono diverse


9

Lasso applicato per classificare le caratteristiche e ottenere i seguenti risultati:

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

Si noti che il set di dati ha 3 etichette. La classifica delle caratteristiche per le diverse etichette è la stessa.

Quindi ha applicato la foresta casuale allo stesso set di dati:

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

Si noti che la classifica è molto diversa da quella prodotta da Lasso.

Come interpretare la differenza? Implica che il modello sottostante è intrinsecamente non lineare?


Il grado di una funzione non si traduce realmente tra diversi classificatori. Per verificare se il modello non è lineare, vedere qui ad esempio: stats.stackexchange.com/questions/35893/…
Alex R.

1
L'importanza delle funzionalità è solo un suggerimento basato su "euristica". A volte possono essere inaffidabili. Di solito mi fiderei della foresta casuale più di Lasso.
Gerenuk,

Risposte:


6

Quindi la tua query è un confronto tra la regressione lineare e l'importanza delle variabili derivata dal modello di foresta casuale.

R2

Un altro approccio popolare è la media degli ordini (LMG, 1980). LMG funziona in questo modo:

  • SSun'/SStotun'lR2un'
  • un',B,cB,un',cB,c,un'
  • Trova la media delle correlazioni semi-parziali per ciascuno di questi ordini. Questa è la media degli ordini superiori.

L'algoritmo di foresta casuale si adatta a più alberi, ogni albero nella foresta viene creato selezionando casualmente diverse funzionalità dal set di dati. I nodi di ciascun albero vengono creati scegliendo e suddividendo per ottenere la massima riduzione della varianza. Durante la previsione nel set di dati di test, l'output dei singoli alberi viene mediato per ottenere l'output finale. Ogni variabile è permutata tra tutti gli alberi e viene calcolata la differenza nell'errore fuori campione di prima e dopo la permutazione. Le variabili con la differenza più alta sono considerate più importanti e quelle con valori più bassi sono meno importanti.

Il metodo con cui il modello si adatta ai dati di addestramento è molto diverso per un modello di regressione lineare rispetto al modello di foresta casuale. Ma entrambi i modelli non contengono alcuna relazione strutturale tra le variabili.

Per quanto riguarda la tua domanda sulla non linearità della variabile dipendente: Il lazo è essenzialmente un modello lineare che non sarà in grado di fornire buone previsioni per un processo non lineare sottostante, rispetto ai modelli basati su alberi. Dovresti essere in grado di verificarlo verificando le prestazioni dei modelli su un set di test messo da parte, se la foresta casuale funziona meglio, il processo sottostante potrebbe non essere lineare. In alternativa, è possibile includere effetti di interazione variabili e variabili di ordine superiore creati utilizzando a, b e c nel modello di lazo e verificare se questo modello ha prestazioni migliori rispetto a un lazo con solo una combinazione lineare di a, b e c. In tal caso, il processo sottostante potrebbe non essere lineare.

Riferimenti:

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.