Ho eseguito un modello xgboost. Non so esattamente come interpretare l'output di xgb.importance
.
Qual è il significato di guadagno, copertura e frequenza e come li interpretiamo?
Inoltre, cosa significano Split, RealCover e RealCover%? Ho alcuni parametri extra qui
Ci sono altri parametri che possono dirmi di più sull'importanza delle funzionalità?
Dalla documentazione R, ho capito che il guadagno è qualcosa di simile al guadagno delle informazioni e la frequenza è il numero di volte in cui una funzione viene utilizzata in tutti gli alberi. Non ho idea di cosa sia Cover.
Ho eseguito il codice di esempio fornito nel collegamento (e ho anche provato a fare lo stesso sul problema su cui sto lavorando), ma la definizione di divisione fornita non corrispondeva ai numeri che ho calcolato.
importance_matrix
Produzione:
Feature Gain Cover Frequence
1: xxx 2.276101e-01 0.0618490331 1.913283e-02
2: xxxx 2.047495e-01 0.1337406946 1.373710e-01
3: xxxx 1.239551e-01 0.1032614896 1.319798e-01
4: xxxx 6.269780e-02 0.0431682707 1.098646e-01
5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02
214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05
215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05
216: xxxxxxxxxxxx 3.899363e-06 0.0001536857 1.147052e-05
217: xxxxxxxxxxxxxx 3.619348e-06 0.0001808504 1.147052e-05
218: xxxxxxxxxxxxx 3.429679e-06 0.0001792233 1.147052e-05