Quando utilizzare l'impurità di Gini e quando utilizzare l'acquisizione di informazioni?


11

Qualcuno può spiegarmi quando utilizzare l'impurità di Gini e il guadagno di informazioni per gli alberi delle decisioni? Potete darmi situazioni / esempi di quando è meglio usare quale?

Risposte:


9

Dovresti provarli entrambi come parte dell'ottimizzazione dei parametri.

Teoricamente l'impurità di Gini minimizza il punteggio di Brier mentre l'entropia / il guadagno di informazioni minimizza la perdita di log in modo da quale di quelli a cui sei interessato fa qualche differenza. Tuttavia, altre cose come la probabilità che ciascuno abbia di scoprire effetti multivariati nella crescita degli alberi avidi invece di essere "distratto" da quelli univariati che giocano anche sulle cose. Ad esempio, potresti ottenere una migliore generalizzazione da una metrica di impurità che non sempre seleziona la divisione "migliore".

In pratica (nel contesto di RF, più del carrello) ho scoperto che l'entropia funziona meglio per set di dati a bassa dimensione più puliti in cui stai cercando di adattare un segnale più complesso nel miglior modo possibile mentre Gini funziona meglio per rumori, altamente dimensionali quelli in cui stai cercando di scoprire un semplice segnale tra molti segnali potenziali rumorosi. Questa è solo la mia esperienza e quasi sicuramente non regge in tutti i casi.

Nota: iniziato come commento ma cancellato e spostato in una risposta per formattare un'espansione sulle cose.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.