Sto studiando gli alberi di classificazione e regressione e una delle misure per la posizione divisa è il punteggio GINI.
Ora sono abituato a determinare la migliore posizione divisa quando il registro del rapporto di verosimiglianza degli stessi dati tra due distribuzioni è zero, il che significa che la probabilità di appartenenza è ugualmente probabile.
La mia intuizione dice che deve esserci una connessione di qualche tipo, che GINI deve avere una buona base in una teoria matematica dell'informazione (Shannon) ma non capisco GINI abbastanza bene da derivare la relazione da solo.
Domande:
- Qual è la derivazione dei "primi principi" del punteggio di impurità GINI come misura per la scissione?
- In che modo il punteggio GINI si collega al log del rapporto di verosimiglianza o ad altri fondamenti teorici dell'informazione (Shannon Entropy, pdf ed cross entropy fanno parte di quelli)?
Riferimenti:
- Come viene definito il criterio ponderato di Gini?
- Matematica dietro alberi di classificazione e regressione
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(aggiunto) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
L'entropia di Shannon è descritta come:
Estendendolo al caso multivariato otteniamo:
L'entropia condizionale è definita come segue:
Il registro del rapporto di probabilità viene utilizzato per il rilevamento di modifiche improvvise e viene derivato utilizzando queste. (Non ho derivazioni davanti a me.)
Impurità GINI:
- La forma generale di impurità GINI è
Pensieri:
- La divisione viene effettuata su una misura di impurità. L'alta "purezza" è probabilmente la stessa della bassa entropia. L'approccio è probabilmente correlato alla minimizzazione dell'entropia.
- È probabile che la presunta distribuzione della base sia uniforme, o possibilmente con agitando la mano, gaussiana. Probabilmente stanno facendo una miscela di distribuzioni.
- Mi chiedo se la derivazione del grafico Shewhart può essere applicata qui?
- L'impurità GINI sembra l'integrale della funzione di densità di probabilità per una distribuzione binomiale con 2 prove e un successo.
(Aggiuntivo)
- La forma è anche coerente con una distribuzione beta-binomiale che è un coniugato precedente per una distribuzione ipergeometrica. I test ipergeometrici vengono spesso utilizzati per determinare quali campioni sono rappresentati sopra o sotto in un campione. C'è anche una relazione con l'esatto test di Fisher, qualunque esso sia (nota a se stesso, vai a saperne di più su questo).
Modifica: sospetto che esista una forma di GINI che funziona molto bene con la logica digitale e / o gli alberi rb. Spero di esplorarlo in un progetto di classe questo autunno.