Qual è la relazione tra il punteggio GINI e il rapporto log-verosimiglianza


21

Sto studiando gli alberi di classificazione e regressione e una delle misure per la posizione divisa è il punteggio GINI.

Ora sono abituato a determinare la migliore posizione divisa quando il registro del rapporto di verosimiglianza degli stessi dati tra due distribuzioni è zero, il che significa che la probabilità di appartenenza è ugualmente probabile.

La mia intuizione dice che deve esserci una connessione di qualche tipo, che GINI deve avere una buona base in una teoria matematica dell'informazione (Shannon) ma non capisco GINI abbastanza bene da derivare la relazione da solo.

Domande:

  • Qual è la derivazione dei "primi principi" del punteggio di impurità GINI come misura per la scissione?
  • In che modo il punteggio GINI si collega al log del rapporto di verosimiglianza o ad altri fondamenti teorici dell'informazione (Shannon Entropy, pdf ed cross entropy fanno parte di quelli)?

Riferimenti:

L'entropia di Shannon è descritta come:

H(x)=ΣiP(xi)logbP(xi)

Estendendolo al caso multivariato otteniamo:

H(X,Y)=ΣxΣyP(x,y)logbP(x,y)

L'entropia condizionale è definita come segue:

H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,H(X|Y)=H(X,Y)H(Y)

Il registro del rapporto di probabilità viene utilizzato per il rilevamento di modifiche improvvise e viene derivato utilizzando queste. (Non ho derivazioni davanti a me.)

Impurità GINI:

  • La forma generale di impurità GINI èI=i=1mfi(1fi)

Pensieri:

  • La divisione viene effettuata su una misura di impurità. L'alta "purezza" è probabilmente la stessa della bassa entropia. L'approccio è probabilmente correlato alla minimizzazione dell'entropia.
  • È probabile che la presunta distribuzione della base sia uniforme, o possibilmente con agitando la mano, gaussiana. Probabilmente stanno facendo una miscela di distribuzioni.
  • Mi chiedo se la derivazione del grafico Shewhart può essere applicata qui?
  • L'impurità GINI sembra l'integrale della funzione di densità di probabilità per una distribuzione binomiale con 2 prove e un successo. P(x=k)=(21)p(1p)

(Aggiuntivo)

  • La forma è anche coerente con una distribuzione beta-binomiale che è un coniugato precedente per una distribuzione ipergeometrica. I test ipergeometrici vengono spesso utilizzati per determinare quali campioni sono rappresentati sopra o sotto in un campione. C'è anche una relazione con l'esatto test di Fisher, qualunque esso sia (nota a se stesso, vai a saperne di più su questo).

Modifica: sospetto che esista una forma di GINI che funziona molto bene con la logica digitale e / o gli alberi rb. Spero di esplorarlo in un progetto di classe questo autunno.


1
È problematico se rispondo alla mia domanda?
EngrStudent - Ripristina Monica il

1
No, per niente. Se hai trovato quella che ritieni sia una risposta ragionevole, fai fuoco.
gung - Ripristina Monica

@EngrStudent. bella domanda, ma il primo link fornito nella sezione riferimenti si riferisce al coefficiente Gini, che non ha nulla a che fare con la misura Gini utilizzata nel CARRELLO
Antoine,

Per quanto riguarda l'indice Gini ho appena pubblicato una semplice interpretazione: stats.stackexchange.com/questions/308885/…
Picaud Vincent

Risposte:


11

Userò la stessa notazione che ho usato qui: matematica dietro alberi di classificazione e regressione

Gini Gain e Information Gain ( ) sono entrambi criteri di scissione basati sull'impurità. L'unica differenza è nella funzione di impurità :Iiosolio

  1. Gini:solionio(E)=1-Σj=1cpj2
  2. entropia:H(E)=-Σj=1cpjlogpj

In realtà sono valori particolari di una misura di entropia più generale (Entropia di Tsallis) parametrizzata in :β

Hβ(E)=1β-1(1-Σj=1cpjβ)

Gini si ottiene con e con .β=2Hβ1

La probabilità logaritmica, chiamata anche -statistica, è una trasformazione lineare di Guadagno delle informazioni:sol

solstatistica t=2|E|iosol

A seconda della comunità (statistiche / data mining) le persone preferiscono una misura o l'altra (domanda correlata qui ). Potrebbero essere praticamente equivalenti nel processo di induzione dell'albero decisionale. La probabilità di log potrebbe dare punteggi più alti a partizioni bilanciate quando ci sono molte classi [Nota tecnica: alcune proprietà dei criteri di divisione. Breiman 1996].

Gini Gain può essere più bello perché non ha logaritmi e puoi trovare la forma chiusa per il suo valore atteso e la varianza sotto ipotesi di suddivisione casuale [Alin Dobra, Johannes Gehrke: Correzione del pregiudizio nella costruzione dell'albero di classificazione. ICML 2001: 90-97]. Non è facile ottenere informazioni (se sei interessato, vedi qui ).


1

Buona domanda. Sfortunatamente non ho ancora abbastanza reputazione da votare o commentare, quindi rispondi invece!

Non ho molta familiarità con il test del rapporto, ma mi sembra che sia un formalismo utilizzato per confrontare la probabilità di dati derivanti da due (o più) diverse distribuzioni, mentre il coefficiente di Gini è una statistica riassuntiva di una singola distribuzione.

Un modo utile di pensare al coefficiente di Gini (IMO) è come l'area sotto la curva di Lorenz (correlata al cdf).

Potrebbe essere possibile equiparare l'entropia di Shannon a Gini usando la definizione fornita nel PO per entropia:

H=ΣioP(Xio)logBP(Xio)

e la definizione di Gini:

sol=1-1μΣioP(Xio)(Sio-1+Sio) , dove

x iSio=Σj=1ioP(Xio)Xio (ovvero la media cumulativa fino a ).Xio

Tuttavia non sembra un compito facile!


Un rapporto di verosimiglianza viene operato sugli stessi dati. Una delle distribuzioni può avere la stessa forma generale dell'altra, ma i suoi parametri sono stati adattati ai dati quando alcuni altri criteri erano veri. Ad esempio, è possibile avere una distribuzione i cui parametri descrivono una variazione del processo di produzione sana (non necessariamente gaussiana) e un'altra adatta ai valori del processo di produzione corrente, e operare entrambi sui valori del processo di produzione corrente confrontare il rapporto log-verosimiglianza con un valore di soglia che indica possibilità di escursione. Può essere confrontato con l'ideale.
EngrStudent - Ripristina Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.