Derivazione della negentropia. Rimanere bloccati


13

Quindi, questa domanda è in qualche modo coinvolta, ma ho cercato scrupolosamente di renderla il più semplice possibile.

Obiettivo: per farla breve, c'è una derivazione della negentropia che non lo fa coinvolge cumulativi di ordine superiore e sto cercando di capire come è stata derivata.

Contesto: (capisco tutto questo)

Sto studiando da solo il libro "Independent Component Analysis" , trovato qui. (Questa domanda proviene dalla sezione 5.6, nel caso in cui sia disponibile il libro "Approssimazione dell'entropia per funzioni non polinomiali").

Abbiamo x , che è una variabile casuale, e di cui vogliamo stimare la negentropia, da alcune osservazioni che abbiamo. Il PDF di x è dato da px(ζ) . La negentropia è semplicemente la differenza tra l'entropia differenziale di una variabile casuale gaussiana standardizzata e l'entropia differenziale di x . L'entropia differenziale qui è data da H , in modo tale che:

H(x)=px(ζ)log(px(ζ))dζ

e così, la negentropia è data da

J(x)=H(v)H(x)

dove è un gaussiano rv standardizzato, con PDF dato da ϕ ( ζ )vϕ(ζ) .

Ora, come parte di questo nuovo metodo, il mio libro ha derivato una stima del PDF di , data da:x

px(ζ)=ϕ(ζ)[1+iciFi(ζ)]

(Dove . A proposito, io lo sonoci=E{Fi(x)}i non un potere, ma un indice invece).

Per ora, "accetto" questa nuova formula PDF e lo chiederò un altro giorno. Questo non è il mio problema principale. Quello che fa ora, però, è ricollegare questa versione del PDF di all'equazione della negentropia e finisce con:x

J(x)12iE{Fi(x)}2

Ricorda, il sigma (qui e per il resto del post), gira semplicemente attorno all'indice . Ad esempio, se avessimo solo due funzioni, il segnale sarebbe in loop per i = 2 e i = 2 . Certo, dovrei parlarti di quelle funzioni che sta usando. Quindi, apparentemente, quelle funzioni F i sono definiti come in tal modo:ii=2i=2Fi

Le funzioni non sono funzioni polinomiali in questo caso. (Partiamo dal presupposto che rv x è media zero e di varianza unitaria). Ora, facciamo alcuni vincoli e diamo le proprietà di quelle funzioni:Fix

Fn+1(ζ)=ζ,cn+1=0

Fn+2(ζ)=ζ2,cn+1=1

I calcoli semplificare, facciamo un altro, ipotesi puramente tecnico: Le funzioni , forma un sistema ortonormale, come tale:Fi,i=1,...n

ϕ(ζ)Fi(ζ)Fj(ζ)dζ={1,if i=j0,if ij

e

ϕ(ζ)Fi(ζ)ζkd(ζ)=0,for k=0,1,2

Quasi lì! OK, quindi tutto questo era lo sfondo, e ora per la domanda. Il compito è quindi semplicemente inserire questo nuovo PDF nella formula dell'entropia differenziale, H(x) . Se capisco questo, capirò il resto. Ora, il libro dà la derivazione, (e sono d'accordo), ma rimango bloccato verso la fine, perché non so / vedo come si sta cancellando. Inoltre, non so come interpretare la piccola notazione dell'espansione di Taylor.

Questo è il risultato:

Utilizzando l'espansione di Taylor , perH(x)otteniamo:(1+ϵ)log(1+ϵ)=ϵ+ϵ22+o(ϵ2)H(x)

H(x)=ϕ(ζ)(1+ciFi(ζ))(log(1+ciFi(ζ)+log(ζ))d(ζ)=ϕ(ζ)log(ζ)ϕ(ζ)ciFi(ζ)log(ϕ(ζ))ϕ(ζ)[ciFi(ζ)+12(ciFi(ζ))2+o((ciFi(ζ))2)]

e così

La domanda: (non capisco)

H(x)=H(v)0012ci2+o((ci)2

Quindi, il mio problema: ad eccezione di , non capisco come abbia ottenuto gli ultimi 4 termini nell'ultima equazione. (ovvero 0, 0 e gli ultimi 2 termini). Capisco tutto prima. Dice di aver sfruttato le relazioni di ortogonalità indicate nelle proprietà sopra, ma non vedo come. (Anche io non capisco la piccola notazione qui, nel senso di, come viene usata?)H(v)

GRAZIE!!!!

MODIFICARE:

Sono andato avanti e ho aggiunto le immagini del libro che sto leggendo, praticamente dice quello che ho detto sopra, ma nel caso in cui qualcuno abbia bisogno di un contesto aggiuntivo.

inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine

E qui, segnato in rosso, è la parte esatta che mi confonde. In che modo usa le proprietà di ortogonalità per ottenere l'ultima parte, in cui le cose si stanno cancellando, e le sommazioni finali che coinvolgono e la sommazione della piccola notazione?cio2


1
logϕ(x)

@cardinal Ok, corretto l'errore di battitura, grazie. Detto questo, non sono chiaro su come stia eseguendo la cancellazione. Ho aggiunto le immagini reali tra l'altro, dal libro stesso.
Spacey,

2
Onestamente, non ho idea di come o perché questo sia stato migrato fuori dal sito di matematica. Ad ogni modo, sono felice di averlo qui, dove è ugualmente a casa. Hai fatto molti sforzi nella domanda. :-)
cardinale

2
@cardinal Mi fa tanto piacere sentirti dire questo. :-) Sì, speriamo che questo investimento di studio autonomo ripagherà un giorno. ;-)
Spacey,

2
Sarà, @Mohammad, lo farà! L'ICA è anche un argomento molto interessante :-).
Néstor,

Risposte:


9

ci

ci=p0(ξ)Gi(ξ)dξ.
ξξ'cio

>> Per ottenere i termini zero:

Richiama questo φ(ξ)=exp(-ξ2/2)/2π. Come suggerito da @cardinal, devi scrivere esplicitamentelogφ(ξ), che equivale a:

logφ(ξ)=-ξ2/2-log2π.
Con questo a portata di mano, devi solo notare che:
cioφ(ξ)solio(ξ)logφ(ξ)=-12cioφ(ξ)solio(ξ)ξ2-log2πcioφ(ξ)solio(ξ),   (1)
dove ho lasciato cadere le costanti al di fuori degli integrali.

Da qui, si noti che in (5.39) si afferma che φ(ξ)Fio(ξ)ξK è 0 per K=0,1,2. L'integrale sul primo termine a destra dell'eq.(1) è di questa forma (con K=2) e anche l'integrale nel secondo termine (con K=0). Devi solo sfruttare questo fatto sulle somme e il gioco è fatto!

>> Per ottenere il Σcio2 termini:

Si noti che l'integrale da ottenere per ottenere questi termini è:

φ(ξ)(Σio=1nciosolio(ξ))2dξ.
Possiamo usare il teorema multinomiale per espandere la somma quadrata. Questo ci dà:
φ(ξ)ΣK1+K2+...Kn=22!K1!K2!...Kn!Π1tn(ctsolt(ξ))Ktdξ.
Tuttavia, da (5.39) di nuovo, si noti che tutti i termini di questa somma che includono integrali per il modulo
φ(ξ)solio(ξ)solj(ξ)dξ
are zero for ij and one for i=j. This leave us with the result
φ(ξ)(ciGi(ξ))2dξ=ci2.

>> About the o(whatever) notation

I think this is pretty confusing from the authors, but I recall that they use it just to mean that there are terms of order whatever every time they put o(whatever) (i.e., just like the big-O notation). However, as @Macro commented on this same answer, there is a difference between the big-O notation and the little-O one. Maybe you should check by yourself and see which one suits the problem in this Wikipedia article.

PS: This is a great book by the way. The papers of the authors on the subject are also very good and are a must read if you are trying to understand and implement ICA.


1
(+1) Good answer. If the sums are infinite, we have to be more careful about interchanging them with the integral. If they are finite (as the OP suggests, but I did not look at the images closely) then everything is straightforward, as you've shown. :-)
cardinal

Ah yes! Thank you Nestor, but what about the last two results, that is, the summation with the ci2, and summation with the small-o notation part?
Spacey

1
@cardinal: Oh yes! They ARE finite (I don't know why I wrote they where infinite...). I changed that on my answer.
Néstor

@Mohammad, I'm writing on my answers your other two questions ;-).
Néstor

1
@Néstor, +1 to this answer but re: your last comment, I think there is a distinction between big-O and little-o notation.
Macro
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.