Diverse trasformazioni di densità di probabilità dovute al fattore giacobino


12

In Bishop's Pattern Recognition and Machine Learning ho letto quanto segue, subito dopo l' introduzione della densità di probabilità :p(X(un',B))=un'Bp(X)dX

Sotto un cambiamento non lineare di variabile, una densità di probabilità si trasforma in modo diverso da una semplice funzione, a causa del fattore giacobino. Ad esempio, se consideriamo un cambiamento di variabili , allora una funzione diventa . Consideriamo ora una densità di probabilità che corrisponde a una densità rispetto alla nuova variabile , dove i suffissi indicano il fatto che e sono densità diverse. Le osservazioni che rientrano nell'intervallo , per piccoli valori di , verranno trasformate nell'intervalloX=g(y)f(X)f~(y)=f(g(y))px(x)py(y)ypX(X)py(y)(X,X+δX)δX(y,y+δy ) dove , e quindi.pX(X)δXpy(y)δypy(y)=pX(X)|dXdy|=pX(g(y))|g'(y)|

Qual è il fattore giacobino e cosa significa esattamente tutto (forse qualitativamente)? Bishop afferma che una conseguenza di questa proprietà è che il concetto del massimo di una densità di probabilità dipende dalla scelta della variabile. Cosa significa questo?

Per me questo viene tutto fuori dal nulla (considerando che è nel capitolo introduttivo). Apprezzerei alcuni suggerimenti, grazie!



1
Per una grande descrizione del fattore giacobino vedere il video tutorial di Khan Academy sul determinante giacobino. khanacademy.org/math/multivariable-calculus/…
JStrahl

Risposte:


8

Ti suggerisco di leggere la soluzione della domanda 1.4 che fornisce una buona intuizione.

In poche parole, se si dispone di una funzione arbitraria e due variabili ed che sono collegati tra loro mediante la funzione , allora si può trovare il massimo della funzione sia analizzando direttamente : o la funzione trasformata : . Non sorprende, e saranno correlati a ciascuno come (qui ho assunto che .x y x = g ( y ) f ( x ) x = a r g m una x x ( f ( x ) ) f ( g ( y ) ) y = a r g m una x y ( f ( g ( y ) ) x yf(X)XyX=g(y)f(X)X^=un'rgmun'XX(f(X))f(g(y))y^=un'rgmun'Xy(f(g(y))X^y^y:g'(y)0)X^=g(y^)y:g'(y)0)

Questo non è il caso delle distribuzioni di probabilità. Se hai una distribuzione di probabilità e due variabili casuali correlate tra loro da . Quindi non esiste una relazione diretta tra e . Ciò accade a causa del fattore giacobino, un fattore che mostra come il volum è relativamente cambiato da una funzione come .x = g ( y ) x = a r g m una x x ( p x ( x ) ) y = a r g m una x y ( p y ( y ) ) g ( . )pX(X)X=g(y)X^=un'rgmun'XX(pX(X))y^=un'rgmun'Xy(py(y))g(.)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.