In Bishop's Pattern Recognition and Machine Learning ho letto quanto segue, subito dopo l' introduzione della densità di probabilità :
Sotto un cambiamento non lineare di variabile, una densità di probabilità si trasforma in modo diverso da una semplice funzione, a causa del fattore giacobino. Ad esempio, se consideriamo un cambiamento di variabili , allora una funzione diventa . Consideriamo ora una densità di probabilità che corrisponde a una densità rispetto alla nuova variabile , dove i suffissi indicano il fatto che e sono densità diverse. Le osservazioni che rientrano nell'intervallo , per piccoli valori di , verranno trasformate nell'intervallo ) dove , e quindi.
Qual è il fattore giacobino e cosa significa esattamente tutto (forse qualitativamente)? Bishop afferma che una conseguenza di questa proprietà è che il concetto del massimo di una densità di probabilità dipende dalla scelta della variabile. Cosa significa questo?
Per me questo viene tutto fuori dal nulla (considerando che è nel capitolo introduttivo). Apprezzerei alcuni suggerimenti, grazie!