Domande taggate «derivative»

6
Backpropagation con Softmax / Cross Entropy
Sto cercando di capire come funziona la backpropagation per un livello di output softmax / cross-entropia. La funzione di errore di entropia incrociata è E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j con e come target e output al neurone , rispettivamente. La somma è su ogni neurone nel livello di output. stesso è …



1
Derivazione del cambiamento di variabili di una funzione di densità di probabilità?
Nel libro riconoscimento del modello e apprendimento automatico (formula 1.27), fornisce py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | dovex=g(y)x=g(y)x=g(y),px(x)px(x)p_x(x)è il pdf che corrisponde apy(y)py(y)p_y(y)rispetto alla modifica della variabile. Il libro dice che le osservazioni che rientrano nell'intervallo , per piccoli valori di δ x , verranno …


2
Derivata di un processo gaussiano
Credo che la derivata di un processo gaussiano (GP) sia un altro GP, e quindi vorrei sapere se ci sono equazioni in forma chiusa per le equazioni di previsione della derivata di un GP? In particolare, sto usando il kernel di covarianza esponenziale quadrata (chiamato anche gaussiano) e voglio sapere …

1
Approssimazione del secondo ordine della funzione di perdita (Deep learning book, 7.33)
Nel libro di Goodfellow (2016) sull'apprendimento profondo, ha parlato dell'equivalenza dell'arresto anticipato alla regolarizzazione L2 ( https://www.deeplearningbook.org/contents/regularization.html pagina 247). Approssimazione quadratica della funzione di costo è data da:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) dove è la matrice hessiana (Eq. 7.33). Manca questo a medio termine? L'espansione di Taylor dovrebbe essere: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

1
Interpretazione del derivato Radon-Nikodym tra misure di probabilità?
Ho visto in alcuni punti l'uso del derivato Radon-Nikodym di una misura di probabilità rispetto a un'altra, in particolare nella divergenza di Kullback-Leibler, dove è la derivata della misura di probabilità di un modello per un parametro arbitrario rispetto al parametro reale :θ 0θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} Dove si tratta di …


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.