Domande taggate «neural-networks»

Le reti neurali artificiali (ANN) sono un'ampia classe di modelli computazionali vagamente basati su reti neurali biologiche. Comprendono NN feedforward (inclusi NN "profondi"), NN convoluzionali, NN ricorrenti, ecc.

2
Diverse definizioni della funzione di perdita di entropia crociata
Ho iniziato a conoscere le reti neurali con il tutorial com dot su reti neurali e apprendimento. In particolare nel terzo capitolo c'è una sezione sulla funzione entropia crociata e definisce la perdita di entropia crociata come: C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - …



1

2
Quanto è profonda la connessione tra la funzione softmax in ML e la distribuzione di Boltzmann in termodinamica?
La funzione softmax, comunemente usata nelle reti neurali per convertire i numeri reali in probabilità, ha la stessa funzione della distribuzione di Boltzmann, la distribuzione di probabilità sulle energie per un insieme di particelle in equilibrio termico ad una data temperatura T in termodinamica. Vedo alcune chiare ragioni euristiche per …


3
Non linearità prima dello strato finale di Softmax in una rete neurale convoluzionale
Sto studiando e cercando di implementare reti neurali convoluzionali, ma suppongo che questa domanda si applichi ai percetroni multistrato in generale. I neuroni di output nella mia rete rappresentano l'attivazione di ogni classe: il neurone più attivo corrisponde alla classe prevista per un dato input. Per considerare un costo di …




2
Differenza tra una singola rete LSTM e una rete neurale LSTM a 3 unità
LSTM nel seguente codice Keras input_t = Input((4, 1)) output_t = LSTM(1)(input_t) model = Model(inputs=input_t, outputs=output_t) print(model.summary()) può essere rappresentato come Capisco che quando chiamiamo model.predict(np.array([[[1],[2],[3],[4]]]))la (sola) unità LSTM prima elabora il vettore [1], quindi [2] più il feedback dall'input precedente e così via fino al vettore [4]. In altre …

1
Approssimazione del secondo ordine della funzione di perdita (Deep learning book, 7.33)
Nel libro di Goodfellow (2016) sull'apprendimento profondo, ha parlato dell'equivalenza dell'arresto anticipato alla regolarizzazione L2 ( https://www.deeplearningbook.org/contents/regularization.html pagina 247). Approssimazione quadratica della funzione di costo è data da:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) dove è la matrice hessiana (Eq. 7.33). Manca questo a medio termine? L'espansione di Taylor dovrebbe essere: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2




Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.