Le reti neurali artificiali (ANN) sono un'ampia classe di modelli computazionali vagamente basati su reti neurali biologiche. Comprendono NN feedforward (inclusi NN "profondi"), NN convoluzionali, NN ricorrenti, ecc.
Ho iniziato a conoscere le reti neurali con il tutorial com dot su reti neurali e apprendimento. In particolare nel terzo capitolo c'è una sezione sulla funzione entropia crociata e definisce la perdita di entropia crociata come: C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjlnajL+(1−yj)ln(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - …
Come codificare la data e l'ora di un evento per una rete neurale? Non ho una serie temporale continua, ma alcuni eventi con data e ora e analizzo un qualche tipo di interesse. Questo interesse differisce tra mattina e sera e differisce tra i giorni feriali e tra estate e …
Leggendo Approfondendo le convoluzioni, mi sono imbattuto in un livello DepthConcat , un blocco costitutivo dei moduli di avvio proposti , che combina l'output di più tensori di dimensioni variabili. Gli autori chiamano questo "filtro concatenazione". Sembra che ci sia un'implementazione per Torch , ma non capisco davvero cosa faccia. …
Volevo capire meglio il test esatto del pescatore, quindi ho escogitato il seguente esempio di giocattolo, dove f e m corrispondono a maschio e femmina e n e y corrispondono a "consumo di soda" in questo modo: > soda_gender f m n 0 5 y 5 0 Ovviamente, questa è …
La funzione softmax, comunemente usata nelle reti neurali per convertire i numeri reali in probabilità, ha la stessa funzione della distribuzione di Boltzmann, la distribuzione di probabilità sulle energie per un insieme di particelle in equilibrio termico ad una data temperatura T in termodinamica. Vedo alcune chiare ragioni euristiche per …
Ho seguito le lezioni CS231N di Stanford e sto cercando di avvolgere la mia testa su alcuni problemi delle architetture della CNN. Quello che sto cercando di capire è se ci sono alcune linee guida generali per scegliere la dimensione del filtro di convoluzione e cose come i passi o …
Sto studiando e cercando di implementare reti neurali convoluzionali, ma suppongo che questa domanda si applichi ai percetroni multistrato in generale. I neuroni di output nella mia rete rappresentano l'attivazione di ogni classe: il neurone più attivo corrisponde alla classe prevista per un dato input. Per considerare un costo di …
Non penso che ci possa essere una risposta a tutti i modelli di apprendimento profondo. Quali dei modelli di apprendimento profondo sono parametrici e quali non parametrici e perché?
Ho un set di dati contenente 34 colonne di input e 8 colonne di output. Un modo per risolvere il problema è prendere i 34 input e creare un modello di regressione individuale per ogni colonna di output. Mi chiedo se questo problema possa essere risolto utilizzando un solo modello, …
Per quanto ne so, sia gli autocodificatori che il t-SNE sono utilizzati per la riduzione della dimensionalità non lineare. Quali sono le differenze tra loro e perché dovrei usare l'uno contro l'altro?
LSTM nel seguente codice Keras input_t = Input((4, 1)) output_t = LSTM(1)(input_t) model = Model(inputs=input_t, outputs=output_t) print(model.summary()) può essere rappresentato come Capisco che quando chiamiamo model.predict(np.array([[[1],[2],[3],[4]]]))la (sola) unità LSTM prima elabora il vettore [1], quindi [2] più il feedback dall'input precedente e così via fino al vettore [4]. In altre …
Nel libro di Goodfellow (2016) sull'apprendimento profondo, ha parlato dell'equivalenza dell'arresto anticipato alla regolarizzazione L2 ( https://www.deeplearningbook.org/contents/regularization.html pagina 247). Approssimazione quadratica della funzione di costo è data da:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) dove è la matrice hessiana (Eq. 7.33). Manca questo a medio termine? L'espansione di Taylor dovrebbe essere: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2
Da quanto ho capito, le CNN sono composte da due parti. La prima parte (livelli conv / pool) che esegue l'estrazione delle caratteristiche e la seconda parte (livelli fc) che esegue la classificazione delle caratteristiche. Dato che le reti neurali completamente connesse non sono i migliori classificatori (ovvero sono sovraperformate …
Per esempio, supponiamo che stiamo costruendo uno stimatore di età, basato sull'immagine di una persona. Di seguito abbiamo due persone in giacca e cravatta, ma la prima è chiaramente più giovane della seconda. (fonte: tinytux.com ) Ci sono molte caratteristiche che lo implicano, ad esempio la struttura del viso. Tuttavia …
Ecco qualcosa che ho letto nel libro Deep Learning di Ian Goodfellow . Nel contesto delle reti neurali, "la penalità della norma del parametro L2 è comunemente nota come riduzione del peso. Questa strategia di regolarizzazione avvicina i pesi all'origine [...]. Più in generale, potremmo regolarizzare i parametri in modo …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.