Voglio conoscere la differenza tra regressione lineare in un'analisi di apprendimento automatico regolare e regressione lineare in un ambiente di "apprendimento profondo". Quali algoritmi vengono utilizzati per la regressione lineare in contesti di apprendimento profondo.
Stavo leggendo il documento Deep Residual Learning for Image Recognition e ho avuto difficoltà a comprendere con certezza al 100% ciò che un blocco residuo comporta computazionalmente. Leggendo il loro articolo hanno la figura 2: che illustra cosa dovrebbe essere un blocco residuo. Il calcolo di un blocco residuo è …
Nell'apprendimento automatico (per problemi di regressione), vedo spesso errore medio quadrato (MSE) o errore assoluto medio (MAE) utilizzato come funzione di errore per minimizzare (oltre al termine di regolarizzazione). Mi chiedo se ci sono situazioni in cui l'uso del coefficiente di correlazione sarebbe più appropriato? se tale situazione esiste, quindi: …
Come codificare la data e l'ora di un evento per una rete neurale? Non ho una serie temporale continua, ma alcuni eventi con data e ora e analizzo un qualche tipo di interesse. Questo interesse differisce tra mattina e sera e differisce tra i giorni feriali e tra estate e …
Ho seguito le lezioni CS231N di Stanford e sto cercando di avvolgere la mia testa su alcuni problemi delle architetture della CNN. Quello che sto cercando di capire è se ci sono alcune linee guida generali per scegliere la dimensione del filtro di convoluzione e cose come i passi o …
Capisco che, dato un insieme di osservazioni indipendenti lo stimatore della massima verosimiglianza (o, equivalentemente, il MAP con precedente piano / uniforme) che identifica i parametri \ mathbf {θ} che producono la distribuzione del modello p_ {modello} \ sinistra (\, \ cdot \,; \ mathbf {θ} \ destra) che corrisponderà …
Sto studiando e cercando di implementare reti neurali convoluzionali, ma suppongo che questa domanda si applichi ai percetroni multistrato in generale. I neuroni di output nella mia rete rappresentano l'attivazione di ogni classe: il neurone più attivo corrisponde alla classe prevista per un dato input. Per considerare un costo di …
Non penso che ci possa essere una risposta a tutti i modelli di apprendimento profondo. Quali dei modelli di apprendimento profondo sono parametrici e quali non parametrici e perché?
Ho un set di dati contenente 34 colonne di input e 8 colonne di output. Un modo per risolvere il problema è prendere i 34 input e creare un modello di regressione individuale per ogni colonna di output. Mi chiedo se questo problema possa essere risolto utilizzando un solo modello, …
Per quanto ne so, sia gli autocodificatori che il t-SNE sono utilizzati per la riduzione della dimensionalità non lineare. Quali sono le differenze tra loro e perché dovrei usare l'uno contro l'altro?
Voglio usare il deep learning per addestrare un rilevamento binario viso / non viso, quale perdita dovrei usare, penso che sia SigmoidCrossEntropyLoss o Hinge-loss . Esatto, ma mi chiedo anche di usare softmax ma con solo due classi?
Nel libro di Goodfellow (2016) sull'apprendimento profondo, ha parlato dell'equivalenza dell'arresto anticipato alla regolarizzazione L2 ( https://www.deeplearningbook.org/contents/regularization.html pagina 247). Approssimazione quadratica della funzione di costo è data da:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) dove è la matrice hessiana (Eq. 7.33). Manca questo a medio termine? L'espansione di Taylor dovrebbe essere: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2
Di recente sono venuto a conoscenza del fatto che i metodi "privi di probabilità" sono stati banditi in letteratura. Tuttavia, non sono chiaro su cosa significhi che un metodo di inferenza o ottimizzazione sia privo di probabilità . Nell'apprendimento automatico l'obiettivo è di solito massimizzare la probabilità di alcuni parametri …
Ecco qualcosa che ho letto nel libro Deep Learning di Ian Goodfellow . Nel contesto delle reti neurali, "la penalità della norma del parametro L2 è comunemente nota come riduzione del peso. Questa strategia di regolarizzazione avvicina i pesi all'origine [...]. Più in generale, potremmo regolarizzare i parametri in modo …
Recentemente, abbiamo visto emergere la rete neurale residua, in cui ogni strato è costituito da un modulo computazionale e da una connessione di scelta rapida che preserva l'input allo strato come l'output del suo strato mostra: y i + 1 = c i + y i La rete consente di …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.