Una funzione utilizzata per quantificare la differenza tra i dati osservati e i valori previsti in base a un modello. La minimizzazione delle funzioni di perdita è un modo per stimare i parametri del modello.
Sto addestrando una rete neurale per classificare un insieme di oggetti in n-classi. Ogni oggetto può appartenere a più classi contemporaneamente (multi-classe, multi-etichetta). Ho letto che per problemi multi-classe è generalmente raccomandato l'uso di softmax e entropia incrociata categorica come funzione di perdita invece di mse e capisco più o …
Prima di tutto, mi sono reso conto che se devo eseguire previsioni binarie, devo creare almeno due classi eseguendo una codifica a caldo. È corretto? Tuttavia, l'entropia incrociata binaria è solo per le previsioni con una sola classe? Se dovessi usare una categorica perdita di entropia che si trova in …
La funzione di costo della rete neurale è e si afferma che non sia convessa . Non capisco bene perché sia così, dal momento che come vedo è abbastanza simile alla funzione di costo della regressione logistica, giusto?J(W,b)J(W,b)J(W,b) Se non è convesso, quindi la derivata del 2 ° ordine , …
Sono un po 'confuso con una lezione sulla regressione lineare tenuta da Andrew Ng su Coursera sull'apprendimento automatico. Lì, ha dato una funzione di costo che minimizza la somma dei quadrati come: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Capisco da dove viene il . Penso che l'abbia fatto in modo che …
Il termine "perdita" è sinonimo di "errore"? C'è una differenza nella definizione? Inoltre, qual è l'origine del termine "perdita"? NB: La funzione di errore menzionata qui non deve essere confusa con un errore normale.
Ho letto di due versioni della funzione di perdita per la regressione logistica, quale di esse è corretta e perché? Da Machine Learning , Zhou ZH (in cinese), con β= ( w , b ) e βTx = wTx + bβ=(w,B) e βTX=wTX+B\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b : …
Spiegherò il mio problema con un esempio. Supponiamo di voler prevedere il reddito di un individuo in base ad alcuni attributi: {Età, Genere, Paese, Regione, Città}. Hai un set di dati di allenamento come questo train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …
Come esempio, assumere la funzione obiettivo del modello XGBoost sulla 'th iterazione:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) dove è la funzione di perdita, è la t 'th uscita albero e \ Omega è la regolarizzazione. Uno dei (molti) passaggi chiave per il calcolo veloce è l'approssimazione:ℓℓ\ellftftf_ttttΩΩ\Omega L( t )≈ ∑i = 1nℓ ( yio, …
Sappiamo che alcune funzioni oggettive sono più facili da ottimizzare e altre difficili. E ci sono molte funzioni di perdita che vogliamo usare ma difficili da usare, ad esempio la perdita 0-1. Quindi troviamo alcune funzioni di perdita proxy per fare il lavoro. Ad esempio, usiamo la perdita della cerniera …
Durante l'addestramento di reti neurali a segmentazione di pixel, come reti convoluzionali, come si decide di utilizzare la funzione di perdita tra entropia e la funzione di perdita a coefficiente di dadi? Mi rendo conto che questa è una domanda breve, ma non sono del tutto sicuro di quali altre …
La mia perdita di allenamento diminuisce e poi aumenta di nuovo. È molto strano. La perdita di convalida incrociata tiene traccia della perdita di addestramento. Cosa sta succedendo? Ho due LSTMS in pila come segue (su Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) …
Sto cercando di implementare la discesa gradiente di base e la sto testando con una funzione di perdita della cerniera, ad esempio . Tuttavia, sono confuso sul gradiente della perdita della cerniera. Ho l'impressione che lo sialhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w}) ∂∂wlcerniera= { - y X0se y x ⋅ …
Sto cercando di capire la regressione quantile, ma una cosa che mi fa soffrire è la scelta della funzione di perdita. ρτ(u)=u(τ−1{u<0})ρτ(u)=u(τ−1{u<0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) So che il minimo dell'aspettativa di ρτ(y−u)ρτ(y−u)\rho_\tau(y-u) è uguale a τ%τ%\tau\% -quantile, ma qual è la ragione intuitiva per iniziare con questa funzione? Non vedo la …
Problema Nella regressione si calcola di solito l' errore quadratico medio (MSE) per un campione: per misurare la qualità di un predittore.MSE = 1nΣi = 1n( g( xio) - gˆ( xio) )2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 In questo momento sto lavorando a un problema di regressione in cui …
Quindi mi è stata posta una domanda sulla stima delle misure centrali L1 (es. Lazo) e L2 (es. Regressione della cresta). La risposta è L1 = mediana e L2 = media. C'è qualche tipo di ragionamento intuitivo in questo? O deve essere determinato algebricamente? In tal caso, come posso fare …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.