Domande taggate «loss-functions»

Una funzione utilizzata per quantificare la differenza tra i dati osservati e i valori previsti in base a un modello. La minimizzazione delle funzioni di perdita è un modo per stimare i parametri del modello.


1
Decomposizione della varianza
Nella sezione 3.2 di Bishop's Pattern Recognition and Machine Learning , discute della decomposizione di bias-varianza, affermando che per una funzione di perdita quadrata, la perdita attesa può essere scomposta in un termine di bias quadrato (che descrive quanto le previsioni medie sono lontane dal vero modello), un termine di …




2
Diverse definizioni della funzione di perdita di entropia crociata
Ho iniziato a conoscere le reti neurali con il tutorial com dot su reti neurali e apprendimento. In particolare nel terzo capitolo c'è una sezione sulla funzione entropia crociata e definisce la perdita di entropia crociata come: C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - …



1
Approssimazione del secondo ordine della funzione di perdita (Deep learning book, 7.33)
Nel libro di Goodfellow (2016) sull'apprendimento profondo, ha parlato dell'equivalenza dell'arresto anticipato alla regolarizzazione L2 ( https://www.deeplearningbook.org/contents/regularization.html pagina 247). Approssimazione quadratica della funzione di costo è data da:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) dove è la matrice hessiana (Eq. 7.33). Manca questo a medio termine? L'espansione di Taylor dovrebbe essere: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

3
Quale funzione di perdita si dovrebbe usare per ottenere un classificatore binario ad alta precisione o ad alto richiamo?
Sto cercando di creare un rilevatore di oggetti che si verificano molto raramente (nelle immagini), pianificando di utilizzare un classificatore binario CNN applicato in una finestra scorrevole / ridimensionata. Ho costruito set di allenamento e test 1: 1 bilanciati positivi e negativi (è una cosa giusta da fare in questo …

1
Scikit Binomial Deviance Loss Function
Questa è la funzione di perdita di deviazione binomiale di GradientBoosting di scikit, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) …

2
Funzioni di perdita percentuale
La soluzione al problema: minmE[|m−X|]minmE[|m−X|] \min_{m} \; E[|m-X|] è noto per essere la mediana di XXX , ma come appare la funzione di perdita per altri percentili? Esempio: il 25 ° percentile di X è la soluzione per: minmE[ L ( m , X) ]minmE[L(m,X)] \min_{m} \; E[ L(m,X) ] …

3
MAP è una soluzione a
Mi sono imbattuto in queste diapositive (diapositiva n. 16 e n. 17) in uno dei corsi online. L'istruttore stava cercando di spiegare come la massima stima posteriore (MAP) sia effettivamente la soluzione L(θ)=I[θ≠θ∗]L(θ)=io[θ≠θ*]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}] , dove θ∗θ*\theta^{*} è il vero parametro. Qualcuno può spiegare come segue? Modifica: …


1
In che modo uno stimatore che minimizza una somma ponderata di distorsioni quadrate e varianza si adatta alla teoria delle decisioni?
Okay - il mio messaggio originale non è riuscito a ottenere una risposta; quindi, lasciami porre la domanda in modo diverso. Inizierò spiegando la mia comprensione della stima da una prospettiva teorica decisionale. Non ho una formazione formale e non mi sorprenderebbe se il mio pensiero fosse in qualche modo …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.