Una funzione utilizzata per quantificare la differenza tra i dati osservati e i valori previsti in base a un modello. La minimizzazione delle funzioni di perdita è un modo per stimare i parametri del modello.
So che k-medie è di solito ottimizzato usando l'ottimizzazione delle aspettative . Tuttavia, potremmo ottimizzare la sua funzione di perdita nello stesso modo in cui ne ottimizziamo tutti gli altri! Ho trovato alcuni documenti che usano effettivamente la pendenza stocastica del gradiente per k-medie su larga scala, ma non sono …
Nella sezione 3.2 di Bishop's Pattern Recognition and Machine Learning , discute della decomposizione di bias-varianza, affermando che per una funzione di perdita quadrata, la perdita attesa può essere scomposta in un termine di bias quadrato (che descrive quanto le previsioni medie sono lontane dal vero modello), un termine di …
Il classificatore Naive Bayes è il classificatore che assegna gli elementi xxx a una classe CCC base alla massimizzazione della posteriore ( C | x )P(C|x)P(C|x)P(C|x) per l'appartenenza alla classe e presuppone che le caratteristiche degli elementi siano indipendenti. La perdita 0-1 è la perdita che assegna a qualsiasi classificazione …
Sto cercando di formare una rete neurale per la classificazione, ma le etichette che ho sono piuttosto rumorose (circa il 30% delle etichette sono sbagliate). La perdita di entropia funziona davvero, ma mi chiedevo ci sono alternative più efficaci in questo caso? o la perdita di entropia incrociata è ottimale? …
Nel libro Deep Learning di Ian Goodfellow , è scritto questo A volte, la funzione di perdita di cui ci preoccupiamo (diciamo, errore di classificazione) non può essere ottimizzata in modo efficiente. Ad esempio, minimizzare esattamente la perdita attesa 0-1 è generalmente intrattabile (esponenziale nella dimensione di input), anche per …
Ho iniziato a conoscere le reti neurali con il tutorial com dot su reti neurali e apprendimento. In particolare nel terzo capitolo c'è una sezione sulla funzione entropia crociata e definisce la perdita di entropia crociata come: C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjlnajL+(1−yj)ln(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - …
Farei una domanda relativa a questa . Ho trovato un esempio di scrittura della funzione di perdita personalizzata per xgboost qui : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") …
Voglio usare il deep learning per addestrare un rilevamento binario viso / non viso, quale perdita dovrei usare, penso che sia SigmoidCrossEntropyLoss o Hinge-loss . Esatto, ma mi chiedo anche di usare softmax ma con solo due classi?
Nel libro di Goodfellow (2016) sull'apprendimento profondo, ha parlato dell'equivalenza dell'arresto anticipato alla regolarizzazione L2 ( https://www.deeplearningbook.org/contents/regularization.html pagina 247). Approssimazione quadratica della funzione di costo è data da:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) dove è la matrice hessiana (Eq. 7.33). Manca questo a medio termine? L'espansione di Taylor dovrebbe essere: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2
Sto cercando di creare un rilevatore di oggetti che si verificano molto raramente (nelle immagini), pianificando di utilizzare un classificatore binario CNN applicato in una finestra scorrevole / ridimensionata. Ho costruito set di allenamento e test 1: 1 bilanciati positivi e negativi (è una cosa giusta da fare in questo …
Questa è la funzione di perdita di deviazione binomiale di GradientBoosting di scikit, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) …
La soluzione al problema: minmE[|m−X|]minmE[|m−X|] \min_{m} \; E[|m-X|] è noto per essere la mediana di XXX , ma come appare la funzione di perdita per altri percentili? Esempio: il 25 ° percentile di X è la soluzione per: minmE[ L ( m , X) ]minmE[L(m,X)] \min_{m} \; E[ L(m,X) ] …
Mi sono imbattuto in queste diapositive (diapositiva n. 16 e n. 17) in uno dei corsi online. L'istruttore stava cercando di spiegare come la massima stima posteriore (MAP) sia effettivamente la soluzione L(θ)=I[θ≠θ∗]L(θ)=io[θ≠θ*]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}] , dove θ∗θ*\theta^{*} è il vero parametro. Qualcuno può spiegare come segue? Modifica: …
Sto lavorando al documento Cho 2014 che ha introdotto l'architettura encoder-decoder per la modellazione seq2seq. Nel documento, sembrano usare la probabilità dell'input dato input (o è la probabilità di log negativo) come funzione di perdita per un input di lunghezza M e output y di lunghezza N :XXxMMMyyyNNN P( y1, …
Okay - il mio messaggio originale non è riuscito a ottenere una risposta; quindi, lasciami porre la domanda in modo diverso. Inizierò spiegando la mia comprensione della stima da una prospettiva teorica decisionale. Non ho una formazione formale e non mi sorprenderebbe se il mio pensiero fosse in qualche modo …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.