Statistiche e Big Data loss-functions

2

Perché k-mean non è ottimizzato usando la discesa gradiente?

So che k-medie è di solito ottimizzato usando l'ottimizzazione delle aspettative . Tuttavia, potremmo ottimizzare la sua funzione di perdita nello stesso modo in cui ne ottimizziamo tutti gli altri! Ho trovato alcuni documenti che usano effettivamente la pendenza stocastica del gradiente per k-medie su larga scala, ma non sono …

14 optimization k-means expectation-maximization loss-functions

1

Decomposizione della varianza

Nella sezione 3.2 di Bishop's Pattern Recognition and Machine Learning , discute della decomposizione di bias-varianza, affermando che per una funzione di perdita quadrata, la perdita attesa può essere scomposta in un termine di bias quadrato (che descrive quanto le previsioni medie sono lontane dal vero modello), un termine di …

13 self-study variance bias regularization loss-functions

1

Perché il classificatore bayes ingenuo è ottimale per la perdita 0-1?

Il classificatore Naive Bayes è il classificatore che assegna gli elementi xxx a una classe CCC base alla massimizzazione della posteriore ( C | x )P(C|x)P(C|x)P(C|x) per l'appartenenza alla classe e presuppone che le caratteristiche degli elementi siano indipendenti. La perdita 0-1 è la perdita che assegna a qualsiasi classificazione …

13 machine-learning bayesian optimization naive-bayes loss-functions

2

Classificazione con etichette rumorose?

Sto cercando di formare una rete neurale per la classificazione, ma le etichette che ho sono piuttosto rumorose (circa il 30% delle etichette sono sbagliate). La perdita di entropia funziona davvero, ma mi chiedevo ci sono alternative più efficaci in questo caso? o la perdita di entropia incrociata è ottimale? …

13 machine-learning neural-networks loss-functions noise

2

Perché una funzione di perdita 0-1 è intrattabile?

Nel libro Deep Learning di Ian Goodfellow , è scritto questo A volte, la funzione di perdita di cui ci preoccupiamo (diciamo, errore di classificazione) non può essere ottimizzata in modo efficiente. Ad esempio, minimizzare esattamente la perdita attesa 0-1 è generalmente intrattabile (esponenziale nella dimensione di input), anche per …

12 neural-networks deep-learning loss-functions

2

Diverse definizioni della funzione di perdita di entropia crociata

Ho iniziato a conoscere le reti neurali con il tutorial com dot su reti neurali e apprendimento. In particolare nel terzo capitolo c'è una sezione sulla funzione entropia crociata e definisce la perdita di entropia crociata come: C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - …

12 neural-networks loss-functions softmax cross-entropy

1

Gradiente per la funzione di perdita logistica

Farei una domanda relativa a questa . Ho trovato un esempio di scrittura della funzione di perdita personalizzata per xgboost qui : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") …

12 r machine-learning gradient-descent boosting loss-functions

5

Quale funzione di perdita dovrei usare per il rilevamento binario nel rilevamento di volti / non volti nella CNN?

Voglio usare il deep learning per addestrare un rilevamento binario viso / non viso, quale perdita dovrei usare, penso che sia SigmoidCrossEntropyLoss o Hinge-loss . Esatto, ma mi chiedo anche di usare softmax ma con solo due classi?

11 deep-learning loss-functions computer-vision conv-neural-network

1

Approssimazione del secondo ordine della funzione di perdita (Deep learning book, 7.33)

Nel libro di Goodfellow (2016) sull'apprendimento profondo, ha parlato dell'equivalenza dell'arresto anticipato alla regolarizzazione L2 ( https://www.deeplearningbook.org/contents/regularization.html pagina 247). Approssimazione quadratica della funzione di costo è data da:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) dove è la matrice hessiana (Eq. 7.33). Manca questo a medio termine? L'espansione di Taylor dovrebbe essere: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

11 neural-networks deep-learning loss-functions derivative

3

Quale funzione di perdita si dovrebbe usare per ottenere un classificatore binario ad alta precisione o ad alto richiamo?

Sto cercando di creare un rilevatore di oggetti che si verificano molto raramente (nelle immagini), pianificando di utilizzare un classificatore binario CNN applicato in una finestra scorrevole / ridimensionata. Ho costruito set di allenamento e test 1: 1 bilanciati positivi e negativi (è una cosa giusta da fare in questo …

11 logistic classification unbalanced-classes loss-functions

1

Scikit Binomial Deviance Loss Function

Questa è la funzione di perdita di deviazione binomiale di GradientBoosting di scikit, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) …

11 machine-learning scikit-learn boosting loss-functions

2

Funzioni di perdita percentuale

La soluzione al problema: minmE[|m−X|]minmE[|m−X|] \min_{m} \; E[|m-X|] è noto per essere la mediana di XXX , ma come appare la funzione di perdita per altri percentili? Esempio: il 25 ° percentile di X è la soluzione per: minmE[ L ( m , X) ]minmE[L(m,X)] \min_{m} \; E[ L(m,X) ] …

11 expected-value loss-functions

3

MAP è una soluzione a

Mi sono imbattuto in queste diapositive (diapositiva n. 16 e n. 17) in uno dei corsi online. L'istruttore stava cercando di spiegare come la massima stima posteriore (MAP) sia effettivamente la soluzione L(θ)=I[θ≠θ∗]L(θ)=io[θ≠θ*]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}] , dove θ∗θ*\theta^{*} è il vero parametro. Qualcuno può spiegare come segue? Modifica: …

10 bayesian optimization loss-functions decision-theory map-estimation

1

Quale funzione di perdita dovrei usare per segnare un modello seq2seq RNN?

Sto lavorando al documento Cho 2014 che ha introdotto l'architettura encoder-decoder per la modellazione seq2seq. Nel documento, sembrano usare la probabilità dell'input dato input (o è la probabilità di log negativo) come funzione di perdita per un input di lunghezza M e output y di lunghezza N :XXxMMMyyyNNN P( y1, …

10 deep-learning loss-functions rnn

1

In che modo uno stimatore che minimizza una somma ponderata di distorsioni quadrate e varianza si adatta alla teoria delle decisioni?

Okay - il mio messaggio originale non è riuscito a ottenere una risposta; quindi, lasciami porre la domanda in modo diverso. Inizierò spiegando la mia comprensione della stima da una prospettiva teorica decisionale. Non ho una formazione formale e non mi sorprenderebbe se il mio pensiero fosse in qualche modo …

10 bias loss-functions frequentist decision-theory risk

Domande taggate «loss-functions»