È possibile utilizzare l'errore quadratico medio per la classificazione?

14

Conosco la formula dell'errore al quadrato medio e come calcolarla. Quando parliamo di una regressione, possiamo calcolare l'errore quadratico medio. Tuttavia, possiamo parlare di un MSE per un problema di classificazione e come calcolarlo?

classification error

— Kamaci
fonte

12

Molti classificatori possono prevedere punteggi continui. Spesso, i punteggi continui sono risultati intermedi che vengono convertiti solo in etichette di classe (di solito per soglia) come l'ultimo passo della classificazione. In altri casi, ad esempio, è possibile calcolare le probabilità posteriori per l'appartenenza alla classe (ad esempio analisi discriminante, regressione logistica). È possibile calcolare l'MSE utilizzando questi punteggi continui anziché le etichette di classe. Il vantaggio è che si evita la perdita di informazioni a causa della dicotomizzazione.
Quando il punteggio continuo è una probabilità, la metrica MSE viene chiamata punteggio di Brier.

Tuttavia, ci sono anche problemi di classificazione che sono piuttosto problemi di regressione sotto mentite spoglie. Nel mio campo ciò potrebbe essere, ad esempio, la classificazione dei casi a seconda che la concentrazione di una sostanza superi o meno un limite legale (che è un problema binario / discriminatorio di due classi). Qui, MSE è una scelta naturale a causa della natura di regressione sottostante dell'attività.

In questo articolo lo spieghiamo come parte di un quadro più generale: C. Beleites, R. Salzer e V. Sergo:
Convalida di modelli di classificazione soft utilizzando appartenenze a classi parziali: un concetto esteso di sensibilità e Co. applicato alla classificazione dei tessuti di astrocitoma
Chemom. Intell. Laboratorio. Syst., 122 (2013), 12-22.

Come calcolarlo: se lavori in R, un'implementazione è nel pacchetto "softclassval", http: /softclassval.r-forge.r-project.org.

— cbeleites insoddisfatto di SX
fonte

@ seanv507: molte grazie!

— cbeleites insoddisfatto di SX il

1

Non capisco bene come ... la classificazione riuscita sia una variabile binaria (corretta o no), quindi è difficile vedere cosa si quadrerebbe.

Generalmente le classificazioni vengono misurate su indicatori come la percentuale corretta, quando una classificazione che è stata stimata da un set di addestramento, viene applicata a un set di test che è stato accantonato in precedenza.

L'errore quadratico medio può certamente essere (ed è) calcolato per previsioni o valori previsti di variabili continue, ma non credo per le classificazioni.

— Peter Ellis
fonte

0

Per le stime di probabilità dovresti calcolare non MSE ma invece la probabilità: $\hat{\pi}$

$L=\prod_i \hat{\pi}_i^{y_i} (1-\hat{\pi}_i)^{1-y_i}$

Questa probabilità è per una risposta binaria, che si presume abbia una distribuzione di Bernoulli.

Se si prende il registro di e poi si annulla, si ottiene la perdita logistica, che è una sorta di analogo di MSE per quando si ha una risposta binaria. In particolare, MSE è la probabilità logaritmica negativa per una risposta continua che si presume abbia una distribuzione normale. $L$

— user0
fonte

0

Tecnicamente puoi, ma la funzione MSE non è convessa per la classificazione binaria. Pertanto, se un modello di classificazione binaria viene addestrato con la funzione Costo MSE, non è garantito minimizzare la funzione Costo . Inoltre, l'utilizzo di MSE come funzione di costo presuppone la distribuzione gaussiana che non è il caso della classificazione binaria.

— Mostafa Nakhaei
fonte

1

Perché MSE dovrebbe assumere la distribuzione gaussiana? (Al contrario, diciamo, la regressione dei minimi quadrati usa MSE come perdita, e possiamo dimostrare che è ottimale per problemi di regressione con residui normalmente distribuiti)

— cbeleites insoddisfatti di SX

Non è ottimale per la classificazione binaria ma ottimale per la regressione. La domanda era per il binario.

— Mostafa Nakhaei,

La domanda non dice classificazione binaria . Non dice nemmeno una classificazione discriminatoria. E non si chiede l'ottimalità (per la quale dovresti essere ancora più specifico sulla situazione anche se dire binario o discriminante con 2 classi), solo se si può usare MSE. Inoltre, il punteggio di Brier è una regola di punteggio rigorosamente corretta per le previsioni, quindi una spiegazione più dettagliata della non ottimalità sarebbe sicuramente utile (e forse molto illuminante su quando si applica questa non ottimalità).

— cbeleites insoddisfatto di SX il