Media errore assoluto O radice quadrata media errore?


59

Perché usare il Root Mean Squared Error (RMSE) invece del Mean Absolute Error (MAE) ??

Ciao

Ho studiato l'errore generato in un calcolo: inizialmente ho calcolato l'errore come errore al quadrato normalizzato della radice.

Guardando un po 'più da vicino, vedo gli effetti della quadratura dell'errore che dà più peso agli errori più grandi di quelli più piccoli, inclinando la stima dell'errore verso lo strano anomalo. Questo è abbastanza ovvio in retrospettiva.

Quindi la mia domanda: in quale caso l'errore quadratico medio di radice sarebbe una misura di errore più appropriata dell'errore assoluto medio? Quest'ultimo mi sembra più appropriato o mi sto perdendo qualcosa?

Per illustrare questo ho allegato un esempio di seguito:

  • Il diagramma a dispersione mostra due variabili con una buona correlazione,

  • i due istogrammi a destra rappresentano l'errore tra Y (osservato) e Y (previsto) utilizzando RMSE normalizzato (in alto) e MAE (in basso).

inserisci qui la descrizione dell'immagine

Non ci sono valori anomali significativi in ​​questi dati e MAE fornisce un errore inferiore a RMSE. Esiste qualche razionale, oltre al fatto che MAE sia preferibile, per usare una misura di errore rispetto all'altra?


9
Poiché RMSE e MAE sono due diverse misure di errore, un confronto numerico tra loro (che è coinvolto nell'asserire che MAE è "inferiore" di RMSE) non sembra significativo. Quella linea deve essere stata adeguata secondo un criterio: tale criterio, qualunque esso sia, deve essere la misura di errore rilevante.
whuber

la linea è stata adattata utilizzando i minimi quadrati, ma l'immagine è solo un esempio per mostrare la differenza nell'errore misurato. Il mio vero problema è usare un ottimizzatore per risolvere quattro parametri di funzione in qualche misura di errore minimizzato, MAE o RMSE.
user1665220

Grazie per il chiarimento. Ma a quale errore sei interessato, precisamente? L'errore nell'adattamento o gli errori nelle stime dei parametri ?
whuber

1
L'errore nella misura. Ho alcuni esempi di laboratorio che ti danno, che voglio prevedere usando una funzione. Ottimizzo la funzione per 4 esponenti minimizzando l'errore per l'adattamento tra i dati osservati e previsti.
user1665220

In RMSE consideriamo la radice del numero di elementi (n). Questa è la radice di MSE divisa per la radice di n. La radice di MSE è ok, ma anziché dividere per n è divisa per la radice di n per ricevere RMSE. Sento che sarebbe una politica. La realtà sarebbe (Root of MSE) / n. In questo modo MAE è migliore.

Risposte:


58

Questo dipende dalla tua funzione di perdita. In molte circostanze ha senso dare più peso ai punti più lontani dalla media, vale a dire, essere fuori da 10 è più del doppio di essere spento da 5. In tali casi RMSE è una misura più appropriata di errore.

Se essere spento per dieci è solo due volte più cattivo di essere spento per 5, allora MAE è più appropriato.

In ogni caso, non ha senso confrontare RMSE e MAE tra loro come si fa nella penultima frase ("MAE fornisce un errore inferiore a RMSE"). MAE non sarà mai superiore a RMSE a causa del modo in cui sono calcolati. Hanno senso solo rispetto alla stessa misura di errore: puoi confrontare RMSE per il Metodo 1 con RMSE per il Metodo 2 o MAE per il Metodo 1 con MAE per il Metodo 2, ma non puoi dire che MAE sia migliore di RMSE per il Metodo 1 perché è più piccolo.


Capisco che MAE non sarà mai superiore a RMSE. Ho usato entrambe le stime degli errori e ho esaminato la differenza tra i valori per dare un'indicazione sull'impatto dei valori anomali. Vale a dire quando sono molto vicini, quando si allontanano, indago per vedere cosa sta succedendo. In definitiva, voglio prevedere i parametri che meglio si adattano ai dati, e ad esempio un errore del 9% suona meglio del 12% - volevo solo assicurarmi di scegliere quello giusto per il motivo giusto. Saluti per il tuo consiglio
user1665220

La differenza principale tra RMSE (di conseguenza MSE) e MAE non riguarda il modo in cui pesano gli errori. È possibile utilizzare una funzione di peso, se necessario. La differenza principale è che MSE è correlato a L2 Space (MAE non ha nulla del genere). Ad esempio, MSE potrebbe misurare la quantità di energia necessaria per un controllo ad anello chiuso quando E è il segnale di feedback (Ricorda il quadrato medio di un segnale, in questo caso Errore, è proporzionale alla sua energia). Anche tanta matematica e conseguentemente algoritmi come Marquardt-Levenberg lavorano in questo spazio. in poche parole, usano MSE come funzione oggettiva.
Eulerleibniz,

17

Ecco un'altra situazione in cui si desidera utilizzare (R) MSE anziché MAE: quando la distribuzione condizionale delle osservazioni è asimmetrica e si desidera un adattamento non corretto. Il MSE (R) è minimizzato dalla media condizionale , il MAE dalla mediana condizionale . Quindi, se si minimizza il MAE, l'adattamento sarà più vicino alla mediana e distorto.

Naturalmente, tutto ciò dipende davvero dalla tua funzione di perdita.

Lo stesso problema si verifica se si utilizza MAE o (R) MSE per valutare previsioni o previsioni . Ad esempio, i dati di vendita a basso volume hanno in genere una distribuzione asimmetrica. Se ottimizzi il MAE, potresti essere sorpreso di scoprire che la previsione ottimale MAE è una previsione zero piatta.

Ecco una piccola presentazione che copre questo , ed ecco un recente commento invitato sul concorso di previsione M4 in cui ho spiegato questo effetto .


+1. L'idea di confrontare le distribuzioni è fantastica ma ... una metrica come quella che presenti non fallirebbe miseramente in qualcosa del genere N = 1e3; set.seed(1); y = rpois(N, lambda=1); yhat = c(y[2:N],0)? La "differenza" delle densità predittive sarebbe minima ma l'attuale yhatsarebbe inutile. Certo, questo è un caso estremo. (Potrei mancare qualcosa di ovvio, mi scuso in anticipo - non ho accesso al documento solo alla presentazione.)
Usεr11852 dice Reinstate Monic il

@ usεr11852: sì, la sequenza di previsioni dei punti sarebbe inutile e, in particolare, molto peggio di una previsione piatta (che è sia la media che la mediana, quindi è ottimale sia per MAE che per MSE) . Una previsione di densità non è solo una sequenza di previsioni puntuali! È una previsione di densità completa per ogni punto temporale futuro . Quindi prediremmo un Pois (1) per il primo punto temporale, per il secondo, per il terzo ecc.y^=1
S. Kolassa - Ripristina Monica

Grazie mille per i chiarimenti; Ora posso concettualizzare meglio la presentazione. (Hmm ... dopo tutto ho bisogno di procurarmi il tuo documento :))
usεr11852 dice Reinstate Monic il

@ usεr11852: non esitate a contattarmi via e-mail ( trova l'indirizzo qui ) - se la tua posta non finisce nel mio filtro antispam, ti spedirò felicemente quel documento.
S. Kolassa - Ripristina Monica il

@ usεr11852 Ti ho completamente perso dopo "come N =" che cos'è?
SAK

5

inserisci qui la descrizione dell'immagine

RMSE è un modo più naturale di descrivere la perdita a distanza euclidea. Pertanto, se lo rappresenti in 3D, la perdita è a forma di cono, come puoi vedere sopra in verde. Questo vale anche per dimensioni superiori, sebbene sia più difficile visualizzarlo.

Il MAE può essere pensato come una distanza di un isolato. Non è un modo così naturale di misurare la perdita, come puoi vedere nel grafico in blu.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.