Perché ridurre al minimo il MAE porta a prevedere la mediana e non la media?


20

Dal libro di previsione: principi e pratica di Rob J Hyndman e George Athanasopoulos , in particolare la sezione sulla misurazione della precisione :

Un metodo di previsione che minimizza il MAE porterà a previsioni della mediana, mentre minimizzare il RMSE porterà a previsioni della media

Qualcuno può dare una spiegazione intuitiva del perché minimizzare il MAE porta alla previsione della mediana e non della media? E cosa significa in pratica?

Ho chiesto a un cliente: "cosa è più importante per te per rendere le previsioni medie più accurate o per evitare previsioni molto imprecise?". Ha detto che per rendere le previsioni medie più accurate hanno priorità più alta. Quindi, in questo caso, dovrei usare MAE o RMSE? Prima di leggere questa citazione, ho creduto che MAE sarebbe meglio per tale condizione. E ora dubito.

Risposte:


17

È utile fare un passo indietro e dimenticare l'aspetto delle previsioni per un minuto. Consideriamo qualsiasi distribuzione e supponiamo di voler riassumere usando un singolo numero.F

Apprendi molto presto nelle tue lezioni di statistica che l'uso dell'aspettativa di come sommario di un singolo numero minimizzerà l'errore quadrato previsto.F

La domanda ora è: perché usare la mediana di minimizza l' errore assoluto previsto ?F

Per questo, raccomando spesso "Visualizzazione della mediana come posizione di minima deviazione" di Hanley et al. (2001, The American Statistician ) . Hanno creato un piccolo applet insieme al loro documento, che purtroppo probabilmente non funziona più con i browser moderni, ma possiamo seguire la logica nel documento.

Supponiamo di stare di fronte a una banca di ascensori. Possono essere disposti equidistanti o alcune distanze tra le porte degli ascensori potrebbero essere più grandi di altre (ad esempio, alcuni ascensori potrebbero non funzionare). Di fronte al quale l'ascensore si dovrebbe stare per avere la minima passeggiata prevista quando uno degli ascensori fa arrivano? Si noti che questa camminata prevista svolge il ruolo dell'errore assoluto previsto!

Supponiamo di avere tre ascensori A, B e C.

  • Se aspetti di fronte ad A, potresti dover camminare da A a B (se arriva B) o da A a C (se arriva C) passando B!
  • Se aspetti di fronte a B, devi camminare da B a A (se arriva A) o da B a C (se arriva C).
  • Se aspetti di fronte a C, devi camminare da C ad A (se arriva A) - passando B - o da C a B (se arriva B).

Si noti che dalla prima e dall'ultima posizione di attesa, c'è una distanza - AB nella prima, BC nell'ultima posizione - che è necessario camminare in più casi di arrivo degli ascensori. Pertanto, la soluzione migliore è quella di stare proprio di fronte all'ascensore centrale, indipendentemente da come sono disposti i tre ascensori.

Ecco la Figura 1 di Hanley et al .:

Hanley et al., Figura 1

Questo si generalizza facilmente a più di tre ascensori. O agli ascensori con diverse possibilità di arrivare per primi. O davvero infinitamente numerosi ascensori. Quindi possiamo applicare questa logica a tutte le distribuzioni discrete e quindi passare al limite per arrivare a distribuzioni continue.

F^

F^λln2

Pertanto, se sospetti che la tua distribuzione predittiva sia (o dovrebbe essere) asimmetrica, come nei due casi precedenti, se desideri ottenere previsioni di aspettativa imparziali, usa . Se la distribuzione può essere considerata simmetrica (in genere per le serie ad alto volume), allora la mediana e la media coincidono e l'uso di ti guiderà anche a previsioni imparziali - e il MAE è più facile da capire.

Allo stesso modo, ridurre al minimo il può portare a previsioni distorte, anche per distribuzioni simmetriche. Questa mia precedente risposta contiene un esempio simulato con una serie distribuita asimmetricamente rigorosamente positiva (distribuita logaticamente) che può essere significativamente stimata in punti usando tre diverse previsioni in punti, a seconda che vogliamo minimizzare il MSE, il MAE o il MAPE.


9

La risposta di Stephan ti dà una spiegazione intuitiva del perché minimizzare l'errore medio assoluto ti dà la mediana. Ora per rispondere a quale MSE, MAE o MAPE utilizzare:

Il MAE è robusto , il che significa che è meno sensibile agli outlier. Immagina una serie con un errore un milione di volte maggiore di quello che dovrebbe. Sul MSE, tirerà la previsione un milione / N volte (dove N è il numero di punti), mentre il MAE verrà tirato solo per 1 unità.

Sfortunatamente, il MAE non è unico , quindi può presentare un qualche tipo di comportamento schizofrenico.

Quindi la mia raccomandazione è di creare prima un MSE, quindi utilizzare i parametri MSE per avviare la regressione MAE.

In ogni caso confronta entrambe le previsioni: se sono molto diverse, c'è qualcosa di puzzolente nei tuoi dati.

inserisci qui la descrizione dell'immagineinserisci qui la descrizione dell'immagine

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.