È utile fare un passo indietro e dimenticare l'aspetto delle previsioni per un minuto. Consideriamo qualsiasi distribuzione e supponiamo di voler riassumere usando un singolo numero.F
Apprendi molto presto nelle tue lezioni di statistica che l'uso dell'aspettativa di come sommario di un singolo numero minimizzerà l'errore quadrato previsto.F
La domanda ora è: perché usare la mediana di minimizza l' errore assoluto previsto ?F
Per questo, raccomando spesso "Visualizzazione della mediana come posizione di minima deviazione" di Hanley et al. (2001, The American Statistician ) . Hanno creato un piccolo applet insieme al loro documento, che purtroppo probabilmente non funziona più con i browser moderni, ma possiamo seguire la logica nel documento.
Supponiamo di stare di fronte a una banca di ascensori. Possono essere disposti equidistanti o alcune distanze tra le porte degli ascensori potrebbero essere più grandi di altre (ad esempio, alcuni ascensori potrebbero non funzionare). Di fronte al quale l'ascensore si dovrebbe stare per avere la minima passeggiata prevista quando uno degli ascensori fa arrivano? Si noti che questa camminata prevista svolge il ruolo dell'errore assoluto previsto!
Supponiamo di avere tre ascensori A, B e C.
- Se aspetti di fronte ad A, potresti dover camminare da A a B (se arriva B) o da A a C (se arriva C) passando B!
- Se aspetti di fronte a B, devi camminare da B a A (se arriva A) o da B a C (se arriva C).
- Se aspetti di fronte a C, devi camminare da C ad A (se arriva A) - passando B - o da C a B (se arriva B).
Si noti che dalla prima e dall'ultima posizione di attesa, c'è una distanza - AB nella prima, BC nell'ultima posizione - che è necessario camminare in più casi di arrivo degli ascensori. Pertanto, la soluzione migliore è quella di stare proprio di fronte all'ascensore centrale, indipendentemente da come sono disposti i tre ascensori.
Ecco la Figura 1 di Hanley et al .:
Questo si generalizza facilmente a più di tre ascensori. O agli ascensori con diverse possibilità di arrivare per primi. O davvero infinitamente numerosi ascensori. Quindi possiamo applicare questa logica a tutte le distribuzioni discrete e quindi passare al limite per arrivare a distribuzioni continue.
F^
F^λ ≤ ln2
Pertanto, se sospetti che la tua distribuzione predittiva sia (o dovrebbe essere) asimmetrica, come nei due casi precedenti, se desideri ottenere previsioni di aspettativa imparziali, usa rmse . Se la distribuzione può essere considerata simmetrica (in genere per le serie ad alto volume), allora la mediana e la media coincidono e l'uso di mae ti guiderà anche a previsioni imparziali - e il MAE è più facile da capire.
Allo stesso modo, ridurre al minimo il mape può portare a previsioni distorte, anche per distribuzioni simmetriche. Questa mia precedente risposta contiene un esempio simulato con una serie distribuita asimmetricamente rigorosamente positiva (distribuita logaticamente) che può essere significativamente stimata in punti usando tre diverse previsioni in punti, a seconda che vogliamo minimizzare il MSE, il MAE o il MAPE.