Come interpretare l'errore quadratico medio (RMSE) rispetto alla deviazione standard?


21

Diciamo che ho un modello che mi dà valori proiettati. Calcolo RMSE di quei valori. E poi la deviazione standard dei valori effettivi.

Ha senso confrontare questi due valori (varianze)? Quello che penso è che se RMSE e la deviazione standard sono simili / uguali, allora l'errore / varianza del mio modello è lo stesso di quello che sta realmente accadendo. Ma se non ha nemmeno senso confrontare questi valori, questa conclusione potrebbe essere sbagliata. Se il mio pensiero è vero, allora significa che il modello è buono come può essere perché non può attribuire ciò che sta causando la varianza? Penso che l'ultima parte sia probabilmente sbagliata o almeno abbia bisogno di maggiori informazioni per rispondere.

Risposte:


22

Diciamo che le nostre risposte sono ed i nostri valori previsti sono y 1 , ... , y n .y1,,yny^1,,y^n

La varianza del campione (usando anziché n - 1 per semplicità) è 1nn1mentre MSE è11ni=1n(yiy¯)2. Pertanto, la varianza del campione indica in che misura le risposte variano intorno alla media mentre MSE indica in che misura le risposte variano in base alle nostre previsioni. Se pensiamo alla complessiva media ˉ y come il predittore più semplice che avremmo mai pensato, poi confrontando il MSE per la varianza campione delle risposte che possiamo vedere quanto più variazioni abbiamo spiegato con il nostro modello. Questo è esattamente ciò che fa ilvaloreR2nella regressione lineare.1ni=1n(yiy^i)2y¯R2

Considera la seguente immagine: La varianza del campione di è la variabilità attorno alla linea orizzontale. Se proiettiamo tutti i dati sull'asse Y , possiamo vedere questo. MSE è la distanza media quadrata alla linea di regressione, cioè variabilità intorno alla linea di regressione (cioè la y i ). Quindi la variabilità misurata dalla varianza del campione è la distanza al quadrato media rispetto alla linea orizzontale, che possiamo vedere è sostanzialmente maggiore della distanza al quadrato media dalla linea di regressione. yiYy^iinserisci qui la descrizione dell'immagine


5

i(yiy^i)2np,

i(yiy¯)2n1,
y¯yi

y^i=y¯y¯

y^i

i(yiy^i)2n,

che è il più semplice da calcolare.


Non ho il privilegio di commentare la risposta di @Chaconne, ma dubito che la sua ultima affermazione abbia un refuso, dove dice: "Quindi la variabilità misurata dalla varianza del campione è la distanza al quadrato media alla linea orizzontale, che possiamo vedere è sostanzialmente inferiore alla distanza media quadrata dalla linea ". Ma nella figura nella sua risposta, la previsione dei valori y con la linea è piuttosto accurata, il che significa che l'MSE è piccolo, almeno molto meglio della "previsione" con un valore medio.
Xiao-Feng Li

3

1ni=1n(yiy¯)2

1ni=1n(yiy^i)2, is one of the most popular. It is conceptually quite similar to the SD: instead of measuring how far off an actual value is from the mean, it uses essentially the same formula to measure how far off an actual value is from the model's prediction for that value. A good model should, on average, have better predictions than the naïve estimate of the mean for all predictions. Thus, the measure of variation (RMSE) should reduce the randomness better than the SD.

Questo argomento si applica ad altre misure di errore, non solo a RMSE, ma RMSE è particolarmente interessante per il confronto diretto con la SD perché le loro formule matematiche sono analoghe.


Questa è la risposta migliore perché spiega come il confronto potrebbe essere utile piuttosto che descrivere solo le differenze.
Hans,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.