In Kahneman and Deaton (2010) † , gli autori scrivono quanto segue:
Questa regressione spiega il 37% della varianza, con un errore quadratico medio radice (RMSE) di 0,67852. Per eliminare i valori anomali e i rapporti sul reddito non plausibili, abbiamo eliminato le osservazioni in cui il valore assoluto della differenza tra il reddito da tronchi e la sua previsione ha superato 2,5 volte il RMSE.
Questa è pratica comune? Qual è l'intuizione dietro a farlo? Sembra in qualche modo strano definire un valore anomalo basato su un modello che potrebbe non essere ben specificato in primo luogo. La determinazione dei valori anomali non dovrebbe essere basata su alcuni motivi teorici per ciò che costituisce un valore plausibile, piuttosto che su quanto bene il tuo modello predice i valori reali?
: Daniel Kahneman, Angus Deaton (2010): un reddito elevato migliora la valutazione della vita ma non il benessere emotivo. Atti della National Academy of Sciences set 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107