Cadere valori anomali basati su "2,5 volte il RMSE"

In Kahneman and Deaton (2010) , gli autori scrivono quanto segue: $^\dagger$

Questa regressione spiega il 37% della varianza, con un errore quadratico medio radice (RMSE) di 0,67852. Per eliminare i valori anomali e i rapporti sul reddito non plausibili, abbiamo eliminato le osservazioni in cui il valore assoluto della differenza tra il reddito da tronchi e la sua previsione ha superato 2,5 volte il RMSE.

Questa è pratica comune? Qual è l'intuizione dietro a farlo? Sembra in qualche modo strano definire un valore anomalo basato su un modello che potrebbe non essere ben specificato in primo luogo. La determinazione dei valori anomali non dovrebbe essere basata su alcuni motivi teorici per ciò che costituisce un valore plausibile, piuttosto che su quanto bene il tuo modello predice i valori reali?

$\dagger$ : Daniel Kahneman, Angus Deaton (2010): un reddito elevato migliora la valutazione della vita ma non il benessere emotivo. _{^{Atti della National Academy of Sciences set 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107}}

regression outliers

— Serpentese
fonte

Quando si fornisce un preventivo da un documento, fornire sempre un riferimento che includa il numero di pagina .

— Ripristina Monica il

Non posso dire se si tratta di una "pratica comune", ma spero di no. La rimozione automatizzata di "valori anomali" è fondamentalmente una cattiva idea. Forse il tuo modello o criterio di rimozione non è buono, forse sta succedendo qualcosa di nuovo (inizio della recessione, nuove possibilità di risveglio) che non dovresti ignorare. // È diverso se è possibile tenere traccia di un valore sospetto in caso di errore nell'inserimento dei dati o guasti all'apparecchiatura, o se il valore è semplicemente fuori dagli schemi assurdo (uomo alto 16'2 ", ragazzo con 61 ore fatturabili martedì scorso, volo 25min SFO-ORD). Ma non perché non si adatta a un modello. Conosco una startup che si è rotta in quel modo.

— BruceET,

La validità statistica di questo approccio si riflette nel numero assurdo di decimali che riportano per l'RMSE.

— Frans Rodenburg,

Sembra una soluzione di assunzione rozza / eroica a una domanda che ho posto qualche mese fa: stats.stackexchange.com/questions/390051/…

— Adrian,

Il motivo per cui questi dati sono stati eliminati è indicato proprio nel preventivo: vale a dire "eliminare i valori anomali e le relazioni sul reddito non plausibili". Il fatto che si riferiscano a entrambe queste cose congiuntamente significa che stanno ammettendo che almeno alcuni dei loro valori anomali non sono valori non plausibili e, in ogni caso, non danno alcuna argomentazione sul perché i valori con un residuo elevato debbano essere considerati "non plausibili "valori di reddito. In questo modo, stanno rimuovendo efficacemente i punti dati perché i residui sono superiori a quanto previsto nel loro modello di regressione. Come ho affermato in un'altra risposta qui , ciò equivale a richiedere la realtà per conformarsi alle assunzioni del modello e ignorare parti della realtà che non sono conformi a tali ipotesi.

Che si tratti o meno di una pratica comune, è una pratica terribile. Si verifica perché i punti di dati periferici sono difficili da gestire e l'analista non è disposto a modellarli correttamente (ad esempio, utilizzando un modello che consente una maggiore curtosi in termini di errore), quindi rimuovono solo parti della realtà che non si conformano alla loro capacità di intraprendere modelli statistici. Questa pratica è statisticamente indesiderabile e porta a inferenze che sottostimano sistematicamente la varianza e la curtosi in termini di errore. Gli autori di questo documento riferiscono di aver perso il 3,22% dei loro dati a causa della rimozione di questi valori anomali (p. 16490). Poiché la maggior parte di questi punti di dati sarebbero stati redditi molto alti, ciò getta sostanziali dubbi sulla loro capacità di trarre solide conclusioni sull'effetto degli alti redditi (che è l'obiettivo del loro documento).

— Ripristina Monica
fonte

Come osi criticare il Daniel Kahneman! Scherzi a parte, questi sono ottimi punti +1.

— Tim

Kahneman è uno psicologo molto bravo, i cui libri in genere mi sono piaciuti e mi sono stati utili. Ognuno di loro potrebbe avere cinquanta premi Nobel --- non cambierebbe il fatto che la rimozione di massa di "outlier" è una terribile pratica statistica.

— Ripristina Monica il

Naturalmente sono d'accordo con te. Non pensavo che fosse necessario dirlo.

— Nick Cox,

@NickCox Intendi il cosiddetto "Premio Nobel Memorial" : come sono sicuro che sai che non è stato istituito da Nobel e non ha nulla a che fare con lui. Il nome ufficiale è apparentemente "Il premio Sveriges Riksbank in Scienze economiche in memoria di Alfred Nobel".

— ameba dice Reinstate Monica il

Sei sicuro che lo sappia e in effetti hai ragione. Il sempre autorevole EJMR una volta ha pubblicato questo post su di me "No, non vincerà mai il Nobel", che significa quel premio.

— Nick Cox,