È barare eliminare i valori anomali in base al diagramma a scatole di Errore assoluto medio per migliorare un modello di regressione


15

Ho un modello di previsione testato con quattro metodi, come puoi vedere nella figura del diagramma a scatole di seguito. L'attributo previsto dal modello è compreso nell'intervallo 0-8.

È possibile notare che sono presenti un valore anomalo superiore e tre valori anomali inferiori indicati da tutti i metodi. Mi chiedo se sia appropriato rimuovere queste istanze dai dati? O è una sorta di imbroglio per migliorare il modello di previsione?

inserisci qui la descrizione dell'immagine


1
(1) Vedo i risultati per quattro metodi, non tre. (2) In che modo rimuovere l'evidenza delle capacità di previsione potrebbe migliorare i metodi?
whuber

@whuber (1) è stato risolto. Per il (2), quindi intendi rimuovere un'istanza che è prevista in modo molto impreciso, non porterebbe a migliori prestazioni di previsione nel complesso (questo era ciò che intendevo con "migliorare il modello" ?
Renakre,

7
rimuovere un'osservazione per qualunque motivo (diciamo i 4 punti meno adatti) è di per sé una scelta di modello. Si dovrebbe valutare le prestazioni di previsione di questa seconda scelta del modello troppo . Il punto saliente è preservare l'integrità del set di test finale utilizzato per valutare le prestazioni del metodo di previsione globale. Dalla tua domanda non è chiaro se prevedi di rimontare i modelli (Lazo, ecc.) Dopo l'eliminazione dei dati male previsti.
user603

2
Come osservazione laterale, aggiungerei che a volte un grande valore è nascosto nei valori anomali ed è degno di guardarli attentamente.
Dror Atariah,

@DrorAtariah Grazie Dror, sono d'accordo. I casi estremi sono preziosi.
Rinuncia al

Risposte:


22

È quasi sempre un imbroglio rimuovere le osservazioni per migliorare un modello di regressione. Dovresti abbandonare le osservazioni solo quando pensi davvero che si tratti di valori anomali.

Ad esempio, hai serie temporali dal cardiofrequenzimetro collegato al tuo smartwatch. Se dai un'occhiata alla serie, è facile vedere che ci sarebbero osservazioni errate con letture come 300 bps. Questi dovrebbero essere rimossi, ma non perché si desidera migliorare il modello (qualunque cosa significhi). Sono errori di lettura che non hanno nulla a che fare con la frequenza cardiaca.

Una cosa da fare attenzione però è la correlazione degli errori con i dati. Nel mio esempio si potrebbe sostenere che si hanno errori quando il cardiofrequenzimetro viene spostato durante esercizi come correre o saltare. Il che renderà questi errori correlati con il tasso di hart. In questo caso, è necessario prestare attenzione nella rimozione di questi valori anomali ed errori, perché non sono casuali

Ti darò un esempio inventato di quando non rimuovere i valori anomali . Diciamo che stai misurando il movimento di un peso su una molla. Se il peso è piccolo rispetto alla forza del peso, noterai che la legge di Hooke funziona molto bene: dove F è forza, k - coefficiente di tensione e Δ x è la posizione del peso .

F=-KΔX,
FKΔX

Ora, se si mette un peso molto pesante o si sposta troppo il peso, si inizierà a vedere le deviazioni: con spostamenti abbastanza grandi il movimento sembrerà deviare dal modello lineare. Quindi, potresti essere tentato di rimuovere i valori anomali per migliorare il modello lineare. Questa non sarebbe una buona idea, perché il modello non funziona molto bene poiché la legge di Hooke ha solo approssimativamente ragione.ΔX

AGGIORNAMENTO Nel tuo caso, suggerirei di estrarre quei punti dati e di guardarli più da vicino. Potrebbe essere un guasto allo strumento di laboratorio? Interferenze esterne? Difetto del campione? eccetera.

Quindi prova a identificare se la presunzione di questi valori anomali potrebbe essere correlata a ciò che misuri nell'esempio che ho dato. Se esiste una correlazione, non esiste un modo semplice di procedere. Se non esiste alcuna correlazione, è possibile rimuovere i valori anomali


2
It is always a cheating to remove outliers to improve a regression model. Consideri la regressione della spline come un imbroglio ? FWIW, fa osservazioni di peso ridotto per migliorare il modello di regressione [locale] ~
user603,

1
Non sarei d'accordo "È sempre un imbroglio rimuovere gli outlier per migliorare un modello di regressione". ci sono molti strumenti per eseguire la diagnostica della regressione e l'obiettivo è quello di rilevare e "rimuovere" i valori anomali e rimontare il modello.
Haitao Du,

6
@ hxd1011 gli strumenti come Grubbs non devono rimuovere automaticamente i valori anomali. Indicano solo che potrebbe esserci un valore anomalo, quindi decidi se è effettivamente un valore anomalo. È un approccio molto pericoloso per migliorare la diagnostica di adattamento rimuovendo automaticamente gli outlier. Devi analizzarli caso per caso.
Aksakal,

2
Ok ho capito. La mia lingua originale era troppo rigida. Ho modificato la frase di apertura. Grazie per il feedback ai commentatori
Aksakal,

1
@renakre, se non pensi che questi siano valori anomali, non rimuovere le osservazioni. Tuttavia, ciò che potrebbe essere necessario considerare è la misura della bontà della previsione diversa dall'errore quadrato. Ad esempio, se queste istanze non sono così importanti per te, forse non è necessario ponderarle al quadrato e utilizzare invece la deviazione assoluta, ecc. La misura dovrebbe riflettere l'importanza dell'errore di previsione, come le perdite in dollari su ogni errore di previsione . Inoltre, il fatto che si tratti di conteggi non significa automaticamente che non vi siano errori dello strumento, i plug-in della pagina Web che contano i clic potrebbero non riuscire
Aksakal

4

Inizialmente volevo pubblicare questo come commento a un'altra risposta, ma è passato troppo tempo per adattarlo.

Quando guardo il tuo modello, non contiene necessariamente un gruppo numeroso e alcuni valori anomali. A mio avviso, contiene 1 gruppo di medie dimensioni (da 1 a -1) e quindi 6 gruppi più piccoli, ciascuno trovato tra 2 numeri interi. Si può vedere chiaramente che quando si raggiunge un numero intero, ci sono meno osservazioni a quelle frequenze. L'unico punto speciale è 0, dove non c'è davvero un calo evidente delle osservazioni.

A mio avviso, vale la pena di spiegare perché questa distribuzione è diffusa in questo modo:

  • Perché la distribuzione ha questo calo delle osservazioni a numeri interi?
  • perché questo calo del conteggio delle osservazioni non si verifica a 0?
  • Cosa c'è di così speciale in questi outlier che sono outlier?

Quando si misurano azioni umane discrete, si avranno sempre valori anomali. Può essere interessante capire perché questi valori anomali non si adattano al tuo modello e come possono essere utilizzati per migliorare le iterazioni future del tuo modello.


+1. Il divario tra numeri interi non sembra essere sempre corretto su tutti i numeri, quindi potrebbe essere più di noi a vedere un modello che non esiste, ma potrebbe essere un artefatto di raccolta dati, codifica o discretizzazione che potrebbe far luce sui dati nel loro insieme. Potrebbe anche esserci un gap a 0 che è oscurato dal gran numero di punti sovrapposti e forse jittered. Sicuramente vale la pena tornare indietro all'origine per vedere se i dati sono ciò che pensiamo che sia.
Wayne,

2

Esistono vantaggi e svantaggi nella rimozione di valori anomali e nella creazione del modello solo per il "modello normale".

  • Pro: le prestazioni del modello sono migliori. L'intuizione è che, è molto difficile usare UN modello per catturare sia il "modello normale" che il "modello anomalo". Quindi rimuoviamo gli outlier e diciamo che costruiamo solo un modello per "modello normale".

  • Contro: non saremo in grado di prevedere valori anomali. In altre parole, supponiamo che mettiamo in produzione il nostro modello, ci sarebbero alcune previsioni mancanti dal modello

Suggerirei di rimuovere i valori anomali e costruire il modello e, se possibile, provare a creare un modello separato solo per i valori anomali.

Per la parola "imbroglione", se stai scrivendo carta ed elenchi esplicitamente come definire e rimuovere valori anomali, e la menzione delle prestazioni migliorate è solo sui dati puliti. Non è barare.


3
Non mi dispiace essere sottovalutato, ma qualcuno potrebbe dirmi il motivo?
Haitao Du,

Ho effettuato l'upgrade :) Pensi anche che sia una buona idea rimuovere gli outlier e quindi ricampionare i dati per testare ulteriormente il modello di previsione?
Rinuncia al

1
@renakre ti suggerirei di pensare a cosa fare in produzione. Diciamo che se hai scoperto un valore anomalo è solo dell'1% ed è bene non produrre output in produzione. Quindi rimuovili. Se hai riscontrato valori anomali è del 30% e non è corretto saltare le previsioni in produzione. Quindi prova ad avere un modello separato per questo.
Haitao Du,

Stiamo testando principalmente cose per vedere se possiamo prevedere alcune variabili di risultato. Non if it is fine to produce no output in productionsignifica la stessa cosa? Quindi, se iniziamo a utilizzare il nostro modello in una vera applicazione per testare la variabile di risultato e usare il punteggio previsto nell'applicazione, allora non andrebbe bene rimuovere gli outlier (specialmente se sono molti come hai detto)? È questo che intendevi?
Rinuncia al

1
@renakre Sei morto! Questo è ciò che abbiamo fatto di recente con AITOBOX in cui i limiti di previsione non si basano solo sui pesi psi ma sugli errori ricampionati popolati con valori anomali. Ciò viene fatto non solo per i modelli ARIMA, ma anche per i modelli causali in cui l'incertezza nei predittori è incorporata in modo simile.
IrishStat,

2

Credo che sia ragionevole rimuovere gli outlier quando si ha una solida ragione qualitativa per farlo. Con questo intendo che uno ha informazioni che un'altra variabile, che non è nel modello, sta influenzando le osservazioni anomale. Quindi si ha la possibilità di rimuovere il valore anomalo o aggiungere ulteriori variabili.

Trovo che quando ho osservazioni anomale all'interno del mio set di dati, studiando per determinare perché esiste il valore anomalo, imparo di più sui miei dati e su altri possibili modelli da considerare.


1
Benvenuto in stats.SE! Per favore, prenditi un momento per vedere il nostro tour . Sarebbe utile se si espandesse la risposta per rispondere in modo più completo alla domanda (come la determinazione anomala basata sul diagramma a scatole, gli impatti che questo metodo potrebbe avere sul modello di previsione, ecc.).
Tavrock,

2

Non sono nemmeno convinto che siano "valori anomali". Potresti voler creare un normale diagramma delle probabilità. Sono dati o residui del montaggio di un modello?


sono la differenza tra i valori previsti e reali.
rinakre
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.