È quasi sempre un imbroglio rimuovere le osservazioni per migliorare un modello di regressione. Dovresti abbandonare le osservazioni solo quando pensi davvero che si tratti di valori anomali.
Ad esempio, hai serie temporali dal cardiofrequenzimetro collegato al tuo smartwatch. Se dai un'occhiata alla serie, è facile vedere che ci sarebbero osservazioni errate con letture come 300 bps. Questi dovrebbero essere rimossi, ma non perché si desidera migliorare il modello (qualunque cosa significhi). Sono errori di lettura che non hanno nulla a che fare con la frequenza cardiaca.
Una cosa da fare attenzione però è la correlazione degli errori con i dati. Nel mio esempio si potrebbe sostenere che si hanno errori quando il cardiofrequenzimetro viene spostato durante esercizi come correre o saltare. Il che renderà questi errori correlati con il tasso di hart. In questo caso, è necessario prestare attenzione nella rimozione di questi valori anomali ed errori, perché non sono casuali
Ti darò un esempio inventato di quando non rimuovere i valori anomali . Diciamo che stai misurando il movimento di un peso su una molla. Se il peso è piccolo rispetto alla forza del peso, noterai che la legge di Hooke funziona molto bene: dove F è forza, k - coefficiente di tensione e Δ x è la posizione del peso .
F= - k Δ x ,
FKΔ x
Ora, se si mette un peso molto pesante o si sposta troppo il peso, si inizierà a vedere le deviazioni: con spostamenti abbastanza grandi il movimento sembrerà deviare dal modello lineare. Quindi, potresti essere tentato di rimuovere i valori anomali per migliorare il modello lineare. Questa non sarebbe una buona idea, perché il modello non funziona molto bene poiché la legge di Hooke ha solo approssimativamente ragione.Δ x
AGGIORNAMENTO Nel tuo caso, suggerirei di estrarre quei punti dati e di guardarli più da vicino. Potrebbe essere un guasto allo strumento di laboratorio? Interferenze esterne? Difetto del campione? eccetera.
Quindi prova a identificare se la presunzione di questi valori anomali potrebbe essere correlata a ciò che misuri nell'esempio che ho dato. Se esiste una correlazione, non esiste un modo semplice di procedere. Se non esiste alcuna correlazione, è possibile rimuovere i valori anomali