L'opzione migliore per utilizzare la regressione per trovare valori anomali è utilizzare la regressione robusta.
La regressione ordinaria può essere influenzata dai valori anomali in due modi:
Innanzitutto, un valore anomalo estremo nella direzione y con valori x vicini a può influenzare l'adattamento in quell'area nello stesso modo in cui un valore anomalo può influire su una media.x¯
In secondo luogo, un'osservazione "esterna" nello spazio x è un'osservazione influente : può tirare l'adattamento della linea verso di essa. Se è sufficientemente lontano la linea passerà attraverso il punto influente:
Nella trama di sinistra, c'è un punto che è abbastanza influente e allontana la linea dalla maggior parte dei dati. Nella trama giusta, è stato spostato ancora più lontano - e ora la linea passa attraverso il punto. Quando il valore x è così estremo, mentre muovi quel punto su e giù, la linea si sposta con esso, passando attraverso la media degli altri punti e attraverso un punto influente.
Un punto influente che è perfettamente coerente con il resto dei dati potrebbe non essere un problema così grande, ma uno che è lontano da una linea attraverso il resto dei dati renderà la linea adatta, piuttosto che i dati.
Se guardi il diagramma di destra, la linea rossa - la linea di regressione dei minimi quadrati - non mostra affatto il punto estremo come un valore anomalo - il suo residuo è 0. Invece, i grandi residui della linea dei minimi quadrati sono in la parte principale dei dati!
Questo significa che puoi perdere completamente un valore anomalo .
Ancora peggio, con regressione multipla, un valore anomalo nello spazio x potrebbe non apparire particolarmente insolito per ogni singola variabile x. Se esiste la possibilità di un tale punto, è potenzialmente molto rischioso utilizzare la regressione dei minimi quadrati.
Regressione robusta
Se si adatta una linea robusta - in particolare una robusta a valori anomali influenti - come la linea verde nel secondo diagramma - allora il valore erratico ha un residuo molto grande.
In tal caso, hai qualche speranza di identificare i valori anomali - saranno punti che non sono - in un certo senso - vicini alla linea.
Rimozione dei valori anomali
Puoi certamente usare una solida regressione per identificare e quindi rimuovere i valori anomali.
Ma una volta che hai una forte regressione, una che non è già gravemente influenzata dagli outlier, non devi necessariamente rimuovere gli outlier - hai già un modello che si adatta bene.