Rilevamento anomalo mediante regressione


11

La regressione può essere utilizzata per il rilevamento di lier out. Capisco che ci sono modi per migliorare un modello di regressione rimuovendo gli outlier. Ma l'obiettivo principale qui non è quello di adattarsi a un modello di regressione, ma scoprire le bugie usando la regressione


Quando l'adattamento migliora dopo l'inserimento di un modello senza un avamposto, ci sono prove che questo è un valore estremo. Questo può essere discutibile se hai molti dati, perché l'adattamento sarà relativamente meno migliorato.
Roman Luštrik,

@ RomanLuštrik: questa è una definizione molto esoterica di valori anomali. Ad esempio, non è coerente con la visione dei valori anomali utilizzati nella risposta di Glen_b (o del resto con la definizione di valori anomali utilizzati nel libro di testo sull'argomento come "Statistiche affidabili: teoria e metodi"). Vuoi citare una fonte per supportare la tua definizione?
user603

Non posso citare alcun riferimento. Hai ovviamente ragione, cos'è un miglioramento in forma? Il miglioramento può essere una questione altamente soggettiva e dovrebbe essere usato come guida, non come valore di interruzione robotica e giudicato caso per caso.
Roman Luštrik,

I minimi quadrati ripetuti in modo iterativo sono un metodo di regressione solido comunemente usato per trovare valori anomali nei dati.
whuber

Risposte:


13

L'opzione migliore per utilizzare la regressione per trovare valori anomali è utilizzare la regressione robusta.

La regressione ordinaria può essere influenzata dai valori anomali in due modi:

Innanzitutto, un valore anomalo estremo nella direzione y con valori x vicini a può influenzare l'adattamento in quell'area nello stesso modo in cui un valore anomalo può influire su una media.x¯

In secondo luogo, un'osservazione "esterna" nello spazio x è un'osservazione influente : può tirare l'adattamento della linea verso di essa. Se è sufficientemente lontano la linea passerà attraverso il punto influente:

inserisci qui la descrizione dell'immagine

Nella trama di sinistra, c'è un punto che è abbastanza influente e allontana la linea dalla maggior parte dei dati. Nella trama giusta, è stato spostato ancora più lontano - e ora la linea passa attraverso il punto. Quando il valore x è così estremo, mentre muovi quel punto su e giù, la linea si sposta con esso, passando attraverso la media degli altri punti e attraverso un punto influente.

Un punto influente che è perfettamente coerente con il resto dei dati potrebbe non essere un problema così grande, ma uno che è lontano da una linea attraverso il resto dei dati renderà la linea adatta, piuttosto che i dati.

Se guardi il diagramma di destra, la linea rossa - la linea di regressione dei minimi quadrati - non mostra affatto il punto estremo come un valore anomalo - il suo residuo è 0. Invece, i grandi residui della linea dei minimi quadrati sono in la parte principale dei dati!

Questo significa che puoi perdere completamente un valore anomalo .

Ancora peggio, con regressione multipla, un valore anomalo nello spazio x potrebbe non apparire particolarmente insolito per ogni singola variabile x. Se esiste la possibilità di un tale punto, è potenzialmente molto rischioso utilizzare la regressione dei minimi quadrati.

Regressione robusta

Se si adatta una linea robusta - in particolare una robusta a valori anomali influenti - come la linea verde nel secondo diagramma - allora il valore erratico ha un residuo molto grande.

In tal caso, hai qualche speranza di identificare i valori anomali - saranno punti che non sono - in un certo senso - vicini alla linea.


Rimozione dei valori anomali

Puoi certamente usare una solida regressione per identificare e quindi rimuovere i valori anomali.

Ma una volta che hai una forte regressione, una che non è già gravemente influenzata dagli outlier, non devi necessariamente rimuovere gli outlier - hai già un modello che si adatta bene.


1
"Talvolta non è necessario rimuovere gli outlier", trovare gli outlier è lo scopo dello studio (ad es. identificazione delle frodi)
user603

1
@ user603 Sono d'accordo, ragionevolmente spesso lo è - ma trovare rimuovere
Glen_b -Reinstate Monica

3
(+1) Bella risposta, ma è un peccato non menzionare alcun metodo di regressione robusta. Ad esempio, come è stata tracciata la linea verde sulla sottotrama corretta (e perché preferisci quell'algoritmo rispetto agli altri)? Forse questo link potrebbe essere utile qui: regressione lineare veloce robusta per gli outlier - probabilmente il miglior thread su CV che discute di regressione robusta.
amoeba,

-2

La regressione può essere utilizzata per il rilevamento anomalo.

Sì. Questa risposta e la risposta di Glen_b risolvono questo problema.

Lo scopo principale qui non è quello di adattare un modello di regressione, ma scoprire le bugie usando la regressione

Basandosi sul commento di Roman Lustrik, ecco un'euristica per trovare valori anomali usando la regressione (multipla lineare).

Diciamo che hai la dimensione del campione . Quindi, procedi come segue:n

  1. Adatta un modello di regressione agli esempi. Annota la sua somma residua di errore quadrati .n rtotal

  2. Per ogni campione i, adattare un modello di regressione sugli esempi n-1 (escluso l'esempio i) e annotare la somma residua corrispondente dell'errore dei quadrati .ri

  3. Ora, si confronti con per ogni , se , quindi è un outlier candidato.rirtotiri<<rtotali

Mettendo da parte questi punti anomali candidati, possiamo ripetere di nuovo l'intero esercizio con il campione ridotto. Nell'algoritmo, stiamo raccogliendo esempi nei dati che influenzano in modo errato l'adattamento della regressione (che è un modo per etichettare un esempio come anomalo).


1
Hai provato questa strategia sul set di dati mostrato qui ? Più fondamentalmente, la tua strategia equivale a sostenere che i valori anomali possono essere trovati in modo affidabile dai risultati di una catena di adattamenti che riduce al minimo una funzione di perdita convessa, che è un errore noto quando esiste più di un singolo valore anomalo (questo link mostra questo per il problema relativo di trovare valori anomali multivariati ma i risultati si applicano anche alla regressione).
user603

Sono felice di rimuovere la mia risposta. Ma prima, non capisco entrambi i riferimenti che dai e inoltre, non sono sicuro del motivo per cui rendono la mia risposta errata. Dov'è una "strategia" è il primo riferimento? Puoi indicare una risposta specifica lì? Quale pagina e riga del secondo riferimento è pertinente qui e discute del "fallimento"?
Theja,

1
Mi dispiace, potrei solo tornare a questo ora. La sezione dei commenti è un po 'breve per fornire un esempio e non userò la sezione "Risposta" poiché non è la domanda del PO. Tuttavia, hai avuto il tempo di provare la tua metodologia sui dati a cui ho collegato?
user603
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.