Qual è la differenza tra rilevamento anomalo e rilevamento anomalie?


8

Vorrei conoscere la differenza in termini di applicazioni (ad es. Quale è il rilevamento di frodi con carta di credito?) E in termini di tecniche utilizzate.

Documenti di esempio che definiscono l'attività sarebbero i benvenuti.


hai visto questo? stats.stackexchange.com/questions/189664/… . Sembra che la risposta alla tua domanda sia lì.
MOH

@Moh l'ho visto e penso che le risposte non siano molto chiare. Questo è il motivo per cui ho chiesto di includere applicazioni e tecniche in risposta alla mia domanda.
Martin Thoma,

Soprattutto non sembra esserci consenso se questi due termini hanno significati diversi o meno. Vediamo se questa comunità trova risorse di consenso / autorevoli.
Martin Thoma,

Risposte:


7

Fondamentalmente non c'è differenza. Supponi di avere dei dati e desideri costruirne un modello. Come suggerisce il nome, la modellazione riguarda la ricerca di un modello, ovvero una rappresentazione semplificata dei dati. A sua volta, possiamo vedere il modello come un processo sottostante che ha generato i tuoi dati in primo luogo, oltre a un po 'di rumore. Da quel punto di vista, i dati che vedi sono stati generati dal modello e possiamo dire che alcuni dei punti che vedi hanno meno probabilità di essere stati generati dal tuo modello rispetto ad altri.

Ad esempio, se si crea un modello di regressione lineare, è meno probabile che i punti lontani dalla linea di regressione siano stati generati dal modello. Questo è ciò che le persone intendono quando parlano di "residui" nel normale linguaggio statistico. Si chiama anche la probabilità dei dati.

I punti dati che hanno una bassa probabilità, in base al modello creato, sono anomalie o valori anomali. Dal punto di vista della costruzione di modelli, sono la stessa cosa.

Colloquialmente, le persone usano il termine 'outlier' per indicare "qualcosa che dovrei rimuovere dal set di dati in modo che non distorca il mio modello che sto costruendo", di solito perché hanno la sensazione che ci sia qualcosa di sbagliato in quei dati e il il modello che vogliono costruire non dovrebbe aver bisogno di spiegarlo. Un outlier è spesso considerato un ostacolo alla costruzione di un modello che descriva i dati in generale - semplicemente perché il modello proverà ANCHE a spiegare l'outlier, che non è ciò che il professionista desidera.

D'altra parte, è possibile utilizzare il fatto che un modello assegna anche una probabilità a ciascun punto dati a proprio vantaggio - potrebbe costruire un modello che descriva una tendenza più semplice nei dati e quindi cercare attivamente valori esistenti o nuovi che hanno molto bassa probabilità. Questo è ciò che le persone intendono quando dicono "anomalie". Se il tuo obiettivo è rilevare anomalie, specialmente nei nuovi dati, questa è un'ottima cosa. Il valore anomalo di una persona è l'anomalia di un'altra persona!


7

(In realtà volevo scrivere questo come una risposta alla domanda con convalida incrociata: differenza tra anomalia e anomalia , ma la domanda è protetta - penso che rispondere qui dovrebbe andare bene, nonostante la visibilità inferiore)

Le persone sostengono occasionalmente che non vi è alcuna differenza tra un anomalo e un'anomalia citando Charu Aggarwal, autore del libro "Outlier Analysis" - in particolare, questa affermazione:

Gli outlier sono anche indicati come anomalie , discordanti , devianti o anomalie nella documentazione di data mining e statistica.

(Fonte: "Outlier Analysis" (Springer), Charu Aggarwal, 2017, http://charuaggarwal.net/outlierbook.pdf )

Tuttavia, questa affermazione non implica che gli outlier e le anomalie siano la stessa cosa - analogamente a dire che "i cani sono talvolta indicati come animali" non significa che siano la stessa cosa.

È difficile dare una definizione formale dei termini. La pagina Wikipedia sui valori anomali si riferisce alla pagina Wikipedia sul rilevamento delle anomalie e viceversa, ed entrambe contengono molte possibili definizioni e interpretazioni dei termini. Le cose stanno peggiorando a causa delle definizioni e delle colloquialità specifiche del dominio , dove sembra essere sufficiente quando due persone dello stesso campo sanno all'incirca di cosa sta parlando l'altra ...

Tuttavia, Varun Chandola cerca di dare un significato più preciso al termine "anomalia" nel suo sondaggio sul rilevamento delle anomalie. In particolare, classifica le anomalie in tre categorie:

  • Anomalie dei punti: una singola istanza di dati può essere considerata anomala rispetto al resto dei dati
  • Anomalie contestuali: se un'istanza di dati è anomala in un contesto specifico (ma non diversamente)
  • Anomalie collettive: se una raccolta di istanze di dati correlati è anomala rispetto all'intero set di dati

(Riassunto da "Anomaly Detection - A Survey", Varun Chandola et al, ACM Computing Surveys 2009, http://cucis.ece.northwestern.edu/projects/DMS/publications/AnomalyDetection.pdf )


Qui, il termine "anomalia puntuale" sembra essere il più vicino a ciò che considererei una possibile definizione della parola "anomalo". E questo è in linea con l'affermazione di Aggarwal: un outlier è un'anomalia. Ma non tutte le anomalie sono anomale.

(Quest'ultimo può dipendere dalla definizione della parola anomala. Naturalmente, è possibile definirla su un meta-livello e dire che un anomalia è qualunque cosa un determinato algoritmo (o modello) di rilevazione anomala rilevi come tale. Ma la maggior parte delle definizioni che Ho incontrato finora sono basati su una sorta di "distanza", "dissomiglianza" o "differenza" rispetto alla "maggioranza" di altri elementi di dati. Sembra ragionevole ...)

Un esempio: potrebbero esserci diversi punti dati:

14.5, 14.2, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6

Si può calcolare la deviazione media e standard e sarà difficile discutere sul perché uno di questi punti dovrebbe essere un "valore anomalo".

Per una sequenza di punti dati come questa

14.5, 14.2, 14.4, 14.4, -64564.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6

individuare "il valore anomalo" dovrebbe essere facile.

Tuttavia, supponendo che la prima sequenza descriva, ad esempio, le temperature esterne giornaliere medie, il fatto che la stessa identica temperatura media dei 14.4gradi sia stata misurata per un'intera settimana potrebbe certamente essere considerata un'anomalia.

(Probabilmente una "anomalia collettiva" secondo le definizioni sopra, ma non ne discuterò ...)


Anche se sono a gelo quando sto discutendo sul significato preciso o intuitivo di alcuni termini (perché non sono né un esperto di scienza dei dati né un madrelingua inglese), ciò significherebbe che "anomalia" è un termine molto più ampio di "anomalo" ". Ma forse la comunità della scienza dei dati è in procinto di individuare le definizioni appropriate di questi termini.

Aggiornare:

Forse il mio istinto per il significato letterale di certe parole è sbagliato. Ma per me la parola "outlier" sembra dire "giacere da qualche parte (o lontano da) qualcosa (basato su una misura della distanza)". In tal senso, le 14.4s nel primo esempio non sono "valori anomali" di per sé. Ma ovviamente qui le cose diventano difficili molto rapidamente: si potrebbe immaginare un modello per i dati che contenga il numero di giorni consecutivi a temperature uguali (come in una codifica della lunghezza della corsa ). Il calcolo di questo modello per i dati dati produrrebbe

1 * 14.5
1 * 14.2
7 * 14.4
1 * 14.3
1 * 14.2
1 * 14.6

dove il valore 7 ha un abbondante distanza (differenza) agli altri valori nel modello. Pertanto, l '"anomalia collettiva" di 7 giorni consecutivi a pari temperature è stata trasformata in "anomalia puntuale" da questa trasformazione.


Molto informativo. Cosa ci sta trattenendo dall'utilizzare "outlier di punti", "outlier contestuali" e "outlier collettivi"? Penso che nulla stia forzando una distinzione.
Esmailian

@Esmailian Penso che la distinzione tra "anomalo" e "anomalia" possa avere senso. Ma dare una definizione precisa di ciascuno di questi termini applicabile in ogni contesto potrebbe essere difficile (o forse impossibile). Ho aggiunto un breve aggiornamento sottolineando quale sia la mia interpretazione / definizione della parola "anomalo" e quanto sia difficile applicare una tale definizione rigorosamente ...
Marco13

Il problema è che si tratta di un'interpretazione soggettiva. Se potessi sottolineare la differenza con citazioni esatte, sarebbe molto più utile.
Codice Papa

@CodePope A cosa si riferisce esattamente? Ho aggiunto quattro "citazioni", del resto, ma ho sottolineato che anche le definizioni più utilizzate sono vaghe e talvolta si contraddicono a vicenda.
Marco13,

Naturalmente, hai aggiunto quattro citazioni, ma nessuna di esse afferma che esiste una differenza tra anomalo e anomalia o che anomalo è un sottoelemento di anomalia. Inoltre, nessuna delle tue citazioni e nessun altro documento che ho letto concorda con la tua interpretazione secondo cui i valori anomali sono anomalie puntuali. È l'intuizione comune che i valori anomali siano punti singoli, ma non è ciò che implicano definizioni formali. Ad esempio: "Un'osservazione (o sottoinsieme di osservazioni) che sembra essere in contrasto con il resto di quel set di dati." (Barnet e Lewis - 1994)
Codice Papa

0

Un valore anomalo è un punto dati relativamente fuori dal comune.

Una anomalia è un caso particolare di valori anomali, potrebbero avere informazioni o per motivi speciali / utile.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.