Vorrei conoscere la differenza in termini di applicazioni (ad es. Quale è il rilevamento di frodi con carta di credito?) E in termini di tecniche utilizzate.
Documenti di esempio che definiscono l'attività sarebbero i benvenuti.
Vorrei conoscere la differenza in termini di applicazioni (ad es. Quale è il rilevamento di frodi con carta di credito?) E in termini di tecniche utilizzate.
Documenti di esempio che definiscono l'attività sarebbero i benvenuti.
Risposte:
Fondamentalmente non c'è differenza. Supponi di avere dei dati e desideri costruirne un modello. Come suggerisce il nome, la modellazione riguarda la ricerca di un modello, ovvero una rappresentazione semplificata dei dati. A sua volta, possiamo vedere il modello come un processo sottostante che ha generato i tuoi dati in primo luogo, oltre a un po 'di rumore. Da quel punto di vista, i dati che vedi sono stati generati dal modello e possiamo dire che alcuni dei punti che vedi hanno meno probabilità di essere stati generati dal tuo modello rispetto ad altri.
Ad esempio, se si crea un modello di regressione lineare, è meno probabile che i punti lontani dalla linea di regressione siano stati generati dal modello. Questo è ciò che le persone intendono quando parlano di "residui" nel normale linguaggio statistico. Si chiama anche la probabilità dei dati.
I punti dati che hanno una bassa probabilità, in base al modello creato, sono anomalie o valori anomali. Dal punto di vista della costruzione di modelli, sono la stessa cosa.
Colloquialmente, le persone usano il termine 'outlier' per indicare "qualcosa che dovrei rimuovere dal set di dati in modo che non distorca il mio modello che sto costruendo", di solito perché hanno la sensazione che ci sia qualcosa di sbagliato in quei dati e il il modello che vogliono costruire non dovrebbe aver bisogno di spiegarlo. Un outlier è spesso considerato un ostacolo alla costruzione di un modello che descriva i dati in generale - semplicemente perché il modello proverà ANCHE a spiegare l'outlier, che non è ciò che il professionista desidera.
D'altra parte, è possibile utilizzare il fatto che un modello assegna anche una probabilità a ciascun punto dati a proprio vantaggio - potrebbe costruire un modello che descriva una tendenza più semplice nei dati e quindi cercare attivamente valori esistenti o nuovi che hanno molto bassa probabilità. Questo è ciò che le persone intendono quando dicono "anomalie". Se il tuo obiettivo è rilevare anomalie, specialmente nei nuovi dati, questa è un'ottima cosa. Il valore anomalo di una persona è l'anomalia di un'altra persona!
(In realtà volevo scrivere questo come una risposta alla domanda con convalida incrociata: differenza tra anomalia e anomalia , ma la domanda è protetta - penso che rispondere qui dovrebbe andare bene, nonostante la visibilità inferiore)
Le persone sostengono occasionalmente che non vi è alcuna differenza tra un anomalo e un'anomalia citando Charu Aggarwal, autore del libro "Outlier Analysis" - in particolare, questa affermazione:
Gli outlier sono anche indicati come anomalie , discordanti , devianti o anomalie nella documentazione di data mining e statistica.
(Fonte: "Outlier Analysis" (Springer), Charu Aggarwal, 2017, http://charuaggarwal.net/outlierbook.pdf )
Tuttavia, questa affermazione non implica che gli outlier e le anomalie siano la stessa cosa - analogamente a dire che "i cani sono talvolta indicati come animali" non significa che siano la stessa cosa.
È difficile dare una definizione formale dei termini. La pagina Wikipedia sui valori anomali si riferisce alla pagina Wikipedia sul rilevamento delle anomalie e viceversa, ed entrambe contengono molte possibili definizioni e interpretazioni dei termini. Le cose stanno peggiorando a causa delle definizioni e delle colloquialità specifiche del dominio , dove sembra essere sufficiente quando due persone dello stesso campo sanno all'incirca di cosa sta parlando l'altra ...
Tuttavia, Varun Chandola cerca di dare un significato più preciso al termine "anomalia" nel suo sondaggio sul rilevamento delle anomalie. In particolare, classifica le anomalie in tre categorie:
(Riassunto da "Anomaly Detection - A Survey", Varun Chandola et al, ACM Computing Surveys 2009, http://cucis.ece.northwestern.edu/projects/DMS/publications/AnomalyDetection.pdf )
Qui, il termine "anomalia puntuale" sembra essere il più vicino a ciò che considererei una possibile definizione della parola "anomalo". E questo è in linea con l'affermazione di Aggarwal: un outlier è un'anomalia. Ma non tutte le anomalie sono anomale.
(Quest'ultimo può dipendere dalla definizione della parola anomala. Naturalmente, è possibile definirla su un meta-livello e dire che un anomalia è qualunque cosa un determinato algoritmo (o modello) di rilevazione anomala rilevi come tale. Ma la maggior parte delle definizioni che Ho incontrato finora sono basati su una sorta di "distanza", "dissomiglianza" o "differenza" rispetto alla "maggioranza" di altri elementi di dati. Sembra ragionevole ...)
Un esempio: potrebbero esserci diversi punti dati:
14.5, 14.2, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6
Si può calcolare la deviazione media e standard e sarà difficile discutere sul perché uno di questi punti dovrebbe essere un "valore anomalo".
Per una sequenza di punti dati come questa
14.5, 14.2, 14.4, 14.4, -64564.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6
individuare "il valore anomalo" dovrebbe essere facile.
Tuttavia, supponendo che la prima sequenza descriva, ad esempio, le temperature esterne giornaliere medie, il fatto che la stessa identica temperatura media dei 14.4
gradi sia stata misurata per un'intera settimana potrebbe certamente essere considerata un'anomalia.
(Probabilmente una "anomalia collettiva" secondo le definizioni sopra, ma non ne discuterò ...)
Anche se sono a gelo quando sto discutendo sul significato preciso o intuitivo di alcuni termini (perché non sono né un esperto di scienza dei dati né un madrelingua inglese), ciò significherebbe che "anomalia" è un termine molto più ampio di "anomalo" ". Ma forse la comunità della scienza dei dati è in procinto di individuare le definizioni appropriate di questi termini.
Aggiornare:
Forse il mio istinto per il significato letterale di certe parole è sbagliato. Ma per me la parola "outlier" sembra dire "giacere da qualche parte (o lontano da) qualcosa (basato su una misura della distanza)". In tal senso, le 14.4
s nel primo esempio non sono "valori anomali" di per sé. Ma ovviamente qui le cose diventano difficili molto rapidamente: si potrebbe immaginare un modello per i dati che contenga il numero di giorni consecutivi a temperature uguali (come in una codifica della lunghezza della corsa ). Il calcolo di questo modello per i dati dati produrrebbe
1 * 14.5
1 * 14.2
7 * 14.4
1 * 14.3
1 * 14.2
1 * 14.6
dove il valore 7
ha un abbondante distanza (differenza) agli altri valori nel modello. Pertanto, l '"anomalia collettiva" di 7 giorni consecutivi a pari temperature è stata trasformata in "anomalia puntuale" da questa trasformazione.
Un valore anomalo è un punto dati relativamente fuori dal comune.
Una anomalia è un caso particolare di valori anomali, potrebbero avere informazioni o per motivi speciali / utile.