Differenza tra anomalia e anomalia


13

Qual è la differenza tra Outlier e Anomaly nel contesto dell'apprendimento automatico. La mia comprensione è che entrambi si riferiscono alla stessa cosa.


3
Per curiosità, dove nella letteratura viene fatta una tale distinzione? Avevo l'impressione che i "valori anomali" non abbiano una definizione formale, a parte l'essere ad alta leva e osservazioni ad alta influenza. Influenza e leva fare hanno definizioni matematiche, ma considerando qualcosa di "alto" è arbitraria. Sembra che le parole arbitrarie vengano scambiate.
AdamO

Le persone che usano la parola "inlier" implicitamente fanno una sorta di distinzione tra "anomalia" e "outlier", perché un inlier è una specie di anomalia. Dato che né "outlier" né "anomaly" hanno definizioni tecniche definite e comunemente comprese, dovremmo aspettarci che questa domanda abbia risposte multiple che differiscono (almeno leggermente) l'una dall'altra.
whuber

Risposte:


9

I due termini sono sinonimi secondo:

Aggarwal, Charu C. Outlier Analysis. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1

Citazione da pagina 1:

Gli outlier sono anche indicati come anomalie, discordanti, devianti o anomalie nella documentazione di data mining e statistica.

Il testo in grassetto non fa parte del testo originale.

Il download gratuito del pdf del libro disponibile dall'autore è qui.


Il fatto che "valori anomali" vengano definiti "anomalie" non significa che siano sinonimi. "Cani" sono a volte indicati come "animali", del resto. Ho cercato di affrontarlo in modo più dettagliato in questa risposta (non ho potuto pubblicarlo qui, perché la domanda è protetta).
Marco13,

9

Una risposta ironica:

Valore anomalo: un valore che è prevedibile trovare nei dati che indica che il modello non funziona correttamente

Anomalia: un valore che contro tutte le probabilità che trovi nei tuoi dati indica che il tuo modello funziona correttamente

Una risposta più seria, meno criptica:

Il concetto di valori anomali parte dal problema della costruzione di un modello che fa ipotesi sui dati. I valori anomali sono spesso indicatori del fatto che il modello non descrive correttamente i dati e pertanto dovremmo mettere in discussione i risultati del nostro modello o la qualità dei nostri dati.

Il concetto di anomalie inizia al di fuori del mondo teorico e all'interno del mondo applicato: vogliamo cercare comportamenti insoliti nei nostri dati, a volte motivati ​​dal fatto che siamo interessati a trovare comportamenti che qualcuno sta cercando di nascondere (come un virus in un e-mail). Il problema è che poiché le persone stanno cercando di nascondere ciò che stanno facendo, non sappiamo davvero cosa cercare. Quindi prendiamo una serie di dati "buoni" e decidiamo che qualunque cosa troviamo nel nostro nuovo set di dati che non sembra "buono" è un'anomalia e vale la pena dedicare il nostro tempo al checkout in modo più dettagliato. Spesso cercare anomalie significa cercare valori anomali nel nuovo set di dati. Ma nota che questi valori possono essere molto comuni nel tuo nuovo set di dati, nonostante siano rari nel tuo vecchio set di dati!

In sintesi, i due concetti sono molto simili in termini di statistiche (ovvero valori insoliti, dato il modello adattato), ma vengono all'idea da diverse angolazioni. Inoltre, quando parliamo di valori anomali, intendiamo in genere un punto dati insolito nei dati utilizzati per adattarsi al nostro modello , dove un'anomalia è generalmente intesa come punto dati insolito in un set di dati esterno ai dati utilizzati per adattarsi al nostro modello .

Nota: questa risposta si basa sul modo in cui ho visto i due termini usati frequentemente piuttosto che sulle definizioni formali. Le esperienze dell'utente possono differire.


6

Un'anomalia è un risultato che non può essere spiegato data la distribuzione di base (un'impossibilità se i nostri presupposti sono corretti). Un valore anomalo è un evento improbabile data la distribuzione di base (un'improbabilità).


7
La citazione delle fonti per le definizioni e l'esempio migliorerebbe notevolmente la risposta.
Tim

4
Per quanto ne so sono sinonimi. Quindi @H. Iqbal deve davvero citare la fonte e tutti i lettori devono quindi valutare l'autorevolezza della fonte sayd
Jacques Wainer,

2
L'impossibilità sembra implicare P (X = ANOMALIA) = 0 (cioè esattamente 0). La mia comprensione del rilevamento di anomalie è che il ricercatore potrebbe essere interessato ad eventi che potrebbero avere probabilità positive.
Cliff AB,

4

I termini sono ampiamente utilizzati in modo intercambiabile. "Outlier" si riferisce a qualcosa che si trova al di fuori della norma - quindi è "anomalo". Ma ho l'impressione che "outlier" sia di solito usato per osservazioni molto rare . In statistica, su una distribuzione normale, considereresti tre sigma come valori anomali. Il 99,7% dei tuoi oggetti dovrebbe essere "normale". "Anomaly" è usato molto più liberamente. Se improvvisamente hai milioni di visitatori sul tuo sito web, questi non sono visitatori rari. L'improvviso aumento dei visitatori è comunque "anomalo", mentre ogni singolo visitatore non è un "anomalo".

Potrebbe essere stato in questo articolo in cui ho visto queste differenze discusse, ma purtroppo non posso accedervi in ​​questo momento.

Analisi statistica e Data Mining, Volume 5, Numero 5, Ottobre 2012, Pagine 363–387 Un sondaggio sul rilevamento anomalo senza supervisione di dati numerici ad alta dimensione


1
Penso che tu abbia sottilmente accennato alla differenza tra valori anomali e anomalie; i valori anomali vengono utilizzati per descrivere dati che non corrispondono a una tendenza generale, le anomalie descrivono il traffico insolito su un server. 50% jk.
Cliff AB,

2

Giusto per confondere ulteriormente le acque, nell'anomalia della climatologia implica solo la differenza tra valore e media, o una deviazione:

Il termine anomalia della temperatura indica una deviazione da un valore di riferimento o da una media a lungo termine. Un'anomalia positiva indica che la temperatura osservata era più calda del valore di riferimento, mentre un'anomalia negativa indica che la temperatura osservata era più fredda del valore di riferimento.

vedi ad es

Ciò può essere considerato un apprendimento automatico esterno, ma le persone interessate alla domanda potrebbero essere interessate a questo.


1

Un valore anomalo è un punto dati che rende difficile adattarsi a un modello. Affronti valori anomali, spesso involontariamente, quando stai cercando di adattare un modello al tuo set di dati. La rimozione di valori anomali consente di creare modelli migliori (ovvero più generalizzabili). Un punto(1,5) sarebbe un valore anomalo per il modello y=X. Lo ignori alla luce del fatto che tutti gli altri punti(1,1), (5,5), (3,3.1) più in forma y=X.

Un'anomalia può essere un punto dati o anche una tendenza generale o un comportamento osservato nei dati dopo che un modello è già stato costruito o una comprensione del processo di generazione dei dati formato. Si riscontrano anomalie perché il sistema inizia a comportarsi diversamente o si cercano tali punti dati, perché si desidera essere informati quando si verifica un evento durante il quale il modello non è valido. Potresti preoccuparti di osservare qualsiasi comportamento anomalo nell'ampiezza delle onde dell'oceano, non perché vuoi buttare via quei punti di dati e costruire un modello migliore, ma perché vuoi essere consapevole quando potrebbe verificarsi uno tsunami.


2
Non sono d'accordo con la maggior parte di questo. Innanzitutto, la prima frase può essere la tua definizione di valore anomalo, se lo desideri, ma è difficile riconciliarsi con molte altre definizioni o usi. Se i dati sono (1, 1), (2, 2), (3, 3), (molto più grandi, molto più grandi), il punto molto più grande verrebbe spesso descritto come un valore anomalo ma non vi è alcun problema ad adattare un modello. Potresti (e dovresti) chiederti perché i dati arrivano in quel modo, ma montare un modello è facile. Più in generale, il principio è che un valore anomalo può essere separato dal corpo principale dei dati ma comunque coerente con un modello plausibile.
Nick Cox,

In secondo luogo, se l'implicazione che l'omissione dei valori anomali è proprio ciò che si dovrebbe fare, allora (a) è spesso problematico persino dire quali siano i valori anomali (b) ci sono molte altre soluzioni. Il thread stats.stackexchange.com/questions/78063/… varia più ampiamente del suo titolo per citarne alcuni.
Nick Cox,

1
Se segui il mio link, vedrai che ho già pubblicato un po 'di tempo sugli outlier. Non ho alcun senso nel rileggere la tua risposta che stai pensando in modo retrospettivo mentre sembra che tu stia parlando di rimuovere gli outlier mentre ti alleni. Rileggendo, noto anche che la prima frase del secondo paragrafo include l'idea che un'anomalia può essere "una tendenza o un comportamento generale", che è improbabile che tu voglia dire - o, se lo è, non lo faccio " non lo capisco.
Nick Cox,

1

Buona domanda. Tuttavia, la ricerca su Google "differenza tra valori anomali e anomalie nel sito: .edu" mostra che non esiste alcuna differenza teorica tra questi due termini. Sono usati in modo intercambiabile in letteratura.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.