Qual è la differenza tra Outlier e Anomaly nel contesto dell'apprendimento automatico. La mia comprensione è che entrambi si riferiscono alla stessa cosa.
Qual è la differenza tra Outlier e Anomaly nel contesto dell'apprendimento automatico. La mia comprensione è che entrambi si riferiscono alla stessa cosa.
Risposte:
I due termini sono sinonimi secondo:
Aggarwal, Charu C. Outlier Analysis. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1
Citazione da pagina 1:
Gli outlier sono anche indicati come anomalie, discordanti, devianti o anomalie nella documentazione di data mining e statistica.
Il testo in grassetto non fa parte del testo originale.
Il download gratuito del pdf del libro disponibile dall'autore è qui.
Una risposta ironica:
Valore anomalo: un valore che è prevedibile trovare nei dati che indica che il modello non funziona correttamente
Anomalia: un valore che contro tutte le probabilità che trovi nei tuoi dati indica che il tuo modello funziona correttamente
Una risposta più seria, meno criptica:
Il concetto di valori anomali parte dal problema della costruzione di un modello che fa ipotesi sui dati. I valori anomali sono spesso indicatori del fatto che il modello non descrive correttamente i dati e pertanto dovremmo mettere in discussione i risultati del nostro modello o la qualità dei nostri dati.
Il concetto di anomalie inizia al di fuori del mondo teorico e all'interno del mondo applicato: vogliamo cercare comportamenti insoliti nei nostri dati, a volte motivati dal fatto che siamo interessati a trovare comportamenti che qualcuno sta cercando di nascondere (come un virus in un e-mail). Il problema è che poiché le persone stanno cercando di nascondere ciò che stanno facendo, non sappiamo davvero cosa cercare. Quindi prendiamo una serie di dati "buoni" e decidiamo che qualunque cosa troviamo nel nostro nuovo set di dati che non sembra "buono" è un'anomalia e vale la pena dedicare il nostro tempo al checkout in modo più dettagliato. Spesso cercare anomalie significa cercare valori anomali nel nuovo set di dati. Ma nota che questi valori possono essere molto comuni nel tuo nuovo set di dati, nonostante siano rari nel tuo vecchio set di dati!
In sintesi, i due concetti sono molto simili in termini di statistiche (ovvero valori insoliti, dato il modello adattato), ma vengono all'idea da diverse angolazioni. Inoltre, quando parliamo di valori anomali, intendiamo in genere un punto dati insolito nei dati utilizzati per adattarsi al nostro modello , dove un'anomalia è generalmente intesa come punto dati insolito in un set di dati esterno ai dati utilizzati per adattarsi al nostro modello .
Nota: questa risposta si basa sul modo in cui ho visto i due termini usati frequentemente piuttosto che sulle definizioni formali. Le esperienze dell'utente possono differire.
Un'anomalia è un risultato che non può essere spiegato data la distribuzione di base (un'impossibilità se i nostri presupposti sono corretti). Un valore anomalo è un evento improbabile data la distribuzione di base (un'improbabilità).
I termini sono ampiamente utilizzati in modo intercambiabile. "Outlier" si riferisce a qualcosa che si trova al di fuori della norma - quindi è "anomalo". Ma ho l'impressione che "outlier" sia di solito usato per osservazioni molto rare . In statistica, su una distribuzione normale, considereresti tre sigma come valori anomali. Il 99,7% dei tuoi oggetti dovrebbe essere "normale". "Anomaly" è usato molto più liberamente. Se improvvisamente hai milioni di visitatori sul tuo sito web, questi non sono visitatori rari. L'improvviso aumento dei visitatori è comunque "anomalo", mentre ogni singolo visitatore non è un "anomalo".
Potrebbe essere stato in questo articolo in cui ho visto queste differenze discusse, ma purtroppo non posso accedervi in questo momento.
Analisi statistica e Data Mining, Volume 5, Numero 5, Ottobre 2012, Pagine 363–387 Un sondaggio sul rilevamento anomalo senza supervisione di dati numerici ad alta dimensione
Giusto per confondere ulteriormente le acque, nell'anomalia della climatologia implica solo la differenza tra valore e media, o una deviazione:
Il termine anomalia della temperatura indica una deviazione da un valore di riferimento o da una media a lungo termine. Un'anomalia positiva indica che la temperatura osservata era più calda del valore di riferimento, mentre un'anomalia negativa indica che la temperatura osservata era più fredda del valore di riferimento.
Ciò può essere considerato un apprendimento automatico esterno, ma le persone interessate alla domanda potrebbero essere interessate a questo.
Un valore anomalo è un punto dati che rende difficile adattarsi a un modello. Affronti valori anomali, spesso involontariamente, quando stai cercando di adattare un modello al tuo set di dati. La rimozione di valori anomali consente di creare modelli migliori (ovvero più generalizzabili). Un punto sarebbe un valore anomalo per il modello . Lo ignori alla luce del fatto che tutti gli altri punti, , più in forma .
Un'anomalia può essere un punto dati o anche una tendenza generale o un comportamento osservato nei dati dopo che un modello è già stato costruito o una comprensione del processo di generazione dei dati formato. Si riscontrano anomalie perché il sistema inizia a comportarsi diversamente o si cercano tali punti dati, perché si desidera essere informati quando si verifica un evento durante il quale il modello non è valido. Potresti preoccuparti di osservare qualsiasi comportamento anomalo nell'ampiezza delle onde dell'oceano, non perché vuoi buttare via quei punti di dati e costruire un modello migliore, ma perché vuoi essere consapevole quando potrebbe verificarsi uno tsunami.