Differenza tra Outlier e Inlier


10

Mi sono imbattuto nel termine inlier nella misura LOF (Local Outlier Factor), ho familiarità con il termine di valori anomali (in sostanza si tratta di istanze che non si comportano come il resto delle istanze).

Che cosa significa "Inliers" nel contesto del rilevamento di anomalie? e in che modo è correlato a (diversi da) valori anomali?


Risposte:


8

Questa è un'area in cui c'è un po 'di incoerenza nella terminologia che ha lo sfortunato effetto di confondere alcune discussioni statistiche. Il concetto di " inlier"è generalmente usato per riferirsi a un valore di dati che è in errore (vale a dire, soggetto a errore di misura) ma è comunque" interno "alla distribuzione dei valori misurati correttamente. Con questa definizione l'inlier ha due aspetti: (1 ) si trova all'interno della relativa distribuzione di valori e (2) è un valore errato. Al contrario, la nozione corrispondente di "valore anomalo" viene generalmente utilizzata per fare riferimento a qualsiasi valore di dati che è lontano nelle code del distribuzione, ma senza alcun aspetto definitivo supponendo che sia in errore. Questa terminologia produce una sfortunata incoerenza, in cui un "inlier" è un punto di dati errato (per definizione) ma un "outlier" non è necessariamente un punto di dati errato. sotto questa terminologia, l'unione di "inlier" e "outlier"non corrisponde né a tutti i dati, né a tutti i dati errati.

Trattare con i valori anomali: ho discusso di come trattare i valori anomali in altre domande qui e qui , ma per comodità, ripeterò alcune di queste osservazioni qui. I valori anomali sono punti distanti dalla maggior parte degli altri punti in una distribuzione e la diagnosi di un "valore anomalo" viene effettuata confrontando il punto dati con una forma distributiva assunta. Sebbene occasionalmente possano essere causati errori anomali di misurazione, la diagnosi di valori anomali può verificarsi anche quando i dati seguono una distribuzione con elevata curtosi (ad esempio, code grasse), ma l'analista confronta i punti di dati con una presunta forma distributiva con bassa curtosi (ad es. la distribuzione normale).

La segnalazione di "valori anomali" nei test anomali significa semplicemente che la distribuzione del modello che si sta utilizzando non ha code sufficientemente grosse per rappresentare accuratamente i dati osservati. Ciò potrebbe essere dovuto al fatto che alcuni dei dati contengono errori di misurazione o potrebbero derivare da una distribuzione con code adipose. A meno che non vi siano motivi per ritenere che la deviazione dalla forma del modello presunta costituisca una prova dell'errore di misurazione (che richiederebbe una base teorica per l'assunzione distributiva), la presenza di valori anomali in genere significa che è necessario modificare il modello per utilizzare una distribuzione più grassa code. È intrinsecamente difficile distinguere tra errore di misurazione e alta curtosi che fa parte della distribuzione sottostante.

Trattare con gli inlier (che in genere implica non gestirli): a meno che non si disponga di una fonte di informazioni esterne che indichi un errore di misurazione, è sostanzialmente impossibile identificare gli "inlier". Per definizione, si tratta di punti di dati che si trovano all'interno della distribuzione, dove si verificano la maggior parte degli altri dati. Quindi, non viene rilevato dai test che cercano dati che sono "aberazione" dagli altri punti dati. (In alcuni casi è possibile rilevare "inlier" che sembrano essere all'interno di una distribuzione, ma in realtà sono "outlier" se presi rispetto a una rappresentazione più complessa della distribuzione. In questo caso il punto è in realtà un outlier,

In alcuni rari casi potresti avere una fonte esterna di informazioni che identifica un sottoinsieme dei tuoi dati come soggetto a errori di misurazione (ad esempio, se stai conducendo un sondaggio di grandi dimensioni e scopri che uno dei tuoi geometri stava semplicemente inventando i loro dati ). In questo caso, tutti i punti di dati in quel sottoinsieme che si trovano all'interno della distribuzione sono "inlier" e sono noti tramite informazioni esterne per essere soggetti a errori di misurazione. In questo caso in genere rimuoveresti tutti i dati noti per essere errati, anche se alcuni di essi sono "inlier" che si trovano all'interno della distribuzione dove ti aspetteresti che fossero. Il punto qui è che un punto dati può essere errato anche se non è nelle code della distribuzione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.