Pubblicando questo qui per chiunque incontrerà la mia domanda in futuro - il documento originale che descrive l'algoritmo del fattore anomalo locale, "LOF: Identificare i valori anomali locali basati sulla densità" (Breunig et al), raccomanda un metodo per scegliere un valore k . Come promemoria, l'algoritmo LOF confronta la densità di ciascun punto con la densità dei suoi vicini più vicini. Gli autori dell'articolo raccomandano di scegliere un minimo e un massimo , e per ogni punto, prendendo il valore LOF massimo su ogni in quell'intervallo. Offrono diverse linee guida per la scelta dei limiti.k k kKKKK
Per il valore minimo, i valori LOF fluttuano selvaggiamente i punti in una distribuzione uniforme per , con punti in una distribuzione uniforme che talvolta appaiono come valori anomali, quindi raccomandano almeno . In secondo luogo, il valore minimo di funge da dimensione minima affinché qualcosa sia considerato un "cluster", in modo che i punti possano essere anomali rispetto a quel cluster. Se , e hai un gruppo di punti e un punto , ogni punto nel gruppo includerà nei vicini più vicini e includerà quei punti, portando ad avere LOF molto simili. Quindi, se vuoi considerare un punto vicino a un gruppo dim i n ( k ) = 10 k k = 15 12 p p p N Nk < 10m i n ( k ) = 10Kk=1512pppNInoltre, come valore aberrante, piuttosto che parte di quel gruppo, proprio valore k deve essere almeno .N
Per il valore massimo, si applica un criterio simile, in quanto dovrebbe essere il numero massimo di oggetti che si desidera vengano considerati anomali se raggruppati insieme. Un gruppo di oggetti isolati dall'insieme principale può essere un cluster o valori anomali; per , saranno i primi; per , saranno i secondi.N k < N k > NNNk<Nk>N
Speriamo che questo aiuti chiunque abbia un problema simile. Il documento completo è qui e la discussione dei valori k max / min inizia a pagina 7 e passa a pagina 9. (Si riferiscono al valore come MinPts .)k