Un caso tipico per l'applicazione della stima della densità è il rilevamento di novità, noto anche come rilevamento anomalo, in cui l'idea è che si dispone solo (o principalmente) di dati di un tipo, ma si è interessati a dati distinti qualitativi molto rari, che si discostano in modo significativo da quei casi comuni.
Esempi sono il rilevamento di frodi, il rilevamento di guasti nei sistemi e così via. Queste sono situazioni in cui è molto difficile e / o costoso raccogliere dati del tipo che ti interessa. Questi rari casi, cioè casi con bassa probabilità di verificarsi.
La maggior parte delle volte non sei interessato a stimare con precisione l'esatta distribuzione, ma sulle probabilità relative (quanto è probabile che un dato campione sia un valore anomalo effettivo anziché non esserlo).
Ci sono dozzine di tutorial e recensioni sull'argomento. Questo uno potrebbe essere una buona per iniziare.
EDIT: per alcune persone sembra strano usare la stima della densità per un rilevamento anomalo. Concordiamo innanzitutto su una cosa: quando qualcuno adatta un modello di miscela ai suoi dati, sta effettivamente eseguendo una stima della densità. Un modello di miscela rappresenta una distribuzione di probabilità.
kNN e GMM sono in realtà correlati: sono due metodi per stimare una tale densità di probabilità. Questa è l'idea alla base di molti approcci nel rilevamento di novità. Ad esempio, questo riferiscono al kNNs, questo altro basato su finestre Parzen (che accentuano questa idea all'inizio della carta), e molti altri .
Mi sembra (ma è solo la mia percezione personale) che la maggior parte se non tutti lavorano su questa idea. In quale altro modo esprimeresti l'idea di un evento anomalo / raro?