Dove è utile la stima della densità?


13

Dopo aver attraversato un po 'di matematica leggermente concisa, penso di avere una leggera intuizione della stima della densità del kernel. Ma sono anche consapevole che stimare la densità multivariata per più di tre variabili potrebbe non essere una buona idea, in termini di proprietà statistiche dei suoi stimatori.

Quindi, in quali situazioni dovrei voler stimare, per esempio, la densità bivariata usando metodi non parametrici? Vale la pena iniziare a preoccuparsi di stimarlo per più di due variabili?

Se puoi indicare alcuni link utili riguardanti l'applicazione della stima della densità multivariata, sarebbe fantastico.

Risposte:


15

Un caso tipico per l'applicazione della stima della densità è il rilevamento di novità, noto anche come rilevamento anomalo, in cui l'idea è che si dispone solo (o principalmente) di dati di un tipo, ma si è interessati a dati distinti qualitativi molto rari, che si discostano in modo significativo da quei casi comuni.

Esempi sono il rilevamento di frodi, il rilevamento di guasti nei sistemi e così via. Queste sono situazioni in cui è molto difficile e / o costoso raccogliere dati del tipo che ti interessa. Questi rari casi, cioè casi con bassa probabilità di verificarsi.

La maggior parte delle volte non sei interessato a stimare con precisione l'esatta distribuzione, ma sulle probabilità relative (quanto è probabile che un dato campione sia un valore anomalo effettivo anziché non esserlo).

Ci sono dozzine di tutorial e recensioni sull'argomento. Questo uno potrebbe essere una buona per iniziare.

EDIT: per alcune persone sembra strano usare la stima della densità per un rilevamento anomalo. Concordiamo innanzitutto su una cosa: quando qualcuno adatta un modello di miscela ai suoi dati, sta effettivamente eseguendo una stima della densità. Un modello di miscela rappresenta una distribuzione di probabilità.

kNN e GMM sono in realtà correlati: sono due metodi per stimare una tale densità di probabilità. Questa è l'idea alla base di molti approcci nel rilevamento di novità. Ad esempio, questo riferiscono al kNNs, questo altro basato su finestre Parzen (che accentuano questa idea all'inizio della carta), e molti altri .

Mi sembra (ma è solo la mia percezione personale) che la maggior parte se non tutti lavorano su questa idea. In quale altro modo esprimeresti l'idea di un evento anomalo / raro?


La nota che hai delineato (sezione 6, "approccio basato sulla densità") delinea alcuni approcci molto esoterici (lungi dal flusso medio e dalla letteratura poco sviluppata sull'argomento) al rilevamento anomalo. Sicuramente, devono esistere applicazioni più comuni.
user603

2
Scusa, non capisco il tuo commento. Due esempi molto semplici sarebbero kNN e GMM. Questi due metodi forniscono stime della densità di probabilità e possono essere utilizzati per tali casi.
jpmuc,

Grazie. che cos'è GMM? Non credo che kNN sia un approccio a flusso medio al rilevamento anomalo. Puoi fare riferimento a un recente libro di testo su statistiche affidabili in cui viene utilizzato in quel contesto? (Ho guardato i documenti nel set di diapositive che hai indicato che riguardano il rilevamento anomalo sembrano essere procedure di conferenza o vecchi libri)
user603

GMM = modello di miscela gaussiana. Nelle diapositive si riferiscono a punteggi basati su kNN. Personalmente ho usato SVM per il rilevamento novizio. Purtroppo non posso raccomandarti un libro di testo concreto. Forse queste note ( stats.ox.ac.uk/pub/StatMeth/Robust.pdf ) sono sufficienti.
jpmuc,

1
Sono pienamente d'accordo con @ user603. La stima della densità è a prima vista un modo molto strano e indiretto di cercare di trovare valori anomali. La tua risposta sarebbe migliorata riassumendo in che modo viene applicato nella pratica e perché pensi che funzioni bene.
Nick Cox,

4

(xi)

fh(x)xiexp((xix)TΣ1(xix)),
Σ1xi

4

In genere , KDE viene propagandato come alternativa agli istogrammi. Il vantaggio principale di KDE rispetto agli istogrammi, in questo contesto, è alleviare gli effetti dei parametri scelti arbitrariamente sull'output visivo della procedura. In particolare (e come illustrato nel link sopra), KDE non ha bisogno che l'utente specifichi i punti iniziale e finale.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.