Larghezza di banda del kernel nella stima della densità del kernel


10

Sto facendo una stima della densità del kernel, con un set di punti ponderati (cioè, ogni campione ha un peso che non è necessario), in N dimensioni. Inoltre, questi campioni sono solo in uno spazio metrico (cioè, possiamo definire una distanza tra loro) ma nient'altro. Ad esempio, non possiamo determinare la media dei punti di campionamento, né la deviazione standard, né ridimensionare una variabile rispetto ad un'altra. Il kernel è solo influenzato da questa distanza e dal peso di ciascun campione:

f(x)=1.weightsiweightihKernel(distance(x,xi)h)

In questo contesto, sto cercando di trovare una stima robusta per la larghezza di banda del kernel , possibilmente variabile spazialmente, e preferibilmente che dia una ricostruzione esatta sul set di dati di addestramento . Se necessario, potremmo supporre che la funzione sia relativamente regolare.hxi

Ho provato a usare la distanza dal primo o dal secondo vicino più vicino, ma dà risultati piuttosto negativi. Ho provato con l'ottimizzazione "one-out-out", ma ho difficoltà a trovare una buona misura per l'ottimizzazione in questo contesto in Nd, quindi trova stime pessime, specialmente per i campioni di training stessi. Non posso usare la stima avida basata sul presupposto normale poiché non posso calcolare la deviazione standard. Ho trovato riferimenti usando matrici di covarianza per ottenere kernel anisotropi, ma ancora una volta, non si sarebbe tenuto in questo spazio ...

Qualcuno ha un'idea o un riferimento?


Se riesci a misurare la distanza, puoi misurare una media. È giusto? Potrei dire "Sto usando la distanza del coseno per le parole", quindi una "parola cattiva non ha davvero molto significato", ma non vedo perché non possa ancora essere calcolata. Si potrebbe dire che ci si trova in uno spazio ordinale, quindi la media non viene continuamente valutata. Perché la media è indefinibile?
EngrStudent,

Risposte:


3

Un punto di partenza sarebbe lo stimatore più vicino di Silverman , ma aggiungere in qualche modo i pesi. (Non sono sicuro di cosa siano esattamente i tuoi pesi qui.) Il metodo del vicino più vicino può evidentemente essere formulato in termini di distanze. Credo che il tuo primo e il secondo metodo del vicino più vicino siano versioni del metodo del vicino più vicino, ma senza una funzione del kernel e con un piccolo valore di .k


2

Su Matlab File Exchange, esiste una funzione kde che fornisce l'ampiezza di banda ottimale supponendo che venga utilizzato un kernel gaussiano: Kernel Density Estimator .

Anche se non usi Matlab, puoi analizzare questo codice per il suo metodo di calcolo della larghezza di banda ottimale. Questa è una funzione molto apprezzata nello scambio di file e l'ho usata molte volte.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.