Se le larghezze variabili del kernel sono spesso buone per la regressione del kernel, perché in genere non sono buone per la stima della densità del kernel?

Questa domanda è sollevata dalla discussione altrove .

I kernel variabili vengono spesso utilizzati nella regressione locale. Ad esempio, loess è ampiamente utilizzato e funziona bene come regressione più uniforme, ed è basato su un kernel di larghezza variabile che si adatta alla scarsità dei dati.

D'altra parte, si pensa che i kernel variabili conducano a stimatori scarsi nella stima della densità del kernel (vedi Terrell e Scott, 1992 ).

C'è un motivo intuitivo per cui dovrebbero funzionare bene per la regressione ma non per la stima della densità?

— Rob Hyndman
fonte

Hai scritto "D'altra parte, si pensa che i kernel variabili conducano a scarsi stimatori nella stima della densità del kernel", qual è la parte del documento che citi che ti fa credere? Ho molti riferimenti che vanno nell'altra derection, vedi ad esempio i riferimenti citati in questo documento: arxiv.org/PS_cache/arxiv/pdf/1009/1009.1016v1.pdf

— robin girard,

L'abstract di Terrell e Scott lo riassume bene: "Gli stimatori vicini più vicini in tutte le versioni hanno scarsi risultati in una e due dimensioni". Sembrano trovare molti vantaggi nella stima della densità multivariata.

— Rob Hyndman,

"Il vicino più vicino" non è il solo kernel variabile. I documenti che cito usano altri strumenti come l'algoritmo di Lepskii. Leggerò il documento AOS ma poiché le prestazioni del vicino più vicino dovrebbero diminuire con la dimensione, ho trovato strano che aumentare la dimensione offra vantaggi a uno stimatore "molto non parametrico" (Se ammettiamo che la larghezza di banda costante è meno non parametrica di variazione di banda). In questo tipo di situazione, il caso di valutazione utilizzato spesso determina i risultati ...

— robin girard,

@Robin Girard:> * ha trovato strano che l'aumento della dimensione offra vantaggi a uno stimatore "molto non parametrico" (Se ammettiamo che la larghezza di banda costante è più non parametrica della variazione della larghezza di banda) * c'è un refuso in questa frase? Altrimenti sembreresti essere d'accordo con gli autori, almeno a livello intuitivo. Grazie per confermare / correggere.

— user603

@kwak grazie di averlo notato! questo è un refuso: volevo dire che la larghezza di banda costante è meno NP ... Non posso modificare il mio commento :( mi dispiace per quello.

— Robin Girard,

Risposte:

Sembra che ci siano due domande diverse qui, che proverò a dividere:

1) in che modo KS, smoothing del kernel, differisce da KDE, stima della densità del kernel? Bene, supponiamo che io abbia uno stimatore / più liscio / interpolatore

est( xi, fi -> gridj, estj )

e capita anche di conoscere il "reale" densitàf () in xi. Quindi correndo est( x, densityf ) deve fornire una stima di densitàf (): un KDE. È possibile che KS e KDE siano valutati in modo diverso - criteri di scorrevolezza diversi, norme diverse - ma non vedo una differenza fondamentale. Cosa mi sto perdendo?

2) In che modo la dimensione influenza la stima o il livellamento, in modo intuitivo ? Ecco un esempio di giocattolo, solo per aiutare l'intuizione. Considera una casella di N = 10000 punti in una griglia uniforme e una finestra, una linea o un quadrato o un cubo, con W = 64 punti al suo interno:

                1d          2d          3d          4d
---------------------------------------------------------------
data            10000       100x100     22x22x22    10x10x10x10
side            10000       100         22          10
window          64          8x8         4x4x4       2.8^4
side ratio      .64 %       8 %         19 %        28 %
dist to win     5000        47          13          7

Qui "rapporto laterale" è il lato finestra / lato scatola e "dist per vincere" è una stima approssimativa della distanza media di un punto casuale nel riquadro rispetto a una finestra posizionata casualmente.

Tutto questo ha un senso ? (Un'immagine o un'applet sarebbe davvero d'aiuto: qualcuno?)

L'idea è che una finestra di dimensioni fisse all'interno di una scatola di dimensioni fisse abbia una vicinanza molto diversa rispetto al resto della scatola, in 1d 2d 3d 4d. Questo è per una griglia uniforme; forse la forte dipendenza dalla dimensione si ripercuote su altre distribuzioni, forse no. Comunque, sembra un forte effetto generale, un aspetto della maledizione della dimensionalità.

— Denis
fonte

Stima della densità del kernel significa integrazione su una finestra locale (fuzzy), e smoothing del kernel significa media su una finestra locale (fuzzy).

Smoothing del kernel: $\tilde y(x) \propto \frac 1 {\rho(x)} \sum K(||x-x_i||)\,y_i$ .

Stima della densità del kernel: $\rho(x) \propto \sum K(||x-x_i||)$ .

Come sono uguali?

Considerare i campioni di una funzione con valore booleano, ovvero un insieme contenente sia "campioni veri" (ciascuno con valore unitario) sia "campioni falsi" (ciascuno con valore zero). Supponendo che la densità complessiva del campione sia costante (come una griglia), la media locale di questa funzione è identicamente proporzionale alla densità locale (parziale) del sottoinsieme con valori reali. (I falsi campioni ci consentono di ignorare costantemente il denominatore dell'equazione di smoothing, aggiungendo al contempo zero termini alla somma, in modo che si semplifichi nell'equazione di stima della densità.)

Analogamente, se i campioni fossero rappresentati come elementi sparsi su un raster booleano, è possibile stimarne la densità applicando un filtro di sfocatura al raster.

In che modo sono diversi?

Intuitivamente, ci si potrebbe aspettare che la scelta dell'algoritmo di smoothing dipenda dal fatto che le misurazioni del campione contengano un errore di misurazione significativo.

Ad un estremo (nessun rumore) è sufficiente interpolare tra i valori esattamente noti nelle posizioni dei campioni. Diciamo, per triangolazione di Delaunay (con interpolazione bilaterale a tratti).

La stima della densità assomiglia all'estremo opposto, è interamente rumore, poiché il campione in isolamento non è accompagnato da una misurazione del valore di densità in quel punto. (Quindi non c'è nulla da semplicemente interpolare. Potresti prendere in considerazione la misurazione delle aree cellulari del diagramma Voronoi, ma il livellamento / denoising sarà comunque importante ..)

Il punto è che, nonostante la somiglianza, si tratta di problemi fondamentalmente diversi, quindi approcci diversi possono essere ottimali.

— benjimin
fonte