Puoi spiegare la stima della densità della finestra di Parzen (kernel) in termini di profani?


24

La stima della densità della finestra di Parzen è descritta come

p(X)=1nΣio=1n1h2φ(Xio-Xh)

dove è il numero di elementi nel vettore, è un vettore, è una densità di probabilità di , è la dimensione della finestra di Parzen e è una funzione di finestra.x p ( x ) x h ϕnXp(X)Xhφ

Le mie domande sono:

  1. Qual è la differenza di base tra una funzione di finestra di Parzen e altre funzioni di densità come la funzione gaussiana e così via?

  2. Qual è il ruolo della funzione finestra ( ) nel trovare la densità di ?xφX

  3. Perché possiamo collegare altre funzioni di densità al posto della Funzione finestra?

  4. Qual è il ruolo di nel trovare la densità di ?xhX

Risposte:


44

La stima della densità delle finestre di Parzen è un altro nome per la stima della densità del kernel . È un metodo non parametrico per stimare la funzione di densità continua dai dati.

Immagina di avere alcuni punti dati che provengono dalla distribuzione sconosciuta comune, presumibilmente continua, . Sei interessato a stimare la distribuzione dati i tuoi dati. Una cosa che potresti fare è semplicemente guardare la distribuzione empirica e trattarla come un campione equivalente della vera distribuzione. Tuttavia, se i tuoi dati sono continui, molto probabilmente ogniX1,...,XnfXiopunto appare una sola volta nel set di dati, quindi in base a questo, si potrebbe concludere che i dati provengono da una distribuzione uniforme poiché ciascuno dei valori ha la stessa probabilità. Spero che tu possa fare meglio di così: puoi comprimere i tuoi dati in un numero di intervalli equidistanti e contare i valori che rientrano in ciascun intervallo. Questo metodo si baserebbe sulla stima dell'istogramma . Sfortunatamente, con l'istogramma si finisce con un certo numero di bin, piuttosto che con una distribuzione continua, quindi è solo un'approssimazione approssimativa.

La stima della densità del kernel è la terza alternativa. L'idea principale è che tu approssimi con una combinazione di distribuzioni continue (usando la tua notazione ), chiamate kernel , che sono centrati su punti dati e hanno scala ( larghezza di banda ) uguale a :fK ϕ x i hKφXioh

fh^(X)=1nhΣio=1nK(X-Xioh)

Questo è illustrato nella figura seguente, in cui viene utilizzata la distribuzione normale come kernel e diversi valori per la larghezza di banda vengono utilizzati per stimare la distribuzione dati i sette punti dati (contrassegnati dalle linee colorate nella parte superiore dei grafici). Le densità colorate sui grafici sono gherigli centrati in punti . Si noti che è un parametro relativo , il suo valore viene sempre scelto in base ai dati e lo stesso valore di potrebbe non fornire risultati simili per set di dati diversi.KhXiohh

Quattro densità del kernel stimate sugli stessi dati

Il kernel può essere pensato come una funzione di densità di probabilità e deve integrarsi con l'unità. Deve anche essere simmetrico in modo che e, quanto segue, centrato su zero. L'articolo di Wikipedia sui kernel elenca molti kernel popolari, come gaussiano (distribuzione normale), Epanechnikov, rettangolare (distribuzione uniforme), ecc. Fondamentalmente qualsiasi distribuzione che soddisfa tali requisiti può essere utilizzata come kernel.KK(X)=K(-X)

Ovviamente, la stima finale dipenderà dalla scelta del kernel (ma non molto) e dal parametro della larghezza di banda . Il seguente thread Come interpretare il valore della larghezza di banda in una stima della densità del kernel? descrive l'utilizzo dei parametri della larghezza di banda in modo più dettagliato.h

Detto questo in un inglese semplice, ciò che presumi qui è che i punti osservati sono solo un campione e seguono una distribuzione per essere stimati. Poiché la distribuzione è continua, supponiamo che ci sia una densità sconosciuta ma diversa da zero attorno al vicino vicinato di punti (il vicinato è definito dal parametro ) e usiamo i kernel per spiegarlo. Più punti si trovano in alcuni quartieri, maggiore è la densità accumulata attorno a questa regione e quindi maggiore è la densità complessiva di . La funzione risultante può ora essere valutata per qualsiasi puntoXiofXiohKfh^fh^X(senza pedice) per ottenere una stima della densità per questo, ecco come abbiamo ottenuto la funzione che è un'approssimazione della funzione di densità sconosciuta .fh^(X)f(X)

La cosa bella delle densità del kernel è che, non come gli istogrammi, sono funzioni continue e che sono esse stesse densità di probabilità valide poiché sono una miscela di densità di probabilità valide. In molti casi questo è il più vicino possibile all'approssimazione di .f

La differenza tra densità del kernel e altre densità, come distribuzione normale, è che le densità "normali" sono funzioni matematiche, mentre la densità del kernel è un'approssimazione della densità reale stimata usando i tuoi dati, quindi non sono distribuzioni "autonome".

Ti consiglierei i due simpatici libri introduttivi su questo argomento di Silverman (1986) e Wand e Jones (1995).


Silverman, BW (1986). Stima della densità per statistiche e analisi dei dati. CRC / Chapman & Hall.

Wand, MP and Jones, MC (1995). Smoothing del kernel. Londra: Chapman & Hall / CRC.


Che cos'è qui? X
user366312

@anonimo sono i tuoi punti dati, è il punto in cui valuta la funzione di densità. XioX
Tim

1
@anonimo Ho aggiunto la modifica facendo riferimento alla tua domanda nel commento alla fine del paragrafo "Dire questo in inglese semplice ...".
Tim

4

φ

Xφh(Xio-X)XX1=1X2=2σ=1φhXN1,1(X)+N2,1(X)2

3) Puoi collegare qualsiasi funzione di densità che ti piace come funzione della finestra.

h

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.