Stima della densità del kernel che incorpora incertezze


12

Quando si visualizzano dati monodimensionali è comune usare la tecnica di stima della densità del kernel per tenere conto della larghezza del cestino scelta in modo errato.

Quando il mio set di dati unidimensionale presenta incertezze di misurazione, esiste un modo standard per incorporare queste informazioni?

Ad esempio (e perdonami se la mia comprensione è ingenua), KDE comprende un profilo gaussiano con le funzioni delta delle osservazioni. Questo kernel gaussiano è condiviso tra ogni posizione, ma il parametro gaussiano potrebbe essere variato per adattarsi alle incertezze di misura. Esiste un modo standard per farlo? Spero di riflettere valori incerti con kernel ampi.σ

L'ho implementato semplicemente in Python, ma non conosco un metodo o una funzione standard per eseguire ciò. Ci sono problemi in questa tecnica? Faccio notare che dà alcuni grafici dall'aspetto strano! Per esempio

Confronto di KDE

In questo caso i valori bassi hanno incertezze maggiori, quindi tendono a fornire kernel piatti larghi, mentre il KDE sovrastima i valori bassi (e incerti).


Stai dicendo che le curve rosse sono gaussiane a larghezza variabile e la curva verde è la loro somma? (Ciò non sembra plausibile da questi grafici.)
whuber

sai qual è l'errore di misurazione per ogni osservazione?
Aksakal,

@whuber le curve rosse sono le gaussiane a larghezza variabile e la curva blu è la loro somma. La curva verde è la KDE con una larghezza costante, scusate la confusione
Simon Walker,

@Aksakal sì, ogni misurazione ha un'incertezza diversa
Simon Walker,

Un problema secondario, ma non è una definizione della stima della densità del kernel che usi i kernel gaussiani. Puoi usare qualsiasi kernel che desideri integrare in 1, anche se alcuni kernel sono più sensibili o utili di altri ....
Nick Cox,

Risposte:


6

Ha senso variare le larghezze, ma non necessariamente far corrispondere la larghezza del kernel all'incertezza.

Considera lo scopo della larghezza di banda quando hai a che fare con variabili casuali per le quali le osservazioni non hanno sostanzialmente incertezza (cioè dove puoi osservarle abbastanza vicine esattamente) - anche così, kde non userà la larghezza di banda zero, perché la larghezza di banda si riferisce al la variabilità nella distribuzione, piuttosto che l'incertezza nell'osservazione (cioè la variazione "tra osservazione", non l'incertezza "all'interno dell'osservazione").

Quello che hai è essenzialmente un'ulteriore fonte di variazione (rispetto al caso "nessuna osservazione-incertezza") che è diversa per ogni osservazione.

σi

Un modo alternativo di esaminare il problema sarebbe quello di trattare ogni osservazione come un piccolo kernel (come hai fatto tu, che rappresenterà dove potrebbe essere stata l'osservazione), ma convolgere il solito kernel (kde-) (di solito a larghezza fissa, ma non deve essere) con il kernel di incertezza di osservazione e quindi fare una stima della densità combinata. (Credo che in realtà sia lo stesso risultato di quello che ho suggerito sopra.)


2

Vorrei applicare lo stimatore di densità del kernel a larghezza di banda variabile, ad esempio i selettori di larghezza di banda locale per i documenti di stima della densità del kernel di deconvoluzione tentano di costruire la finestra adattiva KDE quando è nota la distribuzione dell'errore di misurazione. Hai dichiarato di conoscere la varianza dell'errore, quindi questo approccio dovrebbe essere applicabile nel tuo caso. Ecco un altro articolo su un approccio simile con un campione contaminato: SELEZIONE DELLA LARGHEZZA DI BANDA DI BOOTSTRAP NELLA STIMA DELLA DENSITÀ DEL KERNEL DA UN CAMPIONE CONTAMINATO


Il tuo primo link mi porta a ms.unimelb.edu.au , non è il giornale. Penso che intendi link.springer.com/article/10.1007/s11222-011-9247-y
Adi Ro

Queste soluzioni sembrano grandi! conosci un codice che li implementa?
Adi Ro,

@AdiRo, ho corretto il link non funzionante. Non ho il codice
Aksakal,

0

Potresti consultare il capitolo 6 in "Stima della densità multivariata: teoria, pratica e visualizzazione" di David W. Scott, 1992, Wiley.

h=(4/3)1/5σn1/5(6.17)
σnhσ

f^(x)=1nhi=1nK(xxih)
K()

0

In realtà, penso che il metodo che hai proposto si chiama Probability Density Plot (PDP) come ampiamente utilizzato in Geo-scienza, vedi un documento qui: https://www.sciencedirect.com/science/article/pii/S0009254112001878

Tuttavia, ci sono degli inconvenienti come menzionato nel documento sopra. Ad esempio se gli errori misurati sono piccoli, alla fine ci saranno dei picchi nel PDF. Ma si può anche lisciare il PDP proprio come il modo di KDE, proprio come ha detto @ Glen_b ♦

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.