Sto usando Bayes per risolvere un problema di clustering. Dopo aver fatto alcuni calcoli, finisco con la necessità di ottenere il rapporto tra due probabilità:
per essere in grado di ottenere . Queste probabilità sono ottenute dall'integrazione di due diversi KDE multivariati 2D come spiegato in questa risposta :
dove e sono i KDE e l'integrazione viene eseguita per tutti i punti al di sotto delle soglie e . Entrambi i KDE usano un kernel gaussiano . Un'immagine rappresentativa di un KDE simile a quelli con cui sto lavorando può essere vista qui: Integrazione dello stimatore di densità del kernel in 2D .
Calcolo i KDE mediante una python
funzione stats.gaussian_kde , quindi presumo il seguente modulo generale per esso:
dov'è n
la lunghezza della mia serie di punti ed h
è la larghezza di banda utilizzata.
Gli integrali sopra sono calcolati applicando un processo Monte Carlo che è piuttosto costoso dal punto di vista computazionale. Ho letto da qualche parte (ho dimenticato dove, scusate) che in casi come questo è possibile sostituire il rapporto delle probabilità con il rapporto dei PDF (KDE) valutati ai punti di soglia per ottenere risultati altrettanto validi. Sono interessato a questo perché calcolare il rapporto di KDE è ordini di grandezza più veloci del calcolo del rapporto degli integrali con MC.
Quindi la domanda si riduce alla validità di questa espressione:
In quali circostanze, se ce ne sono, posso dire che questa relazione è vera?
[errore di battitura fisso (EDIT)]
Aggiungi :
Questa è sostanzialmente la stessa domanda, ma fatta in una forma più matematica .
P(X)
ciò che sto cercando di evitare di calcolare. Potresti espandere un po 'la pertinenza di quel parametro?