Robusta vestibilità gaussiana multivariata in R


11

Devo adattare una distribuzione gaussiana generalizzata a una nuvola di punti 7-dim contenente un numero piuttosto significativo di valori anomali con leva elevata. Conosci qualche buon pacchetto R per questo lavoro?


3
Troverai collegamenti ad almeno quattro pacchetti R per identificare valori anomali multivariati nelle risposte a una domanda simile su stats.stackexchange.com/questions/213/… . Potrebbe essere un buon inizio.
whuber

Forse la domanda mi sta sfuggendo, ma per quanto riguarda una distribuzione gaussiana multivariata, perché non usare semplicemente la media empirica e la SD come MLE? È quindi possibile concentrarsi sulle statistiche diagnostiche in presenza di punti di influenza / leva elevati.
AdamO,

Risposte:


1

C'è anche mclust: http://www.stat.washington.edu/research/reports/2012/tr597.pdf http://cran.r-project.org/web/packages/mclust/index.html

Un avvertimento, tuttavia: la modellazione della miscela in uno spazio ad alta dimensione può richiedere una notevole quantità di CPU e memoria se la nuvola di punti è grande. Circa quattro anni fa stavo realizzando un batch di dati a 11 dimensioni, 50-200K punti, e tendeva a finire in 4-11 GB di RAM e impiegare fino a una settimana per calcolare per ogni caso (e ne avevo 400). Questo è certamente possibile, ma può essere un mal di testa se stai usando un cluster di calcolo condiviso o hai risorse limitate disponibili.


1

Sembra un classico modello di miscela gaussiana multivariata. Penso che il pacchetto BayesM potrebbe funzionare.

Ecco alcuni pacchetti multivariati di miscele gaussiane

  • bayesm: cran.r-project.org/web/packages/bayesm/index.html
  • mixtools: www.jstatsoft.org/v32/i06/paper
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.