Stima non distorta della matrice di covarianza per moltiplicare i dati censurati


22

Le analisi chimiche dei campioni ambientali sono spesso censurate di seguito ai limiti di segnalazione o ai vari limiti di rilevazione / quantificazione. Quest'ultimo può variare, generalmente in proporzione ai valori di altre variabili. Ad esempio, potrebbe essere necessario diluire un campione con un'alta concentrazione di un composto per l'analisi, determinando un'inflazione proporzionale dei limiti di censura per tutti gli altri composti analizzati contemporaneamente in quel campione. Come altro esempio, a volte la presenza di un composto può alterare la risposta del test ad altri composti (una "interferenza di matrice"); quando questo viene rilevato dal laboratorio, aumenterà di conseguenza i suoi limiti di segnalazione.

Sto cercando un modo pratico per stimare l'intera matrice varianza-covarianza per tali set di dati, specialmente quando molti dei composti subiscono una censura superiore al 50%, come spesso accade. Un modello distributivo convenzionale è che i logaritmi delle (vere) concentrazioni sono distribuiti multinormalmente e questo sembra adattarsi bene nella pratica, quindi una soluzione per questa situazione sarebbe utile.

(Per "pratico" intendo un metodo che può essere attendibilmente codificato in almeno un ambiente software generalmente disponibile come R, Python, SAS, ecc., In un modo che viene eseguito abbastanza rapidamente da supportare ricalcoli iterativi come quelli che si verificano nell'imputazione multipla, e che è ragionevolmente stabile [motivo per cui sono riluttante a esplorare un'implementazione di BUGS, sebbene le soluzioni bayesiane in generale siano benvenute].)

Molte grazie in anticipo per i tuoi pensieri su questo argomento.


Proprio così capisco correttamente il problema della censura: quando diluisci un campione la concentrazione di un composto scende così in basso che lo strumento di test non riesce a rilevare la sua presenza. È una riformulazione accurata del problema di censura?

Sì, è corretto: la diluizione di un fattore D aumenta anche tutti i limiti di rilevazione di un fattore D. (Il problema dell'interferenza con la matrice è più difficile da quantificare e la situazione generale è estremamente complessa. Per semplificare questo, il modello convenzionale è che una serie di test su un campione produce un vettore (x [1], ..., x [k ]) dove x [i] sono numeri reali o intervalli di reali, in genere con endpoint sinistro a -infinito; un intervallo identifica un insieme in cui si presume che il valore reale si trovi a mentire.)
whuber

Perché i limiti di rilevazione aumenterebbero? Non sono una caratteristica dello strumento di prova piuttosto che quella del campione da testare?

Ad esempio, supponiamo che il limite di rilevamento di uno strumento sia di 1 microgrammo per litro (ug / L). Un campione viene diluito 10: 1 (con grande precisione, quindi non ci preoccupiamo degli errori qui) e lo strumento legge "<1"; cioè, non rilevabile, per il campione diluito. Il laboratorio deduce che la concentrazione nel campione è inferiore a 10 * 1 = 10 ug / L e la riporta come tale; cioè, come "<10".
whuber

1
@amoeba Vedo che avrei dovuto spiegare queste cose nella domanda stessa. Le risposte sono: PCA; la dimensionalità varierà da 3 a poche centinaia; le dimensioni dei campioni superano sempre notevolmente la dimensionalità, ma i tassi di censura possono essere molto elevati (è necessario essere in grado di gestire fino al 50% ed è auspicabile fino al 95%).
whuber

Risposte:


3

Non ho completamente interiorizzato il problema dell'interferenza con la matrice, ma qui c'è un approccio. Permettere:

è un vettore che rappresenta la concentrazione di tutti i composti target nel campione non diluito.Y

Z

dd

Il nostro modello è:

Y~N(μ,Σ)

Z=Yd+ε

ε~N(0,σ2 io)

Pertanto, ne consegue che:

Z~N(μd,Σ+σ2 io)

ZfZ(.)

Oτioth

Oio=Zioio(Zio>τ)+0io(Zioτ)

K

L(O1,...OK,OK+1,...On|-)=[Πio=1io=KPr(Zioτ)][Πio=K+1io=nf(Oio|-)]

dove

f(Oio|-)=jiofZ(Oio|-)io(Oio>τ)

La stima si basa quindi sull'uso della massima verosimiglianza o delle idee bayesiane. Non sono sicuro di quanto sia trattabile quanto sopra, ma spero che ti dia alcune idee.


Grazie mille per questo pensiero. In effetti, questo è un approccio standard e ben documentato alla censura multipla. Una difficoltà sta nella sua intrattabilità: quegli integrali sono notoriamente difficili da calcolare. C'è anche un problema di modellazione in agguato qui: il valore di d è generalmente correlato positivamente con Y , come implica il primo paragrafo della mia descrizione.
whuber

2

Un'altra opzione più efficiente dal punto di vista computazionale sarebbe quella di adattare la matrice di covarianza mediante la corrispondenza del momento usando un modello che è stato chiamato "gaussiano dicomizzato", in realtà solo un modello di copula gaussiana.

Un recente articolo di Macke et al. 2010 descrive una procedura in forma chiusa per l'adattamento di questo modello che coinvolge solo la matrice di covarianza empirica (censurata) e il calcolo di alcune probabilità normali bivariate. Lo stesso gruppo (Bethge lab presso MPI Tuebingen) ha anche descritto modelli gaussiani discreti / continui ibridi che sono probabilmente ciò che si desidera qui (vale a dire, poiché i camper gaussiani non sono completamente "dicotomizzati" - solo quelli al di sotto della soglia).

Criticamente, questo non è uno stimatore ML e temo di non sapere quali siano le sue proprietà di distorsione.


@jp Grazie: mi occuperò di questo. (Potrebbe volerci del tempo ...)
whuber

1

Quanti composti ci sono nel tuo campione? (O quanto è grande la matrice di covarianza in questione?).

Alan Genz ha un codice molto bello in una varietà di lingue (R, Matlab, Fortran; vedi qui ) per il calcolo di integrali di densità normali multivariate su iper-rettangoli (cioè, i tipi di integrali necessari per valutare la probabilità, come notato da user28).

Ho usato queste funzioni ("ADAPT" e "QSIMVN") per integrali fino a circa 10-12 dimensioni, e diverse funzioni in quella pagina pubblicizzano integrali (e derivati ​​associati che potresti aver bisogno) per problemi fino alla dimensione 100. I don sappi se è abbastanza dimensioni per i tuoi scopi, ma in tal caso potrebbe presumibilmente permetterti di trovare le stime di massima verosimiglianza con la pendenza.


Oh, scusa — sono nuovo qui e non ho notato quanto tempo fa è stato pubblicato — probabilmente è troppo tardi per essere di grande aiuto!
jpillow,

@jp Questo è un problema importante in corso, quindi il tempo trascorso tra la domanda e la risposta ha poche conseguenze. Grazie per avermi risposto!
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.