Selezione dei priori in base all'errore di misurazione


9

Come si calcola il precedente appropriato se si ha l'errore di misurazione di uno strumento? Questo paragrafo è tratto dal libro di Cressie "Statistica dei dati spazio-temporali":

Accade spesso che siano disponibili alcune informazioni precedenti relative alla varianza dell'errore di misura, consentendo di specificare un modello di parametro abbastanza informativo. Ad esempio, se stiamo assumendo errori di misurazione condizionatamente indipendenti che sono iid , allora dovremmo specificare un precedente informativo per . Dire che siamo stati interessati a temperatura ambiente, e abbiamo visto che le specifiche del produttore dello strumento indicato un “errore” di ± 0,1 ° C . Supponendo che questo "errore" corrisponda a 2 deviazioni standard (un presupposto che dovrebbe essere verificato!), Potremmo quindi specificare \ sigma _ {\ epsilon} ^ {2} per avere una media precedente di (0.1 / 2) ^ 2 = 0.0025σ 2 ϵsolun'u(0,σε2)σε2σ 2 ϵ ( 0,1 / 2 ) 2 = 0,0025±0.1°Cσε2(0.1/2)2=0.0025. A causa delle specifiche del produttore dello strumento, assumiamo una distribuzione che avesse un picco chiaramente definito e abbastanza stretto a 0,0025 (ad esempio, gamma inversa). In effetti, potremmo semplicemente risolvere a 0.0025; tuttavia, l'errore del modello di dati può avere anche altre componenti di incertezza (Sezione 7.1). Per evitare possibili problemi di identificabilità con errori del modello di processo, è molto importante che i modellisti riducano l'incertezza in quanto la scienza consente, incluso lo studio laterale progettato per avere dati replicati.

Qualcuno sa qual è la procedura generale per ottenere i valori di un precedente come descritto sopra (anche se il paragrafo si riferisce solo all'ottenimento della media precedente)?

Risposte:


6

Due metodi standard sono

  1. Consultare le "specifiche del produttore dello strumento", come indicato nel preventivo. Di solito si tratta di un crudele ripiegamento da utilizzare quando non sono disponibili altre informazioni, perché (a) ciò che il produttore dello strumento intende realmente con "accuratezza" e "precisione" è spesso indeterminato e (b) come lo strumento ha risposto quando nuovo in un laboratorio di prova era probabilmente molto meglio di quanto funzioni se usato sul campo.

  2. Raccogliere campioni replicati. Nel campionamento ambientale ci sono circa una mezza dozzina di livelli a cui i campioni vengono replicati di routine (e molti altri a cui potrebbero essere replicati), con ogni livello usato per controllare una fonte di variazione assegnabile. Tali fonti possono includere:

    • Identità della persona che preleva il campione.
    • Procedure preliminari, come i pozzi di salvataggio, prese prima di ottenere un campione.
    • Variabilità nel processo di campionamento fisico.
    • Eterogeneità all'interno del volume del campione stesso.
    • Modifiche che potrebbero verificarsi durante la conservazione e la spedizione di un campione a un laboratorio.
    • Variazioni nelle procedure preliminari di laboratorio, come l'omogeneizzazione di un campione fisico o la sua digestione per analisi.
    • Identificazione dell'analista o degli analisti di laboratorio.
    • Differenze tra i laboratori.
    • Differenze tra strumenti fisicamente distinti, come due gascromatografi.
    • Deriva nella calibrazione dello strumento nel tempo.
    • Variazione diurna. (Questo può essere naturale e sistematico ma può apparire casuale quando i tempi di campionamento sono arbitrari.)

Una valutazione quantitativa completa dei componenti della variabilità può essere ottenuta solo variando sistematicamente ciascuno di questi fattori secondo un adeguato disegno sperimentale.

Di solito vengono studiate solo le fonti che si ritiene contribuiscano maggiormente alla variabilità. Ad esempio, molti studi divideranno sistematicamente una certa porzione dei campioni una volta ottenuti e li spediranno a due diversi laboratori. Uno studio delle differenze tra i risultati di tali divisioni può quantificare il loro contributo alla variabilità della misurazione. Se si ottengono abbastanza divisioni di questo tipo, la distribuzione completa della variabilità di misura può essere stimata come un precedente in un modello gerarchico spazio-temporale bayesiano. Poiché molti modelli assumono distribuzioni gaussiane (per ciascuno dei calcoli), ottenere un priore gaussiano alla fine si riduce alla stima della media e della varianza delle differenze tra le divisioni. In studi più complicati, che mirano a identificare più di un componente della varianza,

Uno dei vantaggi di pensare anche a questi problemi è che ti aiutano a identificare i modi per ridurre o addirittura eliminare alcune di queste componenti dell'errore (senza mai doverle quantificare), avvicinandomi così all'ideale di Cressie & Wikle di "ridurre l'incertezza quanto la scienza lo consente ".

Per un esempio esteso di lavoro (nel campionamento del suolo), vedere

Van Ee, Blume e Starks, una logica per la valutazione degli errori nel campionamento dei suoli. US EPA, maggio 1990: EPA / 600 / 4-90 / 013.


2
Il problema qui, Robert, è che a volte qualcuno segnalerà una deviazione standard di per la stima; altre volte lo segnaleranno due volte (da cui la divisione per due) o un intervallo di confidenza bilaterale; e a volte anche qualcos'altro; quindi non esiste una regola definita per convertire le dichiarazioni di accuratezza e precisione in priori: è necessario consultare le note a piè di pagina e altri dettagli tecnici per capire esattamente cosa rappresentano i numeri. L'errore standard di una stima, in funzione della dimensione del campione utilizzato, è irrilevante per questo scopo BTW.
whuber

1
Fatto. Vorrei cambiare l'attenzione sul secondo caso. Se ripeto un esperimento un paio di volte e ottengo misurazioni e , come posso utilizzare queste informazioni per informare la media e la varianza per una distribuzione precedente? Hai suggerito qualcosa come per diverse divisioni, giusto? Pertanto, avrei una media di un errore di misura e una deviazione standard di esempio . È abbastanza per includerlo in una precedente ? m 2 m 1 - m 2 m ϵ σ ϵ N ( m ϵ , σ 2 ϵ )m1m2m1-m2mεσεN(mε,σε2)
Robert Smith,

1
Non è possibile valutare la precisione con le divisioni: per questo, è necessario misurare campioni di valori noti. (A questo scopo vengono utilizzati picchi di laboratorio e duplicati a spillo .) Ciò determinerà la media. Di solito questo viene gestito durante la calibrazione del processo di misurazione, quindi la media è considerata zero. La varianza è stimata con le solite formule ANOVA. È possibile utilizzarlo per specificare un precedente sul componente corrispondente del sistema di misurazione.
whuber

2
Non è così: il riferimento che ho dato è la guida EPA degli Stati Uniti che esiste da un quarto di secolo e molte delle più recenti linee guida si basano sulle sue idee. Una volta ho usato questo approccio in un caso del tribunale federale per valutare l'effetto dell'errore di misurazione sulle linee di contorno tracciate (sulla base di un predittore geostatistico) per delineare un pennacchio contaminante: l'errore di misurazione era maggiore della concentrazione utilizzata per delimitare il pennacchio! (In altre parole, l'incertezza nella definizione del pennacchio era essenzialmente infinita.)
whuber

1
Veramente bello. A proposito, intendevo dire che i priori di solito sono stabiliti senza preoccuparsi troppo. L'ho visto in modo più evidente nella modellazione bayesiana e nell'apprendimento automatico forse perché un'ipotesi è spesso sufficiente per produrre risultati decenti.
Robert Smith,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.