Deviazione standard di diverse misurazioni con incertezze


13

Ho due 2 ore di dati GPS con una frequenza di campionamento di 1 Hz (7200 misurazioni). I dati sono forniti nella forma (X,Xσ,Y,Yσ,Z,Zσ) , dove è l'incertezza di misura.Nσ

Quando prendo la media di tutte le misurazioni (ad es. Il valore Z medio di quelle due ore), qual è la sua deviazione standard? Ovviamente posso calcolare la deviazione standard dai valori Z, ma poi trascuro il fatto che ci sono incertezze di misura note ...

Modifica: i dati provengono tutti dalla stessa stazione e tutte le coordinate vengono misurate ogni secondo. A causa di costellazioni satellitari ecc., Ogni misurazione ha una diversa incertezza. Lo scopo della mia analisi è quello di trovare lo spostamento dovuto a un evento esterno (ovvero un terremoto). Vorrei prendere la media per 7200 misurazioni (2 ore) prima del terremoto e un'altra media per 2 ore dopo il terremoto, quindi calcolare la differenza risultante (ad esempio in altezza). Al fine di specificare la deviazione standard di questa differenza, devo conoscere la deviazione standard dei due mezzi.


3
Buona domanda. Ancora più importante, i dati saranno fortemente correlati positivamente nel tempo: ciò avrà un effetto più profondo sulla risposta rispetto alla variazione delle incertezze di misurazione.
whuber

Raccogliendo il commento di Whuber e la risposta di Deathkill14, non ci hai fornito informazioni sufficienti per rispondere correttamente. E 'importante sapere come gli errori nella misurazione "lavoro". Ad esempio, se l'errore che misura era positivo per 3 secondi, è più / meno probabile che sia positivo per 4 secondi --- cioè c'è una correlazione seriale? Secondo, se l'errore in era positivo a 3 secondi, è più / meno probabile che l'errore in e / o sia positivo a 3 secondi? A 2 secondi? A 4 secondi? X,Y,ZX Y ZXXYZ
Bill

Una domanda correlata leggermente diversa è: quanto sistematico è l'errore di misurazione? Supponiamo di aver detto "Sì, stato misurato un po 'in alto sul mio prato davanti. è quasi sempre misurato un po' in alto sul mio prato davanti". Sarebbe una dichiarazione folle? L'errore di misurazione funziona in modo tale che un determinato posto potrebbe essere molto spesso troppo alto mentre un altro particolare posto potrebbe essere molto spesso troppo basso, ecc. "O è tutto un errore transitorio?XXX
Bill

@Bill: esiste sicuramente una correlazione seriale. Gli errori di misurazione sono praticamente costanti nelle due ore. Tuttavia, sono generalmente più grandi della deviazione standard calcolata dai dati, il che mi ha portato a questa domanda.
traindriver

La tua domanda non chiarisce ancora chiaramente l'esistenza della correlazione seriale. Sfortunatamente, hai tre risposte attentamente costruite che non ti sono utili quanto avrebbero potuto essere.
Glen_b -Restastate Monica il

Risposte:


7

Sospetto che le precedenti risposte a questa domanda possano essere un po 'fuori dal comune. Mi sembra che ciò che il poster originale stia davvero chiedendo qui possa essere riformulato come ", data una serie di misurazioni vettoriali: con e covarianza di misurazione :i=1,2,3,. . . ,7200Ci=( X 2 σ , i 0 0 0 Y 2 σ , i 0 0 0 Z 2 σ , i )

θio=(XioYioZio)
io=1,2,3,...,7200
Cio=(Xσ,io2000Yσ,io2000Zσ,io2)
come calcolerei correttamente la media ponderata per la covarianza per questa serie di misurazioni vettoriali e, successivamente, come calcolerei correttamente la sua deviazione standard? "La risposta a questa domanda può essere trovata in molti libri di testo specializzati in statistiche per le scienze fisiche Un esempio che mi piace in particolare è Frederick James, "Metodi statistici in fisica sperimentale" , 2a edizione, World Scientific, 2006, Sezione 11.5.2, "Combinazione di stime indipendenti", pag. 323-324. Un altro molto buono, ma testo più a livello introduttivo, che descrive il calcolo della media ponderata per la varianza per i valori scalari (rispetto alle quantità di vettori completi come sopra presentato) è Philip R. Bevington e D. Keith Robinson, "Riduzione dei dati e analisi degli errori per le scienze fisiche ", 3a edizione, McGraw-Hill, 2003, Sezione 4.1.x, "Ponderazione dei dati - Incertezze non uniformi". Poiché in questo caso la domanda del poster aveva una matrice di covarianza diagonale (ovvero, tutti gli elementi off-diagonali sono zero), il problema è in realtà separabile in tre problemi medi ponderati scalari individuali (ovvero, X, Y, Z), quindi l'analisi Bevington e Robinson si applica ugualmente bene anche qui.

In generale, quando rispondo alle domande di stackexchange.com, di solito non trovo utile riconfezionare lunghe derivazioni che sono già state presentate in numerosi libri di testo - se vuoi veramente capire il materiale e capire perché le risposte sembrano come fanno, quindi dovresti semplicemente leggere le spiegazioni che sono già state pubblicate dagli autori dei libri di testo. Con questo in mente, passerò semplicemente direttamente alla dichiarazione delle risposte che altri hanno già fornito. Da Frederick James, impostando , la media ponderata è: e la covarianza della media ponderata è:θ m e a n = ( N i = 1 C - 1 i ) - 1 ( N i = 1 C - 1 iθ i ) C m e a n = ( N i = 1 C - 1 i ) - 1 C iN=7200

θmeun'n=(Σio=1NCio-1)-1(Σio=1NCio-1θio)
Cmeun'n=(Σio=1NCio-1)-1
Questa risposta è completamente generale e sarà valida indipendentemente dal forma di , anche per matrici di covarianza di misurazione non diagonali.Cio

Dal momento che in questo caso le covarianze di misurazione sono diagonali, l'analisi di Bevington e Robinson può anche essere utilizzata per calcolare le medie ponderate per la varianza per i singoli , e . La forma della risposta scalare è simile alla forma della risposta vettoriale: e la varianza è o equivalentemente, e similmente perXioYioZio

Xmeun'n=Σio=1NXioXσ,io2Σio=1N1Xσ,io2
Xσ,meun'n2=1Σio=1N1Xσ,io2
Xσ,meun'n=1Σio=1N1Xσ,io2
Ymeun'n,Yσ,meun'ne . Una breve voce di Wikipedia che arriva anche a questa stessa risposta per il caso a valore scalare è disponibile qui .Zmeun'n,Zσ,meun'n

Forse non ero chiaro, quindi ho aggiunto qualche informazione in più. Non penso di dover ponderare le mie misurazioni.
traindriver

1
Si. Considera un caso estremo, proprio come un esperimento mentale: supponi di avere solo 2 misurazioni GPS, anziché 7200. Supponi inoltre che una delle misurazioni GPS abbia un'incertezza di +/- 5 piedi, mentre l'altra abbia un'incertezza di + / - 5 miglia. Il numero di incertezza indica letteralmente quanto potenzialmente inaccurata sia la misurazione. Ciò significa che il valore di +/- 5 miglia sarà probabilmente a diverse miglia di distanza, almeno. Vuoi davvero includere questo numero nella tua media, in modo significativo? La media ponderata consente di attualizzare valori di cui non ci si dovrebbe fidare tanto.
Stachyra,

1
A proposito, la mia risposta ha un'altra cosa da fare: nel tuo post originale, dici che il motivo per cui non vuoi semplicemente usare la deviazione standard del campione, calcolata direttamente dai valori Z, è che in quel caso, dovresti, con parole tue, "trascura il fatto che ci sono incertezze di misura note". La mia risposta (beh, davvero, la risposta oscura del libro di testo, che sto semplicemente condividendo con te) usa le incertezze di misurazione note, esattamente come hai chiesto. È solo che utilizza le informazioni in più punti (risultato medio e deviazione standard) di quanto ti aspettassi.
Stachyra,

Mi hai convinto.
traindriver,

6

Questo dovrebbe essere facilmente risolto usando l'inferenza bayesiana. Conoscete le proprietà di misurazione dei singoli punti rispetto al loro valore reale e volete dedurre la media della popolazione e la DS che hanno generato i valori reali. Questo è un modello gerarchico.

Sostituendo il problema (nozioni di base di Bayes)

Nota che mentre le statistiche ortodosse ti danno una sola media, nel quadro bayesiano ottieni una distribuzione di valori credibili della media. Ad esempio, le osservazioni (1, 2, 3) con SD (2, 2, 3) avrebbero potuto essere generate dalla stima della verosimiglianza massima di 2 ma anche da una media di 2,1 o 1,8, sebbene leggermente meno probabile (dati dati) rispetto a il MLE. Quindi oltre alla SD deduciamo anche la media .

Un'altra differenza concettuale è che devi definire il tuo stato di conoscenza prima di fare le osservazioni. Lo chiamiamo priori . Potresti sapere in anticipo che una determinata area è stata scansionata e in una determinata fascia di altezza. La completa assenza di conoscenza sarebbe quella di avere gradi uniformi (-90, 90) come i precedenti in X e Y e forse uniformi (0, 10000) metri di altezza (sopra l'oceano, sotto il punto più alto della terra). Devi definire le distribuzioni a priori per tutti i parametri che vuoi stimare, cioè ottenere le distribuzioni posteriori per. Questo vale anche per la deviazione standard.

Quindi, riformulando il tuo problema, suppongo che tu voglia inferire valori credibili per tre mezzi (X.mean, Y.mean, X.mean) e tre deviazioni standard (X.sd, Y.sd, X.sd) che potrebbero avere generato i tuoi dati.

Il modello

Usando la sintassi BUGS standard (usa WinBUGS, OpenBUGS, JAGS, stan o altri pacchetti per eseguire questo), il tuo modello sarebbe simile a questo:

  model {
    # Set priors on population parameters
    X.mean ~ dunif(-90, 90)
    Y.mean ~ dunif(-90, 90)
    Z.mean ~ dunif(0, 10000)
    X.sd ~ dunif(0, 10)  # use something with better properties, i.e. Jeffreys prior.
    Y.sd ~ dunif(0, 10)
    Z.sd ~ dunif(0, 100)

    # Loop through data (or: set up plates)
    # assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
    for(i in 1:n.obs) {
      # The true value was generated from population parameters
      X[i] ~ dnorm(X.mean, X.sd^-2)  #^-2 converts from SD to precision
      Y[i] ~ dnorm(Y.mean, Y.sd^-2)
      Z[i] ~ dnorm(Z.mean, Z.sd^-2)

      # The observation was generated from the true value and a known measurement error
      d[i, 1] ~ dnorm(X[i], d[i, 2]^-2)  #^-2 converts from SD to precision
      d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
      d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
    }
  }

Naturalmente, monitorate i parametri .mean e .sd e usate i loro posteriori per inferenza.

Simulazione

Ho simulato alcuni dati come questo:

# Simulate 500 data points
x = rnorm(500, -10, 5)  # mean -10, sd 5
y = rnorm(500, 20, 5)  # mean 20, sd 4
z = rnorm(500, 2000, 10)  # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3)  # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]

Quindi ha eseguito il modello utilizzando JAGS per 2000 iterazioni dopo un burnin di 500 iterazioni. Ecco il risultato per X.sd.

posteriore per X.sd

L'intervallo blu indica l'intervallo di densità posteriore o credibile più alto del 95% (dove si ritiene che il parametro sia dopo aver osservato i dati. Si noti che un intervallo di confidenza ortodossa non fornisce questo).

La linea verticale rossa è la stima MLE dei dati grezzi. Di solito, il parametro più probabile nella stima bayesiana è anche il parametro più probabile (massima probabilità) nelle statistiche ortodosse. Ma non dovresti preoccuparti troppo della parte superiore del posteriore. La media o la mediana è migliore se si desidera ridurla a un singolo numero.

Si noti che MLE / top non è a 5 perché i dati sono stati generati casualmente, non a causa di statistiche errate.

LIMITAZIONI VINCOLANTI

Questo è un modello semplice che attualmente presenta diversi difetti.

  1. Non gestisce l'identità di -90 e 90 gradi. Ciò può essere fatto, tuttavia, creando una variabile intermedia che sposta i valori estremi dei parametri stimati nell'intervallo (-90, 90).
  2. X, Y e Z sono attualmente modellati come indipendenti sebbene siano probabilmente correlati e questo dovrebbe essere preso in considerazione per ottenere il massimo dai dati. Dipende dal fatto che il dispositivo di misurazione si stesse muovendo (la correlazione seriale e la distribuzione congiunta di X, Y e Z ti forniranno molte informazioni) o se stai fermo (l'indipendenza è ok). Posso espandere la risposta per avvicinarmi a questo, se richiesto.

Dovrei dire che c'è molta letteratura sui modelli spaziali bayesiani di cui non sono a conoscenza.


Grazie per questa risposta Sono dati da una stazione fissa, ma ciò implica che i dati sono indipendenti?
traindriver

@traindriver Per poterti aiutare, devi fornire alcune informazioni in più sul problema dell'inferenza. Potresti espandere la tua domanda con una sezione di "aggiornamento" specificando almeno (1) è la stessa quantità misurata ripetutamente? Cioè la stessa coordinata. Oppure viene scansionata un'area o ... (2) perché vuoi dedurre media e sd? Se si tratta di un'area, è possibile che tu voglia utilizzare SD come stima dell'irregolarità o qualcosa del genere.
Jonas Lindeløv,

Ho aggiunto alcune informazioni nel post originale.
traindriver

3

Per prima cosa introduco qualche notazione e risolvo il problema usando il semplice approccio che hai citato. Quindi andare oltre. Userò per indicare il vettore Z hai dato.z

Considera il seguente modello, che manca dell'errore di misurazione della menzione esplicita: , dove è il valore medio stimato di e è il vero valore medio di Z. Qui, è un vettore degli errori nei tuoi dati e ti aspetti che se il tuo campione è grande converge in . Se prendi semplicemente i valori osservati e li media, ottieni e se calcoli la deviazione standard del campione ottieni , la stima della deviazione standard della popolazione realeZ¯=Σio=1nμZ+εionZ¯zμZεZ¯μZZZ¯σ^σ . Cosa succede se si desidera utilizzare alcune conoscenze sull'errore di misurazione?

Innanzitutto, si noti che possiamo riformulare il modello iniziale come: , dove è un vettore di quelli e finirà per essere . Ora sembra davvero una regressione, ma in pratica stiamo ancora ottenendo una stima di . Se eseguiamo una regressione come questa, avremo anche una stima dell'errore standard di , che è quasi ciò che vogliamo - questo non è altro che l'errore standard di (ma vogliamo ancora tenere conto di errore di misurazione).z=1β+ε1βZ¯μZεz

Possiamo aumentare il nostro modello iniziale per ottenere un modello di effetti misti. , dove è un vettore di effetti casuali, e è il regressore relativo di . Come con qualsiasi effetto casuale, dovrai fare un presupposto sulla distribuzione di . È corretto che sia la distribuzione dell'errore di misurazione perz=1β+Qu+εuQzuuZσz? Se sì, questo può essere usato per fornire la distribuzione degli effetti casuali. In genere, il software per eseguire la modellazione di base di effetti misti suppone che gli effetti casuali abbiano una distribuzione normale (con media 0 ...) e stimano la varianza per te. Forse puoi provare questo per testare il concetto. Se si desidera utilizzare le informazioni precedenti sulla distribuzione dell'errore di misurazione, è in ordine un modello di effetti misti bayesiani. È possibile utilizzare R2OpenBUGS.

Dopo aver stimato questo modello, l'errore standard che si ottiene per i residui è l'errore standard in cui si esprime interesse. Intuitivamente, la componente degli effetti casuali del modello sta assorbendo alcune delle variazioni che è possibile spiegare perché si sa che esiste una misurazione errore. Ciò consente di ottenere una stima più pertinente della variazione diεε

Vedi questo documento per una discussione più approfondita su questo approccio di effetti casuali per tenere conto dell'errore di misurazione. La tua situazione è simile a quella introdotta dagli autori per e il suo errore di misura ha danneggiato la versione . L'esempio nella Sezione 4 può offrire alcuni spunti sulla tua situazione.DW

Come menzionato da whuber, potresti voler tenere conto dell'autocorrelazione nei tuoi dati. L'uso di effetti casuali non risolverà quel problema.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.