Test statistici che incorporano l'incertezza di misura


11

Supponiamo che mi vengano dati due gruppi di misurazioni di massa (in mg), che sono indicati come y1 e y2. Voglio fare un test per determinare se i due campioni sono estratti da popolazioni con mezzi diversi. Qualcosa del genere, ad esempio (in R):

y1 <- c(10.5,2.9,2.0,4.4,2.8,5.9,4.2,2.7,4.7,6.6)
y2 <- c(3.8,4.3,2.8,5.0,9.3,6.0,7.6,3.8,6.8,7.9)
t.test(y1,y2)

Ottengo un valore p di 0,3234 e ad un livello di significatività di 0,05 non rifiuto l'ipotesi nulla che i due gruppi siano tratti da popolazioni con la stessa media. Ora mi vengono date incertezze per ogni misurazione:

u1 <- c(2.3,1.7,1.7,1.7,2.0,2.2,2.1,1.7,2.3,2.2)
u2 <- c(2.4,1.8,1.6,2.3,2.5,1.8,1.9,1.5,2.3,2.3)

dove u1 [1] è l'incertezza standard combinata nella misura y1 [1] (e così via). Come posso incorporare queste incertezze nel test statistico?


Queste misurazioni sono accoppiate o no? (Presumo di no.) Le incertezze potrebbero essere usate per ricavare pesi che potrebbero migliorare la tua inferenza, ma la variazione delle incertezze è piuttosto piccola, quindi non ci sarà molto guadagno, anche se le incertezze sono accurate.
Glen_b

Questi sono un sottoinsieme di dati reali non accoppiati. L'esempio aveva principalmente lo scopo di chiarire la domanda. Quello che sto veramente cercando è una guida generale su come incorporare al meglio l'incertezza di misura in un test di ipotesi (come nel test). Mi sembra che stiamo sprecando molte informazioni preziose se non utilizziamo le incertezze di misurazione, ma non sono stato in grado di trovare una guida chiara su questo argomento in letteratura.
Tom,

Per sfruttarli al massimo è necessario incorporarli in un modello probabilistico per le osservazioni; cosa rappresentano effettivamente le incertezze di misura ? (Non puoi farlo a mano, quindi stai attento.)
Glen_b -Reinstate Monica

Risposte:


1

Sembra che tu voglia condurre un'analisi ponderata. Vedere "Esempio di statistiche ponderate" nella sezione "Concetti" della documentazione SAS.


Quindi eseguiamo il test t con i mezzi pesati e le deviazioni standard ponderate, dove u1 e u1 sono i pesi?
Tom,

Sì. Supponiamo che la varianza dell'osservazione i_th sia Var / w_i, dove w_i è il peso per l'osservazione i_th e Var> 0.
Rick,

1

Perché non simularlo? Cioè, aggiungi la tua incertezza come realizzazioni di rumore ad ogni osservazione. Quindi ripetere il test di ipotesi. Fallo circa 1000 volte e vedi quante volte il null è stato rifiutato. Dovrai scegliere una distribuzione per il rumore. La normale sembra un'opzione, ma potrebbe produrre osservazioni negative, il che non è realistico.


1

Potresti trasformarlo in un problema di regressione e usare le incertezze come pesi. Cioè, prevedere il gruppo (1 o 2?) Dalla misurazione in una regressione.

Ma

Le incertezze sono approssimativamente costanti, quindi sembra probabile che non cambierà molto usando anche loro.

Hai un valore anomalo lieve a 10.5, il che complica le cose riducendo la differenza tra le medie. Ma se riesci a credere alle incertezze, quel valore non è più sospetto di qualsiasi altro.

Il t-test non sa che la tua ipotesi alternativa è che due campioni sono estratti da popolazioni diverse. Tutto quello che sa è confrontare i mezzi, sotto certe ipotesi. I test basati sul ranking sono un'alternativa, ma se sei interessato a questi dati come misurazioni, non sembrano preferibili ai tuoi obiettivi.


Punto preso. Ho cambiato la domanda per esprimerla in termini di mezzi.
Tom,

0

Nei minimi quadrati ordinari (ad esempio, lm (y ~ x)) si consente la variabilità (incertezza) attorno ai valori y, dato un valore x. Se si inverte la regressione (lm (x ~)) si minimizzano gli errori attorno a x. In entrambi i casi, si presume che gli errori siano abbastanza omogenei.

Se conosci la quantità di varianza attorno a ciascuna osservazione della tua variabile di risposta e quella varianza non è costante quando ordinata da x, allora dovresti usare i minimi quadrati ponderati. È possibile ponderare i valori y in base a fattori 1 / (varianza).

Nel caso in cui ti preoccupi che sia xey abbiano incertezza e che l'incertezza non sia la stessa tra i due, allora non vuoi minimizzare semplicemente i residui (indirizza l'incertezza) in perpendicolare a uno dei tuoi assi. Idealmente, minimizzeresti l'incertezza perpendicolare alla linea di tendenza adattata. Per fare ciò, è possibile utilizzare la regressione PCA (nota anche come regressione ortogonale, o minimi quadrati totali. Esistono pacchetti R per la regressione PCA e in precedenza sono stati pubblicati post su questo argomento in questo sito Web , che sono stati discussi anche altrove Inoltre, penso (cioè, potrei sbagliarmi ...) che puoi ancora fare una versione ponderata di questa regressione, facendo uso della tua conoscenza delle varianze.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.