La regressione di x su y è chiaramente migliore di y su x in questo caso?


10

Uno strumento utilizzato per misurare i livelli di glucosio nel sangue di una persona viene monitorato su un campione casuale di 10 persone. I livelli vengono inoltre misurati utilizzando una procedura di laboratorio molto accurata. La misura dello strumento è indicata da x. La misura della procedura di laboratorio è indicata da y.

Personalmente penso che y su x sia più corretto perché l'intenzione è quella di utilizzare le letture dello strumento per prevedere le letture di laboratorio. E y on x minimizza gli errori di tali previsioni.

Ma la risposta fornita era x su y.


2
Benvenuto nel sito, @Neo. Se questa domanda è stata motivata da un esercizio di classe / libro di testo, si prega di aggiungere il [self-study]tag.
gung - Ripristina Monica

Risposte:


6

Molte carte di laboratorio, in particolare gli esperimenti di test dello strumento, applicano tale regressione x su y.

Sostengono che dalla raccolta dei dati nell'esperimento, le condizioni y sono controllate e ottengono x dalla lettura dello strumento (introducendo un errore in esso). Questo è il modello fisico originale dell'esperimento, quindi l'errore x ~ y + è più adatto.

Per ridurre al minimo l'errore dell'esperimento, a volte, essendo controllato sulla stessa condizione, allora x viene misurato per più volte (o esperimento ripetuto). Questa procedura può aiutarti a comprendere la logica che sta dietro e trovare più chiaramente l'errore x ~ y +.


+1 Penso davvero alla risposta finora, questo probabilmente indirizza meglio il post originale. Questa domanda è stata quasi certamente motivata dalla comprensione dello strumento piuttosto che dalla calibrazione di un proxy. Se hai solo una misurazione X per ogni Y, allora sono abbastanza sicuro (a parte il commento di Whuber) che Y-on-X è un approccio corretto. Molteplici X lo distruggono, ma X-on-Y è ancora corretto (ma non utilizzabile per prevedere Y).
Korone,

Hai un problema, @Corone: se entrambi X vs Y e Y vs X sono corretti, sappiamo tutti che ottieni linee adattate nettamente diverse ogni volta che è inferiore a . Quale di queste due linee sceglieresti e su quali basi? La corretta risoluzione di questo dilemma è che - come spiega Vincent - esiste un'asimmetria nella nostra concezione dell'errore di misurazione: lo strumento viene misurato con un errore apprezzabile; si presume che il laboratorio non abbia errori apprezzabili. Le procedure di regressione ordinaria presuppongono che X non abbia alcun errore e tutto l'errore sia in Y, quindi ciò lo risolve. 1R21
whuber

@ whuber sono entrambi corretti ma rispondono a problemi diversi. Con più misurazioni X, Y-on-X non è più nemmeno corretto per il problema a cui dovrebbe rispondere. I miei commenti stanno diventando stupidi, tuttavia, quindi modificherò la mia risposta
Korone,

6

Come in genere, analisi diverse rispondono a domande diverse. Sia che potrebbero essere validi qui, vuoi solo assicurarti che la tua analisi corrisponda alla domanda a cui vuoi rispondere. (Per ulteriori informazioni su questa linea, potresti voler leggere la mia risposta qui: qual è la differenza tra regressione lineare su Y con X e X con Y? )X  su  YY on XX on Y

Hai ragione che, se tutto quello che voglio fare è prevedere il probabile più valore dato la conoscenza di un valore, si dovrebbe regredire . Tuttavia, se si vuole capire come queste misure sono collegate tra di loro, si potrebbe desiderare di utilizzare un errori-in-variabili approccio, dal momento che si ritiene che ci sia un errore di misura in . X Y  su  X XYXY on XX

D'altra parte, regredendo (e supponendo che è perfettamente senza errori - un cosiddetto gold standard ) permette di studiare le caratteristiche di misurazione della . Ad esempio, è possibile determinare se lo strumento diventa distorto quando il valore reale aumenta (o diminuisce) valutando se la funzione è diritta o curva. YX on YYX

Quando si cerca di comprendere le proprietà di uno strumento di misura, la comprensione della natura dell'errore di misura è molto importante, e questo può essere fatto regredendo . Ad esempio, quando si verifica l'omoscedasticità, è possibile determinare se l'errore di misurazione varia in funzione del livello del valore reale del costrutto. È spesso il caso degli strumenti che vi sia più errore di misura agli estremi del suo intervallo rispetto al centro del suo intervallo applicabile (cioè, il suo "punto ottimale"), quindi è possibile determinare questo, o forse determinare quale sia il più appropriato gamma è. Puoi anche stimare l' importoX on Ydi errore di misura nel tuo strumento con l'errore quadratico medio radice (la deviazione standard residua); ovviamente questo presuppone l'omoscedasticità, ma puoi anche ottenere stime in punti diversi su adattando una funzione regolare, come una spline , ai residui. Y

Alla luce di queste considerazioni, suppongo che sia migliore, ma sicuramente dipende da quali sono i tuoi obiettivi. X on Y


+1 Per riconoscere che la regressione di su richiede errori nelle variabili e che la risposta richiede davvero la comprensione degli obiettivi dell'analisi. YX
whuber

@whuber Gli errori nelle variabili non sono appropriati per la previsione. Gli errori nelle variabili sono utili se si desidera comprendere l' entità di una relazione ma si hanno errori di misurazione in X e Y. Per la previsione, la X è "conosciuta senza errori" purché sia ​​raccolta nello stesso modo nel set di allenamento e set di previsione.
Korone,

@Corone Hai ragione sul fatto che gli errori nelle variabili non sono utili per la previsione, ma non è ciò che mi viene raccomandato per quanto ne so. In effetti, questo è esattamente il motivo per cui è davvero necessario regredire lo strumento contro il laboratorio (che utilizza solo OLS) e non viceversa. Si prega di consultare il riferimento Draper & Smith che cito in un altro commento a questa discussione. Mi affido alla sezione 1.7 della seconda edizione.
whuber

@Corone, hai ragione sulla previsione / errori nelle variabili, ma non è proprio quello che intendevo dire. Proverò a pensare a un modo migliore per esprimerlo.
gung - Ripristina Monica

4

Pronostico e previsioni

Sì, hai ragione, quando lo vedi come un problema di predizione, una regressione Y-on-X ti darà un modello tale che, data una misurazione dello strumento, puoi fare una stima imparziale della misurazione di laboratorio accurata, senza eseguire la procedura di laboratorio .

Detto in altro modo, se sei solo interessato a allora vuoi la regressione Y-on-X.E[Y|X]

Ciò può sembrare controintuitivo perché la struttura dell'errore non è quella "reale". Supponendo che il metodo lab sia un metodo senza errori standard gold, allora "sappiamo" che il vero modello generativo di dati è

Xi=βYi+ϵi

dove e sono distribuiti in modo identico indipendente edYiϵiE[ϵ]=0

Siamo interessati a ottenere la migliore stima di . A causa della nostra ipotesi di indipendenza possiamo riordinare quanto sopra:E[Yi|Xi]

Yi=Xiϵβ

Ora, prendendo le aspettative dato che è dove le cose diventano peloseXi

E[Yi|Xi]=1βXi1βE[ϵi|Xi]

Il problema è il termine - è uguale a zero? In realtà non importa, perché non puoi mai vederlo, e stiamo solo modellando termini lineari (o l'argomento si estende a tutti i termini che stai modellando). Qualsiasi dipendenza tra e può essere semplicemente assorbita nella costante che stiamo stimando.E[ϵi|Xi]ϵX

In modo esplicito, senza perdita di generalità possiamo lasciare

ϵi=γXi+ηi

Dove per definizione, quindi ora abbiamoE[ηi|X]=0

YI=1βXiγβXi1βηi

YI=1γβXi1βηi

che soddisfa tutti i requisiti di OLS, poiché è ora esogeno. Non importa minimamente che il termine di errore contenga anche un dal momento che né né sono noti comunque e devono essere stimati. Possiamo quindi semplicemente sostituire quelle costanti con nuove e usare l'approccio normaleηββσ

YI=αXi+ηi

Si noti che NON abbiamo stimato la quantità che avevo inizialmente scritto: abbiamo creato il modello migliore possibile per l'utilizzo di X come proxy per Y.β

Analisi dello strumento

La persona che ti ha posto questa domanda, chiaramente non voleva la risposta sopra poiché dice che X-on-Y è il metodo corretto, quindi perché potrebbe averlo desiderato? Molto probabilmente stavano considerando il compito di comprendere lo strumento. Come discusso nella risposta di Vincent, se vuoi sapere se vogliono che lo strumento si comporti, l'X-on-Y è la strada da percorrere.

Tornando alla prima equazione sopra:

Xi=βYi+ϵi

La persona che pone la domanda avrebbe potuto pensare alla calibrazione. Si dice che uno strumento sia calibrato quando ha un'aspettativa uguale al valore reale - cioè . Chiaramente per calibrare è necessario trovare , e quindi per calibrare uno strumento è necessario eseguire la regressione X-on-Y.E[Xi|Yi]=YiXβ

restringimento

La calibrazione è un requisito intuitivamente sensibile di uno strumento, ma può anche causare confusione. Nota che anche uno strumento ben calibrato non ti mostrerà il valore atteso di ! Per ottenere devi ancora fare la regressione Y-on-X, anche con uno strumento ben calibrato. Questa stima apparirà generalmente come una versione ridotta del valore dello strumento (ricorda il termine che si è insinuato). In particolare, per ottenere una buona stima di si dovrebbe includere la vostra conoscenza preventiva della distribuzione di . Questo porta quindi a concetti come la regressione alla media e le baia empiriche.YE[Y|X]γE[Y|X]Y

Esempio in R Un modo per avere un'idea di ciò che sta accadendo qui è quello di creare alcuni dati e provare i metodi. Il codice seguente confronta X-on-Y con Y-on-X per la previsione e la calibrazione e puoi vedere rapidamente che X-on-Y non va bene per il modello di previsione, ma è la procedura corretta per la calibrazione.

library(data.table)
library(ggplot2)

N = 100
beta = 0.7
c = 4.4

DT = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT[, X := 0.7*Y + c + epsilon]

YonX = DT[, lm(Y~X)]   # Y = alpha_1 X + alpha_0 + eta
XonY = DT[, lm(X~Y)]   # X = beta_1 Y + beta_0 + epsilon


YonX.c = YonX$coef[1]   # c = alpha_0
YonX.m = YonX$coef[2]   # m = alpha_1

# For X on Y will need to rearrage after the fit.
# Fitting model X = beta_1 Y + beta_0
# Y = X/beta_1 - beta_0/beta_1

XonY.c = -XonY$coef[1]/XonY$coef[2]      # c = -beta_0/beta_1
XonY.m = 1.0/XonY$coef[2]  # m = 1/ beta_1

ggplot(DT, aes(x = X, y =Y)) + geom_point() +  geom_abline(intercept = YonX.c, slope = YonX.m, color = "red")  +  geom_abline(intercept = XonY.c, slope = XonY.m, color = "blue")

# Generate a fresh sample

DT2 = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT2[, X := 0.7*Y + c + epsilon]

DT2[, YonX.predict := YonX.c + YonX.m * X]
DT2[, XonY.predict := XonY.c + XonY.m * X]

cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])

# Generate lots of samples at the same Y

DT3 = data.table(Y = 4.0, epsilon = rt(N,8))
DT3[, X := 0.7*Y + c + epsilon]

DT3[, YonX.predict := YonX.c + YonX.m * X]
DT3[, XonY.predict := XonY.c + XonY.m * X]

cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])

ggplot(DT3) + geom_density(aes(x = YonX.predict), fill = "red", alpha = 0.5) + geom_density(aes(x = XonY.predict), fill = "blue", alpha = 0.5) + geom_vline(x = 4.0, size = 2) + ggtitle("Calibration at 4.0")

Le due linee di regressione sono tracciate sui dati

inserisci qui la descrizione dell'immagine

E quindi la somma dell'errore dei quadrati per Y viene misurata per entrambi gli adattamenti su un nuovo campione.

> cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
YonX sum of squares error for prediction:  77.33448
> cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
XonY sum of squares error for prediction:  183.0144

In alternativa, un campione può essere generato ad una Y fissa (in questo caso 4) e quindi alla media di tali stime prese. Ora puoi vedere che il predittore Y-on-X non è ben calibrato con un valore atteso molto inferiore a Y. Il predittore X-on-Y, è ben calibrato con un valore atteso vicino a Y.

> cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
Expected value of X at a given Y (calibrated using YonX) should be close to 4:  1.305579
> cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
Expected value of X at a gievn Y (calibrated using XonY) should be close to 4:  3.465205

La distribuzione delle due previsioni può essere vista in un diagramma di densità.

inserisci qui la descrizione dell'immagine


No, l'OP non è corretto: la regressione Y-on-X assume un modello di variazione nettamente diverso da quello descritto nel problema e pertanto non è probabile che sia una procedura appropriata. Quando lo scopo è prevedere da ed è che viene misurata con un errore apprezzabile, allora ci si trova in una situazione di regressione inversa . Questo è discusso in Draper & Smith, Applied Regression Analysis , per esempio. YXX
whuber

3
Il problema è che non stai guardando il modello completo, che è conQuando si inverte questo algebricamente si ottiene . Può davvero essere riscritto nella forma ma ora : le varianze dei residui dipendono dalla pendenza! Se è apprezzabile, l'adattamento dei minimi quadrati non è buono e le sue stime di varianza sono tutte sbagliate. Var ( ϵ ) = σ 2 . X = ( Y - β 0 - ϵ ) / β 1 X = α 0 + α 1 Y + δ Var ( δ ) = σ 2 α 2 1 σ 2Y=β0+β1X+ϵVar(ϵ)=σ2.X=(Yβ0ϵ)/β1X=α0+α1Y+δVar(δ)=σ2α12σ2
whuber

1
La modifica fa un errore cruciale in "Non importa minimamente che il termine di errore contenga anche un ." Al contrario, conta molto (scrivi la probabilità di vedere). In particolare, l'algoritmo dei minimi quadrati non ha più le proprietà che ti aspetti che abbia e lo stimatore della massima verosimiglianza è diverso da quello che pensi possa essere. I tuoi esempi non possono essere compresi senza leggere il codice, a proposito, perché non è affatto chiaro quale metodo sia mostrato in rosso e quali in blu! β
whuber

2
Y può essere una variabile casuale su una popolazione di persone, ma per ogni persona è un parametro da stimare. La regressione di Y su X riduce ogni stima di Y verso la media di gruppo, il che riduce l'errore quadratico medio sulle persone ma crea errori sistematici che potrebbero essere inaccettabili per motivi etici o legali. La regressione di X su Y fornisce informazioni che possono essere utilizzate per costruire un intervallo di confidenza imparziale per Y di ogni persona, ma tali intervalli tendono ad essere ampi, come l'area blu nel grafico, mentre l'intervallo di previsione dalla regressione di Y su X è più stretto ma distorto , come il rosso.
Ray Koopman,

1
@RayKoopman è un modo meraviglioso di dirlo! Sì - Y su X significa ottenere la migliore previsione mediamente su molti Y diversi, mentre la calibrazione riguarda l'equità e l'imparzialità di un singolo Y.
Korone,

2

Dipende dalle tue ipotesi sulla varianza di X e sulla varianza di Y per i minimi quadrati ordinari. Se Y ha l'unica fonte di varianza e X ha varianza zero, allora usa X per stimare Y. Se le ipotesi sono inverse (X ha l'unica varianza e Y ha varianza zero), allora usa Y per stimare X.

Se si presume che sia X che Y abbiano varianza, potrebbe essere necessario considerare il totale dei minimi quadrati .

Una buona descrizione di TLS è stata scritta a questo link . L'articolo è orientato al trading, ma la sezione 3 fa un buon lavoro nel descrivere TLS.

Modifica 1 (09/10/2013) ========================================= ======

Inizialmente supponevo che si trattasse di una sorta di problema di compiti a casa, quindi non sono stato molto specifico sulla "risposta" alla domanda del PO. Ma, dopo aver letto altre risposte, sembra che sia OK per essere un po 'più dettagliato.

Citando parte della domanda del PO:

".... I livelli sono anche misurati usando una procedura di laboratorio molto accurata ...."

L'affermazione sopra dice che ci sono due misurazioni, una dallo strumento e una dalla procedura di laboratorio. La dichiarazione implica anche che la varianza per la procedura di laboratorio è bassa rispetto alla varianza per lo strumento.

Un'altra citazione dalla domanda del PO è:

".... La misura della procedura di laboratorio è indicata da y ....."

Quindi, dalle due precedenti affermazioni, Y ha la varianza più bassa. Pertanto, la tecnica meno soggetta a errori consiste nell'utilizzare Y per stimare X. La "risposta fornita" era corretta.


1
+1 per la raccomandazione TLS. Se ha senso contemplare entrambe le forme di regressione, ciò significa che ritieni che sia che siano soggetti a importanti quantità di variazione casuale, quindi probabilmente non dovresti usare la regressione ordinaria in ogni caso! YXY
whuber

No, la scelta della regressione non dovrebbe essere fatta in base alla posizione della varianza: dovrebbe essere fatta in base alla domanda a cui stai cercando di rispondere. Se usi TLS per costruire un modello di previsione per Y dato X , sbaglierai. TLS e modelli simili di errori nelle variabili sono tutti incentrati sulla comprensione della vera relazione tra variabili / processi sottostanti - non sulla previsione
Korone,

1
@Corone Anche se hai ragione sul fatto che i tuoi obiettivi guidano la scelta delle procedure statistiche, la procedura deve anche essere appropriata per il modello di probabilità ("dove si trova la varianza"). Se il tuo scopo è prevedere la lettura del laboratorio dalla lettura dello strumento ad alta varianza, allora sicuramente scegli una procedura appropriata per quello: ma quella procedura non è una previsione usando l'adattamento dei minimi quadrati ordinari e le sue stime di varianza.
whuber

1
@Corone - Sono d'accordo sul fatto che la tecnica di regressione dovrebbe essere basata sulla domanda a cui stai cercando di rispondere, tuttavia la tecnica selezionata contiene ipotesi sulla varianza delle variabili. Se le ipotesi di varianza della selezione non corrispondono al tuo concetto per il modello, hai selezionato la tecnica sbagliata. Ecco perché ho elencato le 3 possibilità (varianza zero X per stimare Y; varianza zero Y per stimare X; o varianza X e Y diversa da zero).
bill_080,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.