Perché i modelli di "errore in X" non sono più utilizzati?


11

Quando si calcola l'errore standard di un coefficiente di regressione, che non tengono conto per la casualità nella matrice di progettazione . In OLS ad esempio, calcoliamo comeXvar(β^)var((XTX)-1XTY)=σ2(XTX)-1

Se l' sono stati considerati casuale, la legge della varianza totale sarebbe, in un certo senso, chiedere il contributo supplementare della varianza di pure. vale a direXX

var(β^)=var(E(β^|X))+E(var(β^|X)).

Che, se lo stimatore OLS è veramente imparziale, il primo termine svanisce poiché l'aspettativa è una costante. Il secondo termine diventa in realtà: .σ2COV(X)-1

  1. Se è noto un modello parametrico per , perché non sostituiamo con la stima della covarianza effettiva. Ad esempio, se è un'assegnazione di trattamento randomizzata, la varianza binomiale dovrebbe essere una stima più efficiente?XXTXXE(X)(1-E(X))

  2. Perché non consideriamo l'utilizzo di modelli non parametrici flessibili per stimare le possibili fonti di distorsione nella stima OLS e tenere adeguatamente conto della sensibilità al design (ovvero la distribuzione di ) nel primo termine della legge della varianza totale ?Xvar(E(β^|X))


2
Perché una legge matematica "esige" qualcosa? Usiamo un modello per ragionare con i dati per raggiungere obiettivi particolari. Quando quelli devono capire o prevedere la risposta condizionale sulla base di un valore osservato o misurato la variazione in X avrebbe poco (se non altro) a che fare con la domanda sostanziale - anzi, incorporare questa variazione nelle nostre procedure sembrerebbe essere del tutto sbagliato, fuorviante o anche senza senso. La risposta alla tua domanda sembra quindi dipendere dalla frequenza con cui si incontrano diversi tipi di problemi statistici. X,X
whuber

1
@whuber Il mio focus è sull'inferenza. La legge della varianza totale sembra essere più in linea con l'interpretazione frequente dei risultati dello studio. Parliamo spesso di "se lo studio fosse replicato" ... senza tenere conto del fatto che la distribuzione di potrebbe differire se lo studio fosse replicato. L'equilibrio del sesso potrebbe essere del 40% in un campione, ma del 60% in un altro semplicemente come conseguenza casuale del modo in cui lo studio è stato ottenuto. Ironia della sorte, il bootstrap riflette questo, ma non genera alcuna variabilità nei risultati per una particolare combinazione di covariate. X
AdamO,

2
Prima di tutto, molti studi mettono sotto controllo sperimentale, quindi non è nemmeno casuale. In secondo luogo, gli studi osservazionali (dove X è casuale) spesso interessati solo inferenza circa la distribuzione condizionata di Y . Pertanto, concentrarsi sull'inferenza non distingue una situazione dall'altra. Quando la distribuzione completa (congiunta) è interessante, vedrai molte persone ricorrere a forme di analisi di correlazione o varie procedure multivariate. Non esiste "il" bootstrap, perché in questa situazione il modo in cui ricampionare dipende dai tuoi obiettivi e dal tuo modello. XXY.
whuber

1
@whuber Il controllo sperimentale viene assegnato in modo casuale al punto di entrata nello studio. Come ho già detto, questo è un caso convincente: dire che la randomizzazione è Bernoulli. Perché usare una stima empirica di ? Usa la massima verosimiglianza: cov ( X ) = E ( X ) ( 1 - E ( X ) ) ? Hai ragione su bootstrap, mi riferivo a bootstrap non parametrico (incondizionato) in cui "file" di dati vengono campionati con la sostituzione. COV(X)=XTXCOV(X)=E(X)(1-E(X))
AdamO,

2
Al di fuori di casi particolari e anomali, non importa se è casuale, ciò che conta è se c'è un errore di misurazione in X 1 . In tal caso, i metodi OLS porterebbero a stime distorte e meno potenti di β 1 . In tal caso, dovrebbero essere utilizzati errori nei metodi delle variabili. X1X1β1
gung - Ripristina Monica

Risposte:


8

La tua domanda (più ulteriori commenti nei commenti) sembra essere per lo più interessata al caso in cui abbiamo una sperimentazione controllata randomizzata in cui il ricercatore assegna casualmente una o più variabili esplicative, sulla base di un disegno di randomizzazione. In questo contesto, vuoi sapere perché utilizziamo un modello che tratta le variabili esplicative come costanti conosciute, piuttosto che trattarle come variabili casuali dalla distribuzione campionaria imposta dalla randomizzazione. (La tua domanda è più ampia di questa, ma questo sembra essere il caso di interesse primario nel commento, quindi questa è quella che affronterò.)

La ragione per cui condizioniamo le variabili esplicative, in questo contesto, è che in un problema di regressione per un RCT, siamo ancora interessati alla distribuzione condizionale della variabile di risposta dati i predittori . In effetti, in un RCT siamo interessati a determinare gli effetti causali di una variabile esplicativa X sulla variabile di risposta Y , che determineremo tramite l'inferenza sulla distribuzione condizionale (soggetta ad alcuni protocolli per evitare confusione). La randomizzazione è imposta per spezzare la dipendenza tra la variabile esplicativa X e tutte le possibili variabili confondenti (cioè, prevenire le associazioni back-door). Tuttavia, l'oggetto dell'inferenza nel problema è ancora la distribuzione condizionale della variabile di risposta date le variabili esplicative. Pertanto, ha ancora senso stimare i parametri in questa distribuzione condizionale, usando metodi di stima che hanno buone proprietà per inferire la distribuzione condizionale .

Questo è il caso normale che si applica a un RCT usando tecniche di regressione. Certo, ci sono alcune situazioni in cui abbiamo altri interessi e potremmo davvero voler incorporare l'incertezza sulle variabili esplicative. Incorporare l'incertezza nelle variabili esplicative si verifica generalmente in due casi:

  • (1) Quando andiamo oltre l'analisi di regressione e l'analisi multivariata, siamo quindi interessati alla distribuzione congiunta delle variabili esplicative e di risposta, piuttosto che alla distribuzione condizionale di quest'ultima data la prima. Potrebbero esserci applicazioni in cui questo è il nostro interesse, e quindi andremmo oltre l'analisi di regressione e incorporeremo informazioni sulla distribuzione delle variabili esplicative.

  • (2) In alcune applicazioni di regressione il nostro interesse è nella distribuzione condizionale della variabile di risposta subordinata a una variabile esplicativa non osservata sottostante, in cui assumiamo che le variabili esplicative osservate fossero soggette ad errore ("errori in variabili"). In questo caso incorporiamo l'incertezza tramite "errori nelle variabili". La ragione di ciò è che il nostro interesse in questi casi è nella distribuzione condizionale , subordinata a una variabile sottostante non osservata .

Nota che entrambi questi casi sono matematicamente più complicati dell'analisi di regressione, quindi se riusciamo a cavarcela usando l'analisi di regressione, è generalmente preferibile. In ogni caso, nella maggior parte delle applicazioni dell'analisi di regressione, l'obiettivo è fare una deduzione sulla distribuzione condizionale della risposta, date le variabili esplicative osservabili, quindi queste generalizzazioni diventano superflue.


Notare che la randomizzazione separa gli effetti causali dalle variabili confondenti alla variabile randomizzata, ma non recide gli effetti causali dalla variabile randomizzata alle variabili confondenti e quindi alla risposta. Ciò significa che potrebbero essere richiesti altri protocolli (ad esempio, placebo, accecamento, ecc.) Per recidere completamente tutte le associazioni di back-door in un'analisi causale.


2
Bella risposta. Aggiungerei AFAIK se hai errori gaussiani nelle variabili e errore gaussiano nella risposta rispetto al normale metodo di regressione e diventa un problema solo se a) hai osservato una risposta senza errore b) hai una distribuzione della risposta diversa
Martin Modrák,

2

Il titolo "errori nelle variabili" e il contenuto della domanda sembrano diversi, poiché ci chiede perché non prendiamo in considerazione la variazione in X quando modelliamo la risposta condizionale, vale a dire l'inferenza per i parametri di regressione. Queste due preoccupazioni mi sembrano ortogonali, quindi qui rispondo al contenuto.

Ho già risposto a una domanda simile in precedenza, qual è la differenza tra condizionamento sui regressori e trattarli come fissi? , quindi qui copierò parte della mia risposta lì:

Proverò a dare un tono più formale all'argomento per condizionare i regressori. Let (Y,X) sia un vettore casuale, ed interesse in regressione Y su X , dove viene acquistata regressione intende il valore atteso condizionato di Y su X . Sotto ipotesi multinormali sarà una funzione lineare, ma i nostri argomenti non dipendono da questo. Iniziamo con il factoring della densità articolare nel solito modo

f(y,x)=f(yx)f(x)
ma tali funzioni non sono noti in modo da utilizzare un modello parametrizzato
f(y,x;θ,ψ)=fθ(yx)fψ(x)
dove θ parametrizza la distribuzione condizionata e ψ la distribuzione marginale di X . Nel normale modello lineare possiamo avere θ=(β,σ2) ma ciò non è ipotizzato. L'intero spazio dei parametri di (θ,ψ) èΘ×Ψ , un prodotto cartesiano e i due parametri non hanno parti in comune.

Xfψ(x)Yfθ(yX=x)θXθ

θfψ(x)xθθX=x

Negli esperimenti progettati la sua ipotesi sarà per lo più valida, spesso con dati non osservativi. Alcuni esempi di problemi saranno: regressione con risposte ritardate come predittori. Il condizionamento dei predittori in questo caso condizionerà anche la risposta! (Aggiungerò altri esempi).

§4.3


θXθXθ

Questo argomento di separazione è utile anche perché indica i casi in cui non può essere utilizzato, ad esempio la regressione con risposte ritardate come predittori.


1
XYθψ

Non so PLS, ma proverò a pensarci
kjetil b halvorsen

1
Bella risposta! ...
Richard Hardy,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.