La tua domanda (più ulteriori commenti nei commenti) sembra essere per lo più interessata al caso in cui abbiamo una sperimentazione controllata randomizzata in cui il ricercatore assegna casualmente una o più variabili esplicative, sulla base di un disegno di randomizzazione. In questo contesto, vuoi sapere perché utilizziamo un modello che tratta le variabili esplicative come costanti conosciute, piuttosto che trattarle come variabili casuali dalla distribuzione campionaria imposta dalla randomizzazione. (La tua domanda è più ampia di questa, ma questo sembra essere il caso di interesse primario nel commento, quindi questa è quella che affronterò.)
La ragione per cui condizioniamo le variabili esplicative, in questo contesto, è che in un problema di regressione per un RCT, siamo ancora interessati alla distribuzione condizionale della variabile di risposta dati i predittori . In effetti, in un RCT siamo interessati a determinare gli effetti causali di una variabile esplicativa X sulla variabile di risposta Y , che determineremo tramite l'inferenza sulla distribuzione condizionale (soggetta ad alcuni protocolli per evitare confusione). La randomizzazione è imposta per spezzare la dipendenza tra la variabile esplicativa X e tutte le possibili variabili confondenti (cioè, prevenire le associazioni back-door). †† Tuttavia, l'oggetto dell'inferenza nel problema è ancora la distribuzione condizionale della variabile di risposta date le variabili esplicative. Pertanto, ha ancora senso stimare i parametri in questa distribuzione condizionale, usando metodi di stima che hanno buone proprietà per inferire la distribuzione condizionale .
Questo è il caso normale che si applica a un RCT usando tecniche di regressione. Certo, ci sono alcune situazioni in cui abbiamo altri interessi e potremmo davvero voler incorporare l'incertezza sulle variabili esplicative. Incorporare l'incertezza nelle variabili esplicative si verifica generalmente in due casi:
(1) Quando andiamo oltre l'analisi di regressione e l'analisi multivariata, siamo quindi interessati alla distribuzione congiunta delle variabili esplicative e di risposta, piuttosto che alla distribuzione condizionale di quest'ultima data la prima. Potrebbero esserci applicazioni in cui questo è il nostro interesse, e quindi andremmo oltre l'analisi di regressione e incorporeremo informazioni sulla distribuzione delle variabili esplicative.
(2) In alcune applicazioni di regressione il nostro interesse è nella distribuzione condizionale della variabile di risposta subordinata a una variabile esplicativa non osservata sottostante, in cui assumiamo che le variabili esplicative osservate fossero soggette ad errore ("errori in variabili"). In questo caso incorporiamo l'incertezza tramite "errori nelle variabili". La ragione di ciò è che il nostro interesse in questi casi è nella distribuzione condizionale , subordinata a una variabile sottostante non osservata .
Nota che entrambi questi casi sono matematicamente più complicati dell'analisi di regressione, quindi se riusciamo a cavarcela usando l'analisi di regressione, è generalmente preferibile. In ogni caso, nella maggior parte delle applicazioni dell'analisi di regressione, l'obiettivo è fare una deduzione sulla distribuzione condizionale della risposta, date le variabili esplicative osservabili, quindi queste generalizzazioni diventano superflue.
† Notare che la randomizzazione separa gli effetti causali dalle variabili confondenti alla variabile randomizzata, ma non recide gli effetti causali dalla variabile randomizzata alle variabili confondenti e quindi alla risposta. Ciò significa che potrebbero essere richiesti altri protocolli (ad esempio, placebo, accecamento, ecc.) Per recidere completamente tutte le associazioni di back-door in un'analisi causale.