La differenza tra controllo e trattamento deve essere modellata in modo esplicito o implicito?


9

Data la seguente configurazione sperimentale:

Vengono prelevati più campioni da un soggetto e ogni campione viene trattato in più modi (incluso un trattamento di controllo). Ciò che è principalmente interessante è la differenza tra il controllo e ciascun trattamento.

Mi vengono in mente due semplici modelli per questi dati. Con il campione , il trattamento , il trattamento 0 come controllo, lascia che sia il dato, sia la base del campione , sia la differenza per il trattamento . Il primo modello esamina sia il controllo che la differenza:ijYijγiiδjj

Yij=γi+δj+ϵij
δ0=0

Mentre il secondo modello osserva solo la differenza. Se precalculate anticipo poi dij

dij=YijYi0
dij=δj+εij

La mia domanda è: quali sono le differenze fondamentali tra queste due configurazioni? In particolare, se i livelli sono insignificanti in se stessi e conta solo la differenza, il primo modello sta facendo troppo ed è forse sottodimensionato?


2
Posso dare una risposta più approfondita in seguito, ma suggerirei che questo articolo di Paul Allison sarebbe interessante ( Allison, 1990 ).
Andy W,

1
Modificato per riflettere il fatto che gli errori nei diversi modelli non sono effettivamente gli stessi e quindi non dovrebbero usare gli stessi simboli.
Rónán Daly,

Risposte:


6

È sia correlato nel secondo modello ma non nel primo.ϵij

Nel primo, questi termini rappresentano errori di misurazione e deviazioni dal modello additivo. Con ragionevole cura, ad esempio randomizzando la sequenza delle misurazioni, tali errori possono essere resi indipendenti quando il modello è accurato. da cui

dij=YijYi0=γi+δj+ϵij(γi+δ0+ϵi0)=δj+(ϵijϵi0).

(Si noti che questo contraddice l'ultima equazione nella domanda, perché è errato assumere Farlo ci costringerebbe a riconoscere che i sono variabili casuali piuttosto che parametri, almeno una volta che riconosciamo il possibilità di errore di misurazione per il controllo. Ciò porterebbe alle stesse conclusioni di seguito.)ϵi0=0γi

Per , questo implicaj,k0jk

Cov(dij,dik)=Cov(ϵijϵi0,ϵikϵi0)=Var(ϵi0)0.

La correlazione può essere sostanziale. Per errori iid, un calcolo simile mostra che è uguale a 0,5. A meno che non si stiano utilizzando procedure che gestiscono in modo esplicito e corretto questa correlazione, favorire il primo modello rispetto al secondo.


Quindi, hai presupposto che il primo modello sia il modello vero e che tu abbia derivato una proprietà indesiderabile del secondo modello. Sappiamo che tutti i modelli sono sbagliati, quindi questo risultato è davvero significativo?
Macro

1
@Macro Per favore leggi più attentamente la mia risposta: è stato creato per mostrare quali ipotesi sono necessarie per giustificare il primo modello e distinguerlo dal secondo, ma non contiene ipotesi che qualsiasi modello sia "vero". Ad esempio, notare l'avvertenza "quando il modello è preciso". Perfino la parola "preciso" è stata scelta con un pensiero per evitare la cattiva impressione che esista un modello "vero" o "corretto".
whuber

1
Sono un po 'confuso, cos'è ? dik
Andy W,

1
@Andy e indicizzano due trattamenti distinti. Avrei dovuto scrivere "Per ..."; Risolverò quel refuso. Grazie per averlo catturato. jkj,k0
whuber

@whuber Ci sono riferimenti che supportano la tua affermazione, ad esempio per convincere i recensori?
Daniel,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.