Per rispondere alla tua domanda letterale, "È valido includere una misura di base come variabile di controllo quando si verifica l'effetto di una variabile indipendente sui punteggi delle modifiche?", La risposta è no . La risposta è no, perché per costruzione il punteggio di base è correlato al termine di errore quando il punteggio di variazione viene utilizzato come variabile dipendente, quindi l'effetto stimato della linea di base sul punteggio di modifica non è interpretabile.
utilizzando
- come peso inizialeY1
- come peso finaleY2
- come variazione di peso (ovvero Δ YΔY )ΔY=Y2−Y1
- cometrattamentoassegnato in modo casualeeT
- come altri fattori esogeni che influenzano il peso (ad esempio altre variabili di controllo correlate al risultato ma che non devono essere correlate al trattamento a causa di assegnazione casuale)X
Uno ha quindi un modello che regredisce ΔY su e X ;TX
ΔY=β1T+β2X+e
Che per definizione equivale a;
Y2−Y1=β1T+β2X+e
Ora, se includi la linea di base come covariata, dovresti vedere un problema, in quanto hai il termine su entrambi i lati dell'equazione. Questo dimostra che β 3 YY1 non è interpretabile, poiché èintrinsecamentecorrelato al termine di errore.β3Y1
Y2−Y1Y2=β1T+β2X+β3Y1+e=β1T+β2X+β3Y1+(e+Y1)
Ora, parte della confusione nelle varie risposte sembra derivare dal fatto che modelli diversi produrranno risultati identici per l' effetto del trattamento , nella mia precedente formulazione. Quindi, se si dovesse confrontare l'effetto del trattamento per il modello usando i punteggi di cambiamento come variabile dipendente rispetto al modello usando i "livelli" (con ogni modello includendo la linea di base Y 1 come covariata), l'interpretazione dell'effetto del trattamento sarebbe lo stesso. Nei due modelli che seguono β 1 T saranno gli stessi, così come le inferenze basate su di essi (Bruce Weaver ha pubblicato un codice SPSS che dimostra anche l'equivalenza).β1TY1β1T
Change Score ModelLevels Model:Y2−Y1=β1T+β2X+β3Y1+e:Y2=β1T+β2X+β3Y1+e
Quindi alcuni discuteranno (come ha fatto Felix in questa discussione e come ha fatto Bruce Weaver in alcune discussioni sul gruppo google di SPSS) che poiché i modelli producono lo stesso effetto terapeutico stimato, non importa quale si sceglie. Non sono d'accordo, poiché la covariata di base nel modello del punteggio di cambiamento non può essere interpretata, non si dovrebbe mai includere la covariata di base come covariata (indipendentemente dal fatto che l'effetto del trattamento stimato sia lo stesso o meno). Quindi, ciò solleva un'altra domanda: qual è lo scopo nell'utilizzare i punteggi delle modifiche come variabili dipendenti? Come già notato da Felix, il modello che utilizza il punteggio di modifica come variabile dipendente escludendo la linea di base come covariata è diverso dal modello che utilizza i livelli. Per chiarire, i modelli successivi daranno effetti di trattamento diversi (specialmente nel caso in cui il trattamento sia correlato al basale);
Ch a n ge S core Model Without BaselineLevels Model:Y2−Y1=β1T+β2X+e:Y2=β1T+β2X+β3Y1+e
Questo è stato notato nella letteratura precedente come "Lord's Paradox". Quindi quale modello è giusto? Bene, nel caso di esperimenti randomizzati, direi che è preferibile il modello Levels (anche se se hai fatto un buon lavoro randomizzando, l'effetto del trattamento medio dovrebbe essere molto vicino tra i modelli). Altri hanno notato motivi per cui è preferibile il modello dei livelli, la risposta di Charlie sottolinea che è possibile stimare gli effetti di interazione con la linea di base nel modello dei livelli (ma non è possibile nel modello di punteggio delle modifiche). Il whuber in questa risposta a una domanda molto simile dimostra come i punteggi di cambiamento inducano correlazioni tra i diversi trattamenti.
In situazioni in cui il trattamento non è assegnato in modo casuale, il modello che utilizza i punteggi di cambiamento come variabile dipendente dovrebbe essere preso in maggiore considerazione. Il vantaggio principale del modello di punteggio di cambiamento è che ogni volta che vengono controllati predittori invarianti del risultato. Quindi diciamo nella formulazione sopra, è costante nel tempo (per esempio diciamo che una predisposizione genetica è ad un certo peso), e che X è correlata con se un individuo sceglie di esercitare (eXX non sia osservata). In tal caso, è preferibile il modello di punteggio di modifica. Anche nei casi in cui la selezione in trattamento è correlata al valore basale, può essere preferibile il modello di punteggio di cambiamento. Paul Allison nel suo documento,XCambia punteggi come variabili dipendenti nell'analisi di regressione , fornisce questi stessi esempi (e ha influenzato in gran parte la mia prospettiva sull'argomento, quindi consiglio vivamente di leggerlo).
Ciò non significa che i punteggi delle modifiche siano sempre preferibili in impostazioni non casuali. Nel caso in cui si preveda che la linea di base abbia un reale effetto causale sul peso del post, è necessario utilizzare il modello dei livelli. Nel caso in cui si preveda che la linea di base abbia un effetto causale e che la selezione in trattamento sia correlata alla linea di base, l'effetto del trattamento viene confuso con l'effetto di base.
Ho ignorato la nota di Charlie secondo cui il logaritmo del peso poteva essere usato come variabile dipendente. Anche se non dubito che potrebbe essere una possibilità, è in qualche modo non sequitur alla domanda iniziale. Un'altra domanda è stata discussa quando è opportuno utilizzare i logaritmi della variabile (e quelli ancora applicabili in questo caso). Probabilmente esiste una letteratura precedente sull'argomento che potrebbe aiutarti a capire se anche l'uso del peso registrato è appropriato.
Citazione
Allison, Paul D. 1990. Cambia i punteggi come variabili dipendenti nell'analisi di regressione . Metodologia sociologica 20: 93-114. Versione PDF pubblica .