In che modo esattamente un "controllo per altre variabili"?


141

Ecco l'articolo che ha motivato questa domanda: l' impazienza ci fa ingrassare?

Questo articolo mi è piaciuto e dimostra chiaramente il concetto di "controllo per altre variabili" (QI, carriera, reddito, età, ecc.) Al fine di isolare al meglio la vera relazione tra solo le 2 variabili in questione.

Puoi spiegarmi come controlli effettivamente le variabili in un set di dati tipico?

Ad esempio, se hai 2 persone con lo stesso livello di impazienza e BMI, ma redditi diversi, come trattate questi dati? Li categorizzi in diversi sottogruppi che hanno reddito, pazienza e BMI simili? Ma alla fine ci sono dozzine di variabili da controllare (QI, carriera, reddito, età, ecc.) Come aggregate questi (potenzialmente) 100 di sottogruppi? In effetti, ho la sensazione che questo approccio stia abbaiando l'albero sbagliato, ora che l'ho verbalizzato.

Grazie per aver fatto luce su qualcosa che intendevo raggiungere in fondo da qualche anno ...!


3
Epi & Bernd, grazie mille per aver provato a rispondere. Sfortunatamente, queste risposte sono un grande salto dalla mia domanda e sono sopra la mia testa. Forse è b / c non ho esperienza con R, e solo una base di Statistica 101 di base. Proprio come feedback sul tuo insegnamento, una volta che ti sei allontanato dall'IMC, dall'età, dall'impazienza, ecc. Verso la "covariata" e altri, mi hai completamente perso. Anche gli pseudo-dati generati automaticamente non sono stati utili per chiarire i concetti. In effetti, ha peggiorato le cose. È difficile imparare su dati fittizi senza significato intrinseco, a meno che tu non conosca già il principio che viene spiegato (cioè: Insegnante conosce i
JackOfTutti il

7
Grazie per aver posto questa domanda di fondamentale importanza, @JackOfAll - il sito sarebbe incompleto senza una domanda in tal senso - ho "preferito" questo. Le risposte qui sono state molto utili per me e apparentemente molti altri in base al numero di voti. Se, dopo aver riflettuto su questo, hai trovato le risposte utili (o le risposte a una qualsiasi delle tue domande), ti incoraggio a usare i tuoi voti e ad accettare una risposta se la trovi definitiva. Questo può essere fatto facendo clic sulle curve a campana rivolte verso l'alto accanto alla risposta e al segno di spunta, rispettivamente.
Macro

4
Questa non è una risposta completa o altro, ma penso che valga la pena di leggere "Mettiamo le regressioni del bidone della spazzatura e i rifiuti del bidone della spazzatura dove appartengono" di Chris Achen. (Link PDF: http://qssi.psu.edu/files/Achen_GarbageCan.pdf ) Ciò vale sia per gli approcci bayesiani che per quelli frequentisti. Basta inserire termini nel tuo set-up non è sufficiente per "controllare" gli effetti, ma purtroppo questo è ciò che passa per il controllo in molta letteratura.
ely,

9
Ti chiedi " come il software controlla matematicamente tutte le variabili allo stesso tempo ". Dici anche "Ho bisogno di una risposta che non implichi formule". Non vedo come sia possibile fare entrambe le cose contemporaneamente. Almeno non senza serio rischio di lasciarti con intuizione imperfetta.
Glen_b,

2
Sono sorpreso che questa domanda non abbia ricevuto più attenzione. Concordo con il commento del PO che altre domande sul sito non trattano esattamente il problema specifico sollevato qui. @Jen, la risposta molto breve alla tua (seconda) domanda è che le covariate multiple sono davvero parziali simultaneamente e non iterativamente come descrivi. Ora penserò a come sarebbe una risposta più dettagliata e intuitiva a queste domande.
Jake Westfall,

Risposte:


124

Esistono molti modi per controllare le variabili.

Il più semplice, e uno che ti è venuto in mente, è di stratificare i tuoi dati in modo da avere sottogruppi con caratteristiche simili - ci sono quindi metodi per raggruppare quei risultati insieme per ottenere una singola "risposta". Funziona se hai un numero molto piccolo di variabili per cui vuoi controllare, ma come hai giustamente scoperto, questo cade rapidamente a pezzi mentre dividi i tuoi dati in blocchi sempre più piccoli.

Un approccio più comune è quello di includere le variabili che si desidera controllare in un modello di regressione. Ad esempio, se si dispone di un modello di regressione che può essere concettualmente descritto come:

BMI = Impatience + Race + Gender + Socioeconomic Status + IQ

La stima che otterrai per Impatience sarà l'effetto di Impatience all'interno dei livelli delle altre covariate - la regressione ti consente di smussare essenzialmente i luoghi in cui non hai molti dati (il problema con l'approccio della stratificazione), anche se questo dovrebbe essere fatto con cautela.

Esistono modi ancora più sofisticati di controllo per altre variabili, ma le probabilità sono quando qualcuno dice "controllato per altre variabili", significa che sono state incluse in un modello di regressione.

Bene, hai chiesto un esempio su cui puoi lavorare, per vedere come va. Ti guiderò passo dopo passo. Tutto ciò che serve è una copia di R installata.

Innanzitutto, abbiamo bisogno di alcuni dati. Taglia e incolla i seguenti blocchi di codice in R. Tieni presente che questo è un esempio inventato che ho inventato sul posto, ma mostra il processo.

covariate <- sample(0:1, 100, replace=TRUE)
exposure  <- runif(100,0,1)+(0.3*covariate)
outcome   <- 2.0+(0.5*exposure)+(0.25*covariate)

Questi sono i tuoi dati. Si noti che conosciamo già la relazione tra il risultato, l'esposizione e la covariata - questo è il punto di molti studi di simulazione (di cui questo è un esempio estremamente semplice. Si inizia con una struttura che si conosce e ci si assicura che il metodo possa darti la risposta giusta.

Ora quindi, sul modello di regressione. Digita quanto segue:

lm(outcome~exposure)

Hai ricevuto un'intercetta = 2.0 e un'esposizione = 0,6766? O qualcosa di simile ad esso, dato che ci saranno alcune variazioni casuali nei dati? Bene: questa risposta è sbagliata. Sappiamo che è sbagliato. Perché è sbagliato? Non siamo riusciti a controllare una variabile che influenza il risultato e l'esposizione. È una variabile binaria, rendilo tutto ciò che ti piace - genere, fumatore / non fumatore, ecc.

Ora esegui questo modello:

lm(outcome~exposure+covariate)

Questa volta dovresti ottenere coefficienti di intercetta = 2,00, esposizione = 0,50 e una covariata di 0,25. Questa, come sappiamo, è la risposta giusta. Hai controllato per altre variabili.

Ora, cosa succede quando non sappiamo se ci siamo presi cura di tutte le variabili di cui abbiamo bisogno (non lo facciamo mai davvero)? Questo si chiama confondimento residuo , ed è una preoccupazione nella maggior parte degli studi osservazionali - che abbiamo controllato in modo imperfetto, e la nostra risposta, sebbene vicina a destra, non è esatta. Questo aiuta di più?


Grazie. Qualcuno sa un semplice esempio basato sulla regressione esempio online o in un libro di testo che posso elaborare?
JackOfTutti il

@JackOfAll Ci sono probabilmente centinaia di tali esempi: quali aree / tipi di domande ti interessano e quali pacchetti software puoi usare?
Fomite,

Bene, qualsiasi esempio accademico / inventato va bene per me. Ho Excel, che può fare una regressione multi-variabile, corretto? O ho bisogno di qualcosa come R per farlo?
JackOfTutti il

10
+1 Per aver risposto a questo senza la negatività che avrei usato. :) Nel linguaggio tipico, il controllo di altre variabili significa che gli autori le hanno gettate nella regressione. In realtà non significa che cosa pensano significhi se non hanno convalidato che le variabili sono relativamente indipendenti e che l'intera struttura del modello (di solito un qualche tipo di GLM) è fondata. In breve, la mia opinione è che ogni volta che qualcuno usa questa frase, significa che hanno ben pochi indizi sulle statistiche, e si dovrebbe ricalcolare i risultati usando il metodo di stratificazione offerto.
Iteratore,

7
@SibbsGambling Noterai che l'interrogatore originale ha chiesto un semplice esempio funzionante.
Fomite

57
  1. introduzione

    Mi piace la risposta di @ EpiGrad (+1) ma mi permetta di assumere una prospettiva diversa. Nel seguito mi riferirò a questo documento PDF: "Analisi di regressione multipla: stima" , che contiene una sezione sull'interpretazione "Partialling Out" della regressione multipla "(p. 83f.). Sfortunatamente, non ho idea di chi sia l'autore di questo capitolo e mi riferirò ad esso come REGCHAPTER. Una spiegazione simile può essere trovata in Kohler / Kreuter (2009) "Analisi dei dati usando gli stati" , capitolo 8.2.3 "Che cosa significa" sotto controllo "?

    Userò l'esempio di @EpiGrad per spiegare questo approccio. Codice R e risultati sono disponibili in Appendice.

    Va anche notato che il "controllo per altre variabili" ha senso solo quando le variabili esplicative sono moderatamente correlate (collinearità). Nell'esempio sopra citato, la correlazione Prodotto-Momento tra exposuree covariateè 0,50, ovvero

    > cor(covariate, exposure)
    [1] 0.5036915
  2. residui

    Presumo che tu abbia una conoscenza di base del concetto di residui nell'analisi di regressione. Ecco la spiegazione di Wikipedia : "Se si esegue una regressione su alcuni dati, le deviazioni delle osservazioni variabili dipendenti dalla funzione adattata sono i residui".

  3. Cosa significa "sotto controllo"?

    Controllando per la variabile covariate, l'effetto (peso di regressione) di exposureon outcomepuò essere descritto come segue (sono sciatto e salto la maggior parte degli indici e tutti i cappelli, fare riferimento al testo sopra citato per una descrizione precisa):

    β1=residi1yiresidi12

    residi1 sono i residui quando abbiamo regredire exposuresu covariate, ad esempio,

    exposure=const.+βcovariatecovariate+resid

    I "residui [..] sono la parte di che non è correlata a . [...] Pertanto, misura la relazione di esempio tra e dopo che è stato parzialmente cancellato "(REGOLAMENTO 84). "Partialled out" significa "controllato per".xi1xi2β^1yx1x2

    Dimostrerò questa idea usando i dati di esempio di @ EpiGrad. In primo luogo, mi regredire exposuresu covariate. Poiché sono interessato solo ai residui lmEC.resid, ometto l'output.

    summary(lmEC <- lm(exposure ~ covariate))
    lmEC.resid   <- residuals(lmEC)

    Il prossimo passo è regredire outcomesu questi residui ( lmEC.resid):

    [output omitted]
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
    lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
    ---
    Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
    
    [output omitted]

    Come puoi vedere, il peso di regressione per lmEC.resid(vedi colonna Stima, ) in questa semplice regressione è uguale al peso di regressione multipla per , che è anche (vedi la risposta di @ EpiGrad o l'output R sotto).0,50βlmEC.resid=0.50covariate0.50

Appendice

Codice R

set.seed(1)
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)

## Simple regression analysis
summary(lm(outcome ~ exposure))

## Multiple regression analysis
summary(lm(outcome ~ exposure + covariate))

## Correlation between covariate and exposure
cor(covariate, exposure)

## "Partialling-out" approach
## Regress exposure on covariate
summary(lmEC <- lm(exposure ~ covariate))
## Save residuals
lmEC.resid <- residuals(lmEC)
## Regress outcome on residuals
summary(lm(outcome ~ lmEC.resid))

## Check formula
sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))

Uscita R

> set.seed(1)
> covariate <- sample(0:1, 100, replace=TRUE)
> exposure <- runif(100,0,1)+(0.3*covariate)
> outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
> 
> ## Simple regression analysis
> summary(lm(outcome ~ exposure))

Call:
lm(formula = outcome ~ exposure)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.183265 -0.090531  0.001628  0.085434  0.187535 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.98702    0.02549   77.96   <2e-16 ***
exposure     0.70103    0.03483   20.13   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.109 on 98 degrees of freedom
Multiple R-squared: 0.8052,     Adjusted R-squared: 0.8032 
F-statistic: 405.1 on 1 and 98 DF,  p-value: < 2.2e-16 

> 
> ## Multiple regression analysis
> summary(lm(outcome ~ exposure + covariate))

Call:
lm(formula = outcome ~ exposure + covariate)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.765e-16 -7.450e-18  4.630e-18  1.553e-17  4.895e-16 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 2.000e+00  2.221e-17 9.006e+16   <2e-16 ***
exposure    5.000e-01  3.508e-17 1.425e+16   <2e-16 ***
covariate   2.500e-01  2.198e-17 1.138e+16   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.485e-17 on 97 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 3.322e+32 on 2 and 97 DF,  p-value: < 2.2e-16 

> 
> ## Correlation between covariate and exposure
> cor(covariate, exposure)
[1] 0.5036915
> 
> ## "Partialling-out" approach
> ## Regress exposure on covariate
> summary(lmEC <- lm(exposure ~ covariate))

Call:
lm(formula = exposure ~ covariate)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.49695 -0.24113  0.00857  0.21629  0.46715 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.51003    0.03787  13.468  < 2e-16 ***
covariate    0.31550    0.05466   5.772  9.2e-08 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2731 on 98 degrees of freedom
Multiple R-squared: 0.2537,     Adjusted R-squared: 0.2461 
F-statistic: 33.32 on 1 and 98 DF,  p-value: 9.198e-08 

> ## Save residuals
> lmEC.resid <- residuals(lmEC)
> ## Regress outcome on residuals
> summary(lm(outcome ~ lmEC.resid))

Call:
lm(formula = outcome ~ lmEC.resid)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1957 -0.1957 -0.1957  0.2120  0.2120 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2058 on 98 degrees of freedom
Multiple R-squared: 0.3057,     Adjusted R-squared: 0.2986 
F-statistic: 43.15 on 1 and 98 DF,  p-value: 2.45e-09 

> 
> ## Check formula
> sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))
[1] 0.5
> 

5
Quel capitolo assomiglia a Baby Wooldridge (alias Econometria introduttiva: un approccio moderno di Jeffrey M. Wooldridge)
Dimitriy V. Masterov,

2
Potrei fraintendere qualcosa, ma perché non è necessario regredire anche i risultati sulla covariata e infine regredire i residui di risultato sui residui di esposizione?
hlinee,

@hlinee ha ragione. Puoi spiegare perché non lo fai?
Serpentese il

41

Naturalmente verrà coinvolta della matematica, ma non è molto: Euclide l'avrebbe capito bene. Tutto quello che devi veramente sapere è come aggiungere e ridimensionare i vettori. Anche se oggigiorno si chiama "algebra lineare", è sufficiente visualizzarla in due dimensioni. Questo ci consente di evitare i meccanismi a matrice dell'algebra lineare e di concentrarci sui concetti.


Una storia geometrica

Nella prima figura, è la somma di e . (Un vettore ridimensionato in base a un fattore numerico ; lettere greche (alpha), (beta) e (gamma) si riferiscono a tali fattori di scala numerica.)y 1 α x 1 x 1 α α β γyy1αx1x1ααβγ

Figura 1

Questa figura in realtà è iniziata con i vettori originali (mostrati come linee ) e . La "corrispondenza" dei minimi quadrati da a viene trovata prendendo il multiplo di che si avvicina di più a nel piano della figura. Ecco come è stato trovato . Portando via questa partita da sinistra , il residuo di rispetto a . (Il punto " " indicherà costantemente quali vettori sono stati "abbinati", "eliminati" o "controllati".) y y x 1 x 1 y α y y 1 y x 1x1yyx1x1yαyy1yx1

Possiamo abbinare altri vettori a . Ecco un'immagine in cui stato abbinato a , esprimendolo come un multiplo di più il suo residuo :x 2 x 1 β x 1 x 2 1x1x2x1βx1x21

figura 2

(Non importa che il piano contenente e possa differire dal piano contenente e : queste due figure sono ottenute indipendentemente l'una dall'altra. Tutto quello che hanno in comune è il vettore .) Allo stesso modo, qualsiasi numero dei vettori può essere associato a .x 2 x 1 y x 1 x 3 , x 4 , x 1x1x2x1yx1x3,x4,x1

Consideriamo ora il piano contenente i due residui e . Orienterò l'immagine per rendere orizzontale, proprio come ho orientato le immagini precedenti per rendere orizzontale, perché questa volta avrà il ruolo di matcher: x 2 1 x 2 1 x 1 x 2 1y1x21x21x1x21

Figura 3

Si noti che in ciascuno dei tre casi, il residuo è perpendicolare alla partita. (In caso contrario, potremmo regolare la corrispondenza per avvicinarla ancora di più a , o .)x 2 y 1yx2y1

L'idea chiave è che quando arriviamo all'ultima cifra, entrambi i vettori coinvolti ( e ) sono già perpendicolari a , per costruzione. Pertanto, qualsiasi successiva regolazione su comporta modifiche perpendicolari a . Di conseguenza, la nuova corrispondenza e il nuovo residuo rimangono perpendicolari a . y 1 x 1 y 1 x 1 γ x 2 1 y 12 x 1x21y1x1y1x1γx21y12x1

(Se sono coinvolti altri vettori, procederemmo allo stesso modo per abbinare i loro residui a .)x31,x41,x2

C'è un altro punto importante da sottolineare. Questa costruzione ha prodotto un residuo che è perpendicolare a e . Ciò significa che è anche il residuo nello spazio (regno euclideo tridimensionale) attraversato da e . Cioè, questo processo in due passaggi di abbinamento e acquisizione dei residui deve aver trovato la posizione nel piano più vicino a . Dato che in questa descrizione geometrica non importa quale di e arrivato per primo, lo concludiamoy12x1x2y12x1,x2,yx1,x2yx1x2se il processo fosse stato eseguito nell'altro ordine, iniziando con come corrispondente e quindi utilizzando , il risultato sarebbe stato lo stesso.x2x1

(Se ci sono altri vettori, continueremmo questo processo di "eliminazione di un matcher" fino a quando ciascuno di quei vettori non avesse avuto il suo turno di essere il matcher. In ogni caso le operazioni sarebbero le stesse mostrate qui e si sarebbero sempre verificate in un piano .)


Applicazione alla regressione multipla

Questo processo geometrico ha un'interpretazione diretta della regressione multipla, poiché le colonne di numeri si comportano esattamente come vettori geometrici. Hanno tutte le proprietà di cui abbiamo bisogno per i vettori (assiomaticamente) e quindi possono essere pensate e manipolate allo stesso modo con perfetta precisione matematica e rigore. In un ambiente con le variabili di regressione multipla , , e , l'obiettivo è quello di trovare una combinazione di e ( ecc ) che più si avvicina a . Dal punto di vista geometrico, tutte queste combinazioni di e ( eccX1X2,YX1X2YX1X2) corrispondono ai punti nello spazio . Adattare coefficienti di regressione multipli non è altro che proiettare ("abbinare") i vettori. L'argomento geometrico lo ha dimostratoX1,X2,

  1. La corrispondenza può essere eseguita in sequenza e

  2. L'ordine in cui viene eseguita la corrispondenza non ha importanza.

Il processo di "eliminazione" di un matcher sostituendo tutti gli altri vettori con i loro residui viene spesso definito "controllo" per il matcher. Come abbiamo visto nelle figure, una volta controllato un matcher, tutti i calcoli successivi apportano rettifiche perpendicolari a quel matcher. Se lo desideri, potresti pensare di "controllare" come "contabilità (nel senso meno quadrato) del contributo / influenza / effetto / associazione di un matcher su tutte le altre variabili".


Riferimenti

Puoi vedere tutto questo in azione con dati e codice funzionante nella risposta su https://stats.stackexchange.com/a/46508 . Questa risposta potrebbe attrarre maggiormente le persone che preferiscono l'aritmetica rispetto alle immagini in aereo. (L'aritmetica per regolare i coefficienti man mano che i matcher vengono introdotti in sequenza è comunque semplice.) Il linguaggio di matching è di Fred Mosteller e John Tukey.


1
Altre illustrazioni in tal senso si possono trovare nel libro di Wicken "La geometria delle statistiche multivariate" (1994). Alcuni esempi sono in questa risposta .
Caracal,

2
@Caracal Grazie per i riferimenti. Inizialmente immaginavo una risposta che utilizza diagrammi come quelli nella tua risposta - che costituiscono un meraviglioso complemento alla mia risposta qui - ma dopo averli creati ho sentito che le figure pseudo-3D potrebbero essere troppo complesse e ambigue per essere del tutto adatte. Mi ha fatto piacere scoprire che l'argomento poteva essere completamente ridotto alle più semplici operazioni vettoriali sul piano. Potrebbe anche valere la pena sottolineare che un centraggio preliminare dei dati non è necessario, poiché viene gestito includendo un vettore costante diverso da zero tra . xi
whuber

1
Adoro questa risposta perché dà molta più intuizione dell'algebra. A proposito, non sono sicuro se hai controllato il canale YouTube di questo ragazzo . Mi è piaciuto molto
Haitao Du

3

Finora c'è una discussione eccellente sull'adeguamento della covariata come mezzo per "controllare altre variabili". Ma penso che sia solo una parte della storia. In effetti, ci sono molte (altre) strategie basate su progettazione, modello e apprendimento automatico per affrontare l'impatto di una serie di possibili variabili confondenti. Questa è una breve rassegna di alcuni dei più importanti argomenti (non aggiustamento). Mentre l'adattamento è il mezzo più ampiamente usato per "controllare" per altre variabili, penso che un buon statistico dovrebbe avere una comprensione di ciò che fa (e non fa) nel contesto di altri processi e procedure.

Corrispondenza:

La corrispondenza è un metodo per progettare un'analisi accoppiata in cui le osservazioni sono raggruppate in gruppi di 2 che sono altrimenti simili nei loro aspetti più importanti. Ad esempio, potresti assaggiare due persone che sono concordanti nella loro istruzione, reddito, possesso professionale, età, stato civile, (ecc. Ecc.) Ma che sono discordanti in termini di impazienza. Per le esposizioni binarie, il semplice test accoppiato-t è sufficiente per verificare una differenza media nel loro controllo dell'IMC per tutte le funzionalità corrispondenti. Se si sta modellando un'esposizione continua, una misura analoga sarebbe un modello di regressione attraverso l'origine delle differenze. Vedi Carlin 2005

E[Y1Y2]=β0(X1X2)

ponderazione

La ponderazione è ancora un'altra analisi univariata che modella l'associazione tra un predittore continuo o binario e un risultato modo che la distribuzione dei livelli di esposizione sia omogenea tra i gruppi. Questi risultati sono generalmente riportati come standardizzati come la mortalità standardizzata per età per due paesi o diversi ospedali. La standardizzazione indiretta calcola una distribuzione dei risultati attesi dai tassi ottenuti in una popolazione "di controllo" o "sana" che è proiettata alla distribuzione degli strati nella popolazione di riferimento. La standardizzazione diretta va dall'altra parte. Questi metodi vengono generalmente utilizzati per un risultato binario. Ponderazione del punteggio di propensioneYXYtiene conto della probabilità di un'esposizione binaria e controlla tali variabili al riguardo. È simile alla standardizzazione diretta per un'esposizione. Vedi Rothman, Modern Epidemiology 3rd edition.

Randomizzazione e quasirandomizzazione

È un punto sottile, ma se sei effettivamente in grado di randomizzare le persone a una determinata condizione sperimentale, l'impatto di altre variabili è mitigato. È una condizione notevolmente più forte, perché non hai nemmeno bisogno di sapere quali sono quelle altre variabili. In questo senso, hai "controllato" per la loro influenza. Ciò non è possibile nella ricerca osservazionale, ma risulta che i metodi del punteggio di propensione creano una semplice misura probabilistica per l'esposizione che consente di ponderare, adattare o abbinare i partecipanti in modo che possano essere analizzati nello stesso modo di uno studio quasi randomizzato . Vedi Rosenbaum, Rubin 1983 .

microsimulazione

Un altro modo di simulare i dati che potrebbero essere stati ottenuti da uno studio randomizzato è quello di eseguire la microsimulazione. Qui, si può effettivamente rivolgere la propria attenzione a modelli di machine learning più grandi e sofisticati. Un termine che Judea Pearl ha coniato che mi piace è " Oracle Models ": reti complesse che sono in grado di generare previsioni e previsioni per una serie di caratteristiche e risultati. Si scopre che si possono "ripiegare" le informazioni di un tale modello di oracolo per simulare i risultati in una coorte equilibrata di persone che rappresentano una coorte randomizzata, equilibrata nella loro distribuzione "variabile di controllo" e usando semplici routine di test t per valutare grandezza e precisione delle possibili differenze. Vedi Rutter, Zaslavsky e Feuer 2012

L'adattamento, la ponderazione e la regolazione della covariata in un modello di regressione stimano tutti le stesse associazioni, e quindi tutti possono essere rivendicati come modi di "controllare" per altre variabili .


Totalmente sopra la mia testa.
JackOfTutti l'

È una risposta alla domanda che è stata posta, la buona discussione finora è in qualche modo unilaterale a favore dell'adattamento nei modelli multivariati.
AdamO,

Modelli multivariati, abbinamento, ecc. Sono tutte tecniche valide, ma quando un ricercatore utilizza in genere una tecnica rispetto a un'altra?
mnmn

-1

Il software non controlla letteralmente le variabili. Se hai familiarità con la notazione matriciale della regressione , allora potresti ricordare che la soluzione dei minimi quadrati è . Quindi, il software valuta numericamente questa espressione usando metodi di algebra lineare computazionale.b = ( X T X ) - 1 X T YY=Xβ+εb=(XTX)1XTY


4
Grazie per aver l'opportunità di offrire queste informazioni. Affinché la risposta soddisfi i bisogni indicati nella domanda, dovremmo conoscere il significato del primo nella seconda espressione e il significato della seconda espressione. Capisco che la pendenza è il cambiamento in un asse rispetto al cambiamento nell'altro. Ricorda, la notazione è un linguaggio speciale che è stato originariamente creato e appreso usando un vocabolario non notazionale. Raggiungere le persone che non conoscono la lingua richiede l'uso di altre parole e questa è la sfida continua di portare la conoscenza attraverso le discipline.
Jen,

2
Una volta che entri in regressioni multivariate, non c'è modo di procedere senza algebra lineare. Il link Wiki contiene tutte le descrizioni delle variabili. Qui, posso dire che indica una trasposizione della matriceDovresti imparare come è costruita la matrice di progettazione. È troppo lungo per spiegarlo qui. Leggi Wiki che ho pubblicato, ha molte informazioni. A meno che tu non capisca l'algebra lineare, non sarai in grado di rispondere alla tua domanda in modo significativo, temo. XXX
Aksakal,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.