Come simulare i risultati multivariati in R?

10

Nella maggior parte dei casi, trattiamo solo una variabile risultato / risposta come . Tuttavia, in alcuni scenari, in particolare nei dati clinici, le variabili di risultato possono essere ad alta dimensione / multivariate. Come , dove contiene , e e questi risultati sono tutti correlati. Se rappresenta il trattamento (sì / no), come posso simulare questo tipo di dati in R? $y = a + bx +\epsilon$ $\mathsf{Y} = \beta{x} + \mathsf{\epsilon}$ $\mathsf{Y}$ $Y_1$ $Y_2$ $Y_3$ $x$

Un esempio di vita reale, ogni paziente riceve uno dei 2 tipi di interventi chirurgici di bypass e i ricercatori misurano ogni paziente con dolore, gonfiore, affaticamento ... ecc. Dopo l'intervento di bypass (ogni sintomo è compreso tra 0 e 10). I "presumo" gli esiti (gravità dei sintomi) sono normali multivariati. Spero che questo esempio reale possa chiarire la mia domanda. Molte grazie in anticipo.

r cross-validation

— Tu.2
fonte

Che distribuzione ha ? Se è normale multivariato, dai un'occhiata alla libreria mnormt in R.

Y

${\bf Y}$

— Macro

Questa domanda è piuttosto ampia perché i "dati multivariati" coprono molto terreno. Quale specifica applicazione hai in mente?

— whuber

Aggiungo solo un esempio reale, che dovrebbe essere utile. grazie

— Mart.2

9

Simula valori normali multivariati con mvtnorm::rmvnorm. Non sembra funzionare abbastanza come i generatori di numeri casuali univariati, che consentono di specificare vettori di parametri, ma questa limitazione è semplice da aggirare.

Ad esempio, considera il modello

E (y_{1}, y_{2}, y_{3}) = (- 1 + x, 2 x, 1 - 3 x)

$E(y_1,y_2,y_3) = (-1+x, 2x, 1-3x)$

dove ha una distribuzione normale multivariata e , e . Specifichiamo questa matrice di covarianza in R: $\mathbf{y}$ $\text{Var}(y_i)=1$ $\text{Cov}(y_1, y_2) = \text{Cov}(y_2, y_3) = 0.5$ $\text{Cov}(y_1,y_3)=0$

sigma <- matrix(c(1,   0.5, 0,  
                  0.5, 1,   0.5,
                  0,   0.5, 1  ), 3, 3)

Per sperimentare, generiamo alcuni dati per questo modello lasciando che vari da a , con tre repliche ogni volta. Dobbiamo includere anche termini costanti: $x$ $1$ $10$

data <- cbind(rep(1,10*3), rep(1:10,3))

Il modello determina i mezzi:

beta <- matrix(c(-1,1,  0,2,  1,-3), 2, 3)
means <- data %*% beta

La soluzione alternativa per generare più risultati multivariati consiste nell'utilizzare apply:

library(mvtnorm) # Contains rmvnorm
sample <- t(apply(means, 1, function(m) rmvnorm(1, mean=m, sigma=sigma)))

— whuber
fonte

2

Le reti bayesiane (BN) sono comunemente usate nel contesto che descrivi. Come modello generativo , un BN ti consentirebbe di rappresentare le dipendenze statistiche tra le variabili del tuo dominio, che nel tuo caso possono essere suddivise in 1) pre-trattamento, 2) trattamento e 3) variabili post-trattamento. È possibile addestrare il modello sui dati del paziente esistente e quindi inserire prove (compilare i valori osservati) per un paziente specifico per studiare in che modo i valori osservati influenzano altre variabili (inclusi quelli che sono stati etichettati come risultato, ad esempio post-trattamento).

Un trucco accurato è che puoi effettivamente valutare l'effetto di diversi tipi di trattamento sulle variabili dei risultati. Questo si chiama intervento . Se interessati, abbiamo un documento pertinente qui .

— Zhubarb
fonte