Posso dimostrare che è di parte (penso), ma non riesco a spiegare il perché. Spero che qualcuno possa vedere la mia risposta e aiutare a spiegarla di più.
Come in molte meta-analisi e nell'immagine che hai pubblicato, molte persone interpretano il BESD come: Se dovessi dividere medialmente entrambe le variabili, inseriresti accuratamente le persone nelle celle "giuste" di una tabella di contingenza 2 x 2 una data percentuale di il tempo.
.50 + r / 2 = .70r
r
r = .38.50 + r / 2
Ho quindi preso la deviazione media e standard di ciascuno di questi vettori di 10.000 di lunghezza. Il codice:
library(MASS)
# set population params
mu <- rep(0,2)
Sigma <- matrix(.38, nrow=2, ncol=2) + diag(2)*.62
# set seed
set.seed(1839)
# generate population
pop <- as.data.frame(mvrnorm(n=1000000, mu=mu, Sigma=Sigma))
# initialize vectors
besd_correct <- c()
actual_correct <- c()
# actually break up raw data by median split, see how it works
for (i in 1:10000) {
samp <- pop[sample(1:1000000, 100),]
besd_correct[i] <- round(100*(.50 + cor(samp)[1,2]/2),0)
samp$V1_split <- ifelse(samp$V1 > median(samp$V1), 1, 0)
samp$V2_split <- ifelse(samp$V2 > median(samp$V2), 1, 0)
actual_correct[i] <- with(samp, table(V1_split==V2_split))[[2]]
}
# cells for BESD
mean(besd_correct)
100 - mean(besd_correct)
# cells for actual 2 x 2 table with median split
mean(actual_correct)
100 - mean(actual_correct)
Sulla base di BESD, otteniamo questa tabella, dove v1
e si v2
riferiscono alle variabili low
e si high
riferiscono rispettivamente al di sotto e al di sopra della mediana:
+---------+--------+---------+
| | v2 low | v2 high |
+---------+--------+---------+
| v1 low | 69 | 31 |
+---------+--------+---------+
| v1 high | 31 | 69 |
+---------+--------+---------+
Sulla base di una divisione mediana effettiva con i dati grezzi, otteniamo questa tabella:
+---------+--------+---------+
| | v2 low | v2 high |
+---------+--------+---------+
| v1 low | 62 | 38 |
+---------+--------+---------+
| v1 high | 38 | 62 |
+---------+--------+---------+
Quindi, mentre qualcuno potrebbe sostenere, usando BESD, che esiste una "differenza di 38 punti percentuali nel controllo e nella sperimentazione", la divisione mediana effettiva ha questo numero a 24.
Non sono sicuro del perché questo accada, o se dipende dalla dimensione del campione e dalla correlazione (si potrebbero facilmente fare più simulazioni per capire), penso che questo dimostri che è distorto. Mi piacerebbe se qualcuno potesse entrare con una spiegazione matematica, piuttosto che computazionale.