Un potenziale disordine nel disegno di un esperimento


12

Panoramica della domanda

Avvertenza: questa domanda richiede molte impostazioni. Per favore abbi pazienza.

Un mio collega e io stiamo lavorando a un progetto di esperimento. Il progetto deve aggirare un gran numero di vincoli, che elencherò di seguito. Ho sviluppato un design che soddisfa i vincoli e che ci fornisce stime imparziali dei nostri effetti di interesse. Tuttavia, il mio collega ritiene che il design sia confuso. Abbiamo discusso questo punto fino alla nausea senza giungere a una risoluzione, quindi a questo punto vorrei alcune opinioni esterne.

Descriverò l'obiettivo dello studio, i nostri vincoli, il potenziale disordine e perché credo che questo "disordine" non sia un problema di seguito. Mentre leggi ogni sezione, tieni presente la mia domanda generale:

C'è un disordine nel design che descrivo?

[I dettagli di questo esperimento sono stati modificati, ma gli elementi essenziali richiesti per porre la mia domanda rimangono gli stessi]

Obiettivi dell'esperimento

Desideriamo determinare se i saggi scritti dai maschi bianchi sono valutati in modo più favorevole rispetto ai saggi scritti da femmine bianche, maschi neri o femmine nere (la variabile di autore del saggio ). Desideriamo anche determinare se eventuali distorsioni riscontrate si manifestano maggiormente nelle sovvenzioni di alta o bassa qualità (la variabile di qualità ). Infine, desideriamo includere saggi scritti su 12 argomenti diversi (la variabile argomento ). Tuttavia, solo le prime due variabili sono di notevole interesse; sebbene l'argomento debba variare tra i saggi, non siamo sostanzialmente interessati a come le valutazioni variano tra gli argomenti.

vincoli

  1. Ci sono limiti sia al numero di partecipanti che al numero di saggi che possiamo raccogliere. Il risultato è che la paternità non può essere manipolata interamente tra i partecipanti, né può essere manipolata interamente tra i saggi (cioè ogni singolo saggio deve essere assegnato a più condizioni).
  2. Sebbene ogni saggio possa avere versioni White male, White female, Black male e Black female, ogni saggio può essere solo di alta e bassa qualità e può riguardare solo un argomento. Oppure, per mettere questo vincolo in modo diverso, né la qualità né l'argomento possono essere manipolati all'interno dei saggi, poiché sono caratteristiche intrinseche di un determinato saggio.
  3. A causa dell'affaticamento, esiste un limite al numero di saggi che un determinato partecipante può valutare.
  4. Tutti i saggi che una determinata persona legge devono riguardare un singolo argomento. In altre parole, i saggi non possono essere assegnati interamente a caso ai partecipanti, poiché è necessario assicurarsi che ciascun partecipante legga solo saggi di un argomento simile.
  5. Ogni partecipante può visualizzare solo un saggio presumibilmente scritto da un autore di sesso maschile non bianco, dal momento che non vogliamo che i partecipanti diventino sospettosi riguardo allo scopo dell'esperimento perché troppi dei loro saggi sono scritti da autori neri o femminili.

Il design proposto

Il mio progetto proposto prima manipola ogni saggio nelle 4 diverse versioni d'autore (White male, White female, ecc.). Quattro saggi di un argomento simile vengono quindi utilizzati per definire un "insieme", ciascuno dei quali consiste in due saggi di alta e due di bassa qualità. Ogni partecipante riceve tre saggi da un determinato set come segue nella figura sotto riportata. Ogni partecipante fornisce quindi una valutazione singola a ciascuno dei tre saggi a cui è assegnato.

Esperimento di design

Il potenziale confusione

Il mio collega ritiene che il disegno sopra riportato contenga confusione. Il problema, dice, è che, quando un saggio di alta qualità è assegnato per essere scritto da uno scrittore maschio non bianco, è sempre associato a un saggio di alta qualità e un saggio di bassa qualità (per Saggio 1, vedere Partecipanti 1-3 nella figura). D'altra parte, quando lo stesso saggio è assegnato all'autore di scrittori maschi bianchi, è abbinato a un saggio di alta qualità e un saggio di bassa qualità tre volte (per Saggio 1, Partecipanti 4-6) e due saggi di bassa qualità tre volte (per Saggio 1, Partecipanti 7-9).

Un problema simile esiste per saggi di bassa qualità. Quando un saggio di bassa qualità ha un autore maschio non bianco, viene sempre visto con un saggio di bassa qualità e un saggio di alta qualità (per Saggio 3, vedere Partecipanti 7-9). Tuttavia, quando lo stesso saggio ha un autore maschio bianco, viene visto con un saggio di alta qualità e un saggio di bassa qualità tre volte (per Saggio 3, Partecipanti 10-12) e con due saggi di alta qualità tre volte (per Saggio 3, Partecipanti 1-3).

Il motivo per cui i modelli sopra potrebbero essere problematici è se assumiamo l'esistenza di "effetti di contrasto". In particolare, se i saggi di alta qualità sono valutati in modo più favorevole in media quando sono accoppiati con due saggi di bassa qualità rispetto a quando sono accoppiati con un saggio di bassa qualità e un saggio di alta qualità (un presupposto ragionevole), i saggi maschili bianchi possono ricevere voti più alti di Saggi sulle donne bianche, sui maschi neri e sulle femmine nere per motivi diversi dalla paternità.

Un effetto di contrasto per saggi di alta qualità può o meno essere bilanciato da un effetto di contrasto per saggi di bassa qualità; cioè, può essere o meno il caso che saggi di bassa qualità abbinati a due saggi di alta qualità siano valutati in modo particolarmente sfavorevole. Indipendentemente da ciò, afferma il mio collega, il potenziale di effetti di contrasto di qualsiasi tipo rende questo progetto problematico al fine di determinare se i saggi scritti dai maschi bianchi sono valutati in modo più favorevole rispetto ai saggi di altri autori.

Perché credo che il potenziale disordine non sia un problema

Ciò che conta per me è se siamo in grado di stimare il grado in cui i saggi maschili bianchi sono valutati in modo diverso rispetto ad altri saggi (cioè se siamo in grado di stimare i nostri effetti di interesse), anche in presenza di effetti di contrasto. Ho quindi condotto una simulazione in cui ho simulato 50 set di dati che contenevano effetti di contrasto e si adattavano a un modello che verifica i nostri effetti di interesse.

Il modello specifico è un modello di effetti misti con intercettazioni casuali per il saggio (ogni saggio è valutato da più partecipanti) e partecipante (ogni partecipante valuta più saggi). Il livello del saggio contiene anche pendenze casuali per razza, genere e loro interazione (entrambe le variabili sono manipolate all'interno del saggio) e il livello del partecipante contiene una pendenza casuale per la qualità (la qualità è manipolata all'interno dei partecipanti). Gli effetti di interesse sono gli effetti di razza, genere, interazione tra razza e genere e le interazioni di ordine superiore tra ciascuna di queste variabili e qualità. L'obiettivo di questa simulazione era determinare se l'introduzione di effetti di contrasto nei dati avrebbe creato effetti spuri di razza, genere, interazione tra razza e genere, e le interazioni di ordine superiore tra queste variabili e qualità. Vedi il pezzo di codice qui sotto per maggiori dettagli.

Secondo la simulazione, la presenza di effetti di contrasto non distorce le stime di nessuno dei nostri effetti di interesse. Inoltre, la dimensione dell'effetto contrasto può essere stimata nello stesso modello statistico degli altri effetti nella progettazione; per me, questo suggerisce già che gli "effetti di contrasto" identificati dal mio collega non sono confusi. Il mio collega, tuttavia, rimane scettico.

require(lme4)
require(plyr)

participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black",
          "white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female",
            "female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female")

d <- data.frame(participant, essay, quality, race, gender)

for(i in 1:35)
{
  participant <- participant + 12
  essay <- essay + 4
  newdat <- data.frame(participant, essay, quality, race, gender)

  d <- rbind(d, newdat)
}

check_var <- function(var)
{
  tab <- table(var)
  newvar <- character()

  for(i in var)
  {
    if(i == names(tab[tab == 1]))
    {
      newvar <- c(newvar, "different")
    } else
    {
      newvar <- c(newvar, "same")
    }
  }

  return(newvar)
}

# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))

# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)

# Random seed
set.seed(2352)

# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)

# For each simulation
for(i in 1:reps)
{
  # Fixed effects.  A quality effect and a contrast effect for quality
  d$score <- .5 * d$quality + 1 * d$different * d$quality

  # Random effects at the participant level
  d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
             r_q = rnorm(1, sd = .5),
             score = score + r_int + r_q * quality)

  # Random effects at the essay level
  d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
             g_r = rnorm(1, sd = .5),
             g_g = rnorm(1, sd = .5),
             g_r_g = rnorm(1, sd = .5),
             score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)

  # Observation-level error
  d$score <- d$score + rnorm(dim(d)[1], sd = 1)

  # Fit the model
  mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)

  # Store the coefficients
  colnames(effs) <- names(fixef(mod))
  effs[i, ] <- fixef(mod)

  # Print the current simulation
  print(i)
}

# Results
round(colMeans(effs), digits = 2)

        (Intercept)                race              gender             quality 
               0.00               -0.03                0.02                0.50 
          different         race:gender        race:quality      gender:quality 
               0.01               -0.03                0.00                0.03 
  quality:different race:gender:quality 
               0.97               -0.02

Ancora una volta, la mia domanda generale è: c'è un disordine nel design che ho descritto? Se non è presente un confuso, sarei interessato a una descrizione del perché i potenziali "effetti di contrasto" non sono confusi in modo da poterlo spiegare al mio collega.


2
Solo un commento: come verranno valutati i saggi? Chiedo perché se verranno impiegati più rater, allora dovrete ricordare che i rating di diversi rater non sono molto coerenti, quindi dovreste anche ricordare la variabilità tra i rater.
Tim

Ogni partecipante fornisce una valutazione a ciascuno dei tre saggi a cui è assegnato.
Patrick S. Forscher,

Ho aggiunto i dettagli sulla procedura di valutazione al corpo della domanda.
Patrick S. Forscher,

Per quelli di noi che non hanno familiarità con lmer (), puoi spiegare brevemente l'analisi e gli "effetti di interesse"?
Anthony,

Nessun problema, @Anthony. Ho aggiunto questi dettagli alla domanda.
Patrick S. Forscher,

Risposte:


1

Sarei preoccupato per un confuso correlato: "Ogni partecipante può vedere solo un saggio presumibilmente scritto da un autore maschio non bianco, dal momento che non vogliamo che i partecipanti diventino sospettosi riguardo allo scopo dell'esperimento perché troppi dei loro saggi sono scritto da autori neri o femminili. "

Ciò significa che, indipendentemente dal risultato, non sarai in grado di determinare se ciò sia dovuto alla differenza tra la paternità maschile bianca e altre paternità, o semplicemente tra la "paternità di maggioranza" e la "paternità di minoranza".

Se il design come mostrato riflette anche l'ordine di presentazione (presumo che non lo sia, ma è meglio verificarlo), allora sembra essere un altro problema.


La figura non riflette l'ordine di presentazione.
Patrick S. Forscher,

1
Presumo per paternità "maggioritaria" e "minoritaria", intendi la percentuale di saggi che sono una data combinazione razza / genere (cioè 2/3 maschio bianco, 1/3 altro)? È vero che per ogni partecipante, i saggi maschili bianchi compongono una proporzione maggiore di saggi presenti rispetto ad altri. Tuttavia, i maschi bianchi compongono una proporzione maggiore della popolazione di autori di saggi che vogliamo studiare. Abbiamo deciso che questo "disordine" (che in realtà potrebbe essere parte del problema) è meno problematico rispetto alla creazione di una situazione artificiale in cui ci sono esattamente la metà dei saggi scritti da uomini e minoranze bianchi.
Patrick S. Forscher,

1

Il design non sarebbe più semplice se ogni partecipante valutasse solo due saggi (un maschio bianco e un altro)? È così, chiedi ai partecipanti di valutare due saggi, ma fai loro credere che la pila contenesse principalmente saggi maschili. Hanno appena avuto quei due per caso. I maghi delle carte chiamano questo "forzare". Se ciò richiederebbe troppi partecipanti, prova meno di 12 argomenti. Dodici sono molti.


1

Con questa dimensione del campione, come puoi concludere qualcosa? Se hai ripetuto questo esperimento molte volte, i quattro marcatori che ottengono sia un maschio bianco che un maschio nero assegnerebbero tutti i punteggi migliori ai maschi bianchi in una prova su 16.


Questa è una versione molto piccola di questo studio. Lo studio completo ha 432 persone che valutano saggi.
Patrick S. Forscher,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.