La randomizzazione è affidabile con piccoli campioni?


11

Jerome Cornfield ha scritto:

Uno dei migliori frutti della rivoluzione dei Pescatori fu l'idea della randomizzazione, e gli statistici che concordano su poche altre cose hanno almeno concordato su questo. Ma nonostante questo accordo e nonostante l'uso diffuso di procedure di allocazione randomizzate in cliniche e in altre forme di sperimentazione, il suo stato logico, cioè l'esatta funzione che svolge, è ancora oscuro.

Cornfield, Jerome (1976). "Recenti contributi metodologici a studi clinici" . American Journal of Epidemiology 104 (4): 408–421.

In questo sito e in una varietà di pubblicazioni vedo costantemente affermazioni fiduciose sui poteri della randomizzazione. Una terminologia forte come " elimina il problema delle variabili confondenti" è comune. Vedi qui , per esempio. Tuttavia, molte volte vengono eseguiti esperimenti con piccoli campioni (3-10 campioni per gruppo) per motivi pratici / etici. Questo è molto comune nella ricerca preclinica che utilizza animali e colture cellulari e i ricercatori riportano comunemente valori p a sostegno delle loro conclusioni.

Questo mi ha fatto riflettere su quanto sia buona la randomizzazione nel bilanciare i disordini. Per questo diagramma ho modellato una situazione confrontando i gruppi di trattamento e controllo con un confusione che potrebbe assumere due valori con probabilità 50/50 (ad es. Tipo1 / tipo2, maschio / femmina). Mostra la distribuzione di "% sbilanciato" (differenza in # di tipo1 tra i campioni di trattamento e di controllo divisi per dimensione del campione) per studi su una varietà di piccole dimensioni del campione. Le linee rosse e gli assi sul lato destro mostrano l'ecdf.

Probabilità di vari gradi di equilibrio sotto randomizzazione per campioni di piccole dimensioni: inserisci qui la descrizione dell'immagine

Due cose sono chiare da questa trama (a meno che non abbia fatto un casino da qualche parte).

1) La probabilità di ottenere campioni esattamente bilanciati diminuisce all'aumentare della dimensione del campione.

2) La probabilità di ottenere un campione molto sbilanciato diminuisce all'aumentare della dimensione del campione.

3) Nel caso di n = 3 per entrambi i gruppi, esiste una probabilità del 3% di ottenere un gruppo di gruppi completamente sbilanciato (tutti di tipo 1 nel controllo, tutti di tipo 2 nel trattamento). N = 3 è comune per gli esperimenti di biologia molecolare (ad esempio misurare l'mRNA con PCR o le proteine ​​con western blot)

Quando ho esaminato ulteriormente il caso n = 3, ho osservato uno strano comportamento dei valori di p in queste condizioni. La parte sinistra mostra la distribuzione complessiva dei valori calcolati usando i test t in condizioni di mezzi diversi per il sottogruppo di tipo 2. La media per type1 era 0 e sd = 1 per entrambi i gruppi. I pannelli a destra mostrano i corrispondenti tassi di falsi positivi per i "tagli di significatività" nominali da 0,05 a 0001.

Distribuzione dei valori di p per n = 3 con due sottogruppi e diverse medie del secondo sottogruppo rispetto al test t (10000 corse Monte Carlo): inserisci qui la descrizione dell'immagine

Ecco i risultati per n = 4 per entrambi i gruppi: inserisci qui la descrizione dell'immagine

Per n = 5 per entrambi i gruppi: inserisci qui la descrizione dell'immagine

Per n = 10 per entrambi i gruppi: inserisci qui la descrizione dell'immagine

Come si può vedere dai grafici sopra, sembra esserci un'interazione tra la dimensione del campione e la differenza tra i sottogruppi che si traduce in una varietà di distribuzioni di valore p secondo l'ipotesi nulla che non sono uniformi.

Quindi possiamo concludere che i valori di p non sono affidabili per esperimenti opportunamente randomizzati e controllati con campioni di piccole dimensioni?

Codice R per la prima trama

require(gtools)

#pdf("sim.pdf")
par(mfrow=c(4,2))
for(n in c(3,4,5,6,7,8,9,10)){
  #n<-3
  p<-permutations(2, n, repeats.allowed=T)

  #a<-p[-which(duplicated(rowSums(p))==T),]
  #b<-p[-which(duplicated(rowSums(p))==T),]

  a<-p
  b<-p

  cnts=matrix(nrow=nrow(a))
  for(i in 1:nrow(a)){
    cnts[i]<-length(which(a[i,]==1))
  }


  d=matrix(nrow=nrow(cnts)^2)
  c<-1
  for(j in 1:nrow(cnts)){
    for(i in 1:nrow(cnts)){
      d[c]<-cnts[j]-cnts[i]
      c<-c+1
    }
  }
  d<-100*abs(d)/n

  perc<-round(100*length(which(d<=50))/length(d),2)

  hist(d, freq=F, col="Grey", breaks=seq(0,100,by=1), xlab="% Unbalanced",
       ylim=c(0,.4), main=c(paste("n=",n))
  )
  axis(side=4, at=seq(0,.4,by=.4*.25),labels=seq(0,1,,by=.25), pos=101)
  segments(0,seq(0,.4,by=.1),100,seq(0,.4,by=.1))
  lines(seq(1,100,by=1),.4*cumsum(hist(d, plot=F, breaks=seq(0,100,by=1))$density),
        col="Red", lwd=2)

}

Codice R per grafici 2-5

for(samp.size in c(6,8,10,20)){
  dev.new()
  par(mfrow=c(4,2))
  for(mean2 in c(2,3,10,100)){
    p.out=matrix(nrow=10000)

    for(i in 1:10000){

      d=NULL
      #samp.size<-20
      for(n in 1:samp.size){
        s<-rbinom(1,1,.5)
        if(s==1){
          d<-rbind(d,rnorm(1,0,1))
        }else{
          d<-rbind(d,rnorm(1,mean2,1))
        }
      }

      p<-t.test(d[1:(samp.size/2)],d[(1+ samp.size/2):samp.size], var.equal=T)$p.value

      p.out[i]<-p
    }


    hist(p.out, main=c(paste("Sample Size=",samp.size/2),
                       paste( "% <0.05 =", round(100*length(which(p.out<0.05))/length(p.out),2)),
                       paste("Mean2=",mean2)
    ), breaks=seq(0,1,by=.05), col="Grey", freq=F
    )

    out=NULL
    alpha<-.05
    while(alpha >.0001){

      out<-rbind(out,cbind(alpha,length(which(p.out<alpha))/length(p.out)))
      alpha<-alpha-.0001
    }

    par(mar=c(5.1,4.1,1.1,2.1))
    plot(out, ylim=c(0,max(.05,out[,2])),
         xlab="Nominal alpha", ylab="False Postive Rate"
    )
    par(mar=c(5.1,4.1,4.1,2.1))
  }

}
#dev.off()

All'inizio ho trovato la tua descrizione delle condizioni e del problema un po 'difficile da capire. Tipo I e tipo II sono termini tecnici diversi dall'uso del sottogruppo di tipo 1 e del sottogruppo di tipo 2. Per quanto ne so, stai applicando un test t ai dati di una distribuzione con una combinazione di mezzi. È giusto?
Michael Lew,

Sì, una miscela di due distribuzioni normali. "tipo1" si riferisce a N (0,1), tipo2 è N (media2,1). Dove mean2 = (2,3,10 o 100). Mi dispiace, potrei cambiarlo in tipo A, tipo B se pensi che possa aiutare?
Pallone

Risposte:


4

Hai ragione a sottolineare i limiti della randomizzazione nel trattare variabili di confondimento sconosciute per campioni molto piccoli. Tuttavia, il problema non è che i valori P non sono affidabili, ma che il loro significato varia con la dimensione del campione e con la relazione tra i presupposti del metodo e le proprietà effettive delle popolazioni.

La mia opinione sui tuoi risultati è che i valori di P hanno funzionato abbastanza bene fino a quando la differenza nel sottogruppo significa che era così grande che qualsiasi sperimentatore sensibile avrebbe saputo che c'era un problema prima di fare l'esperimento.

L'idea che un esperimento possa essere fatto e analizzato senza fare riferimento a una corretta comprensione della natura dei dati è errata. Prima di analizzare un piccolo set di dati è necessario conoscere abbastanza i dati per essere in grado di difendere con sicurezza le ipotesi implicite nell'analisi. Tale conoscenza deriva comunemente da studi precedenti che utilizzano lo stesso sistema o sistema simile, studi che possono essere lavori pubblicati formali o esperimenti "preliminari" informali.


Sono d'accordo con tutto ciò che hai detto, tuttavia i t-test vengono spesso eseguiti "ritualisticamente" come direbbe Gerd Gigerenzer. In pratica, le persone che eseguono questi test non hanno il tempo / la tendenza a capire le sfumature di ciò che stanno facendo. Per questa ragione penso che l'aggettivo "inaffidabile" possa essere appropriato. Conosco ricercatori che quando si chiedono informazioni sulla distribuzione (ce n'era una alta o che cosa ha causato quella grande barra di errore?) Non l'hanno mai guardata.
Pallone

1
Bene, ciò che i valori P realmente "significano" è piuttosto diverso da ciò che la maggior parte delle persone assume. Persino i numerosi articoli che criticano i valori di P come "inconciliabili con le prove" e simili sono errati. Ieri ho caricato un documento su arXiv che esplora le proprietà dei valori P e mostra come si collegano al tipo di prova che gli sperimentatori possono usare. Il suo titolo è "A P o non a P: sulla natura probatoria dei valori di P e il loro posto nell'inferenza scientifica" e il suo numero di presentazione arXiv è 826269. Dovrebbe essere disponibile da lunedì.
Michael Lew,

Potresti dare un'occhiata a questa domanda che non ha ottenuto amore per nessun motivo? . Concordo sul fatto che i valori di p sono qualcosa e il tuo documento può aiutare a chiarirlo, ma come ricercatore devo chiarire che gli stivali sul campo sono che ci hanno deluso. O a causa di uso improprio o inadeguatezza innata, questo non è chiaro. Ho fatto una serie di domande qui cercando di ottenere il punto di vista degli statistici su di esso.
Pallone

2

Nella ricerca ecologica, l'assegnazione non casuale di trattamenti a unità sperimentali (soggetti) è pratica standard quando le dimensioni del campione sono piccole e vi sono prove di una o più variabili confondenti. Questo incarico non casuale "interseca" i soggetti attraverso lo spettro di variabili forse confondenti, che è esattamente ciò che si suppone che faccia l'incarico casuale. Ma a campioni di piccole dimensioni, è più probabile che la randomizzazione abbia prestazioni scarse in questo (come dimostrato sopra) e quindi può essere una cattiva idea fare affidamento su di esso.

Poiché la randomizzazione è sostenuta così fortemente nella maggior parte dei campi (e giustamente), è facile dimenticare che l'obiettivo finale è ridurre la distorsione piuttosto che aderire alla randomizzazione rigorosa. Tuttavia, spetta al ricercatore (i) caratterizzare in modo efficace la suite di variabili confondenti e svolgere l'incarico non casuale in modo difendibile che è cieco ai risultati sperimentali e utilizza tutte le informazioni e il contesto disponibili.

Per un riassunto, vedi pp. 192-198 in Hurlbert, Stuart H. 1984. Pseudoreplicazione e progettazione di esperimenti sul campo. Monografie ecologiche 54 (2) pp.187-211.


Mi è piaciuto leggere questo, ma sono preoccupato che il tuo uso di "bias" nel penultimo paragrafo potrebbe essere interpretato erroneamente perché quel termine ha un significato statistico specifico che renderebbe la tua affermazione errata. Non stai forse cercando di dire che la randomizzazione ha lo scopo di prevenire confusione (una forma di "distorsione" in senso colloquiale) piuttosto che ridurre la distorsione (come misura di inesattezza di uno stimatore)?
whuber

Mi riferisco al pregiudizio in senso statistico. In statistica, "bias" è la differenza tra una statistica e il parametro che stima. Come accennato, la distorsione di uno stimatore è la differenza tra il valore atteso dello stimatore e il valore reale del parametro che sta stimando. Nel mio post, per "distorsione" mi riferivo alla differenza tra le statistiche calcolate dai dati e i parametri che stimano, ad esempio tra la media campionaria (barra x) e la media reale (mu).
Darren James,

Per quanto ne so, il campionamento randomizzato non viene utilizzato per ridurre la distorsione, né in molte circostanze si può validamente affermare che riduce la distorsione.
whuber

Ti stai sbagliando. L'obiettivo principale della randomizzazione è simulare l'effetto dell'indipendenza. Lo fa eliminando i pregiudizi che sorgono attraverso l'assegnazione sistematica di trattamenti ai soggetti. Questi pregiudizi producono stime imprecise - soprattutto stime di varianza distorte - e perdita di controllo sull'errore di tipo I e II. Anche le variabili confondenti (che equivalgono davvero a una mancanza di indipendenza) sono semplicemente un caso di distorsione da variabili omesse. Ma non devi prendere la mia parola per questo ... Se non sei convinto dal documento di Hurlburt sopra, ecco alcune altre risorse da consultare:
Darren James,

Cochran, WG e GM Cox. 1957. Disegni sperimentali. New York: Wiley. Federer, WT 1955. Disegno sperimentale. New York: Macmillan. Hinkelmann, K. e Kempthorne, O. 1994. Progettazione e analisi di esperimenti. Wiley: New York. Kuehl, RO 2000. Progettazione di esperimenti: principi statistici di progettazione e analisi della ricerca. Belmont, CA: Brooks / Cole.
Darren James,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.