Cosa c'è di sbagliato in (qualche) pseudo-randomizzazione


23

Mi sono imbattuto in uno studio in cui i pazienti, che avevano tutti i 50 anni, erano pseudo-randomizzati entro l'anno di nascita. Se l'anno di nascita era un numero pari, le cure usuali, se un numero dispari, l'intervento.

È più facile da implementare, è più difficile da sovvertire (è facile controllare quale trattamento un paziente avrebbe dovuto ricevere), è facile da ricordare (l'incarico è andato avanti per diversi anni). Tuttavia, non mi piace, penso che una corretta randomizzazione sarebbe stata migliore. Ma non so spiegare perché.

Sbaglio nel sentirlo, o c'è una buona ragione per preferire la "vera" randomizzazione?


1
Benvenuti nel sito! Sono contento di vedere i tuoi post qui.
Andy W,

Con le risposte sopra, mi sento meglio a "randomizzare" entro il GIORNO della nascita! Strana giornata per il trattamento, anche giornata per il controllo ... Adalberto
AADF

6
@Adalberto Questo manca il punto principale, ovvero che qualsiasi procedura definita e non randomizzata di assegnazione di soggetti a gruppi non può essere garantita per avere le proprietà desiderabili di una procedura randomizzata. Supponiamo che tu trascorra anni in questo studio solo in seguito per fare in modo che un revisore indichi un inatteso ma inatteso confondente tra trattamento e parità del giorno di nascita? Poiché non possiamo anticipare tutto questo confondimento, eludiamo il problema mediante un'assegnazione casuale.
whuber

Risposte:


28

Hai ragione ad essere scettico. In generale, si dovrebbe usare la randomizzazione "reale", perché in genere non si hanno tutte le conoscenze sui fattori rilevanti (non osservabili). Se uno di questi non osservabili è correlato all'età pari o dispari, allora è anche correlato al fatto che abbiano ricevuto o meno il trattamento. Se questo è il caso, non possiamo identificare l'effetto del trattamento: gli effetti che osserviamo potrebbero essere dovuti al trattamento o ai fattori non osservati.

Questo non è un problema con la vera randomizzazione, in cui non ci aspettiamo alcuna dipendenza tra trattamento e non osservabili (anche se, ovviamente, per piccoli campioni potrebbe essere lì).

Per costruire una storia sul perché questa procedura di randomizzazione potrebbe essere un problema, supponiamo che lo studio includesse solo soggetti che avevano un'età compresa tra i 17 e i 18 anni quando, diciamo, iniziò la guerra del Vietnam. Con 17 non c'era possibilità di essere arruolato (correggimi se sbaglio su quello), mentre c'era quella possibilità a 18. Supponendo che la possibilità fosse non trascurabile e che l'esperienza di guerra cambi la gente, ciò implica che, anni dopo, questi due gruppi sono diversi, anche se distano solo 1 anno. Quindi forse il trattamento (droga) sembra che non funzioni, ma poiché solo il gruppo con i veterani del Vietnam lo ha ricevuto, ciò potrebbe essere dovuto al fatto che non funziona su persone con PTSD (o altri fattori correlati a essere un veterano). In altre parole, è necessario che entrambi i gruppi (trattamento e controllo) siano identici, ad eccezione del trattamento, per identificare l'effetto del trattamento.

Quindi, a meno che non si possa escludere che non vi siano differenze non osservate tra i gruppi (ma come si fa se non viene osservato?), È preferibile una vera randomizzazione.


Grazie. Bell'esempio (Ho dimenticato di chiamarlo pseudo-randomizzazione, l'ho modificato nella domanda).
Jeremy Miles il

2
(+1) Mentre stavo leggendo la domanda, il Vietnam fu il primo esempio che mi venne subito in mente. È stato divertente vedere che avevi preso la stessa virata. Suppongo che sia la scelta più ovvia date le età dichiarate dei soggetti, sebbene le età nella prima metà degli anni '60 siano un po 'più vicine.
cardinale il

Ci scusiamo per il ping off-topic: esiste un suggerimento su Meta per rendere [esperimento randomizzato] un sinonimo del tag [random-allocation] ( stats.meta.stackexchange.com/a/4651 ). Hai abbastanza reputazione in questo tag per votare questo suggerimento qui: stats.stackexchange.com/tags/random-allocation/synonym - ora ha bisogno di 4 voti per passare. Se non sei d'accordo con la proposta, considera di commentare Meta per spiegare il perché. Eliminerò presto questo commento. Saluti.
ameba dice di reintegrare Monica

18

È un buon esercizio sostenere le opinioni contrarie di volta in volta, quindi vorrei iniziare offrendo alcune ragioni a favore di questa forma di pseudo-randomizzazione. Principalmente, sono leggermente diversi rispetto a qualsiasi altra forma di campionamento sistematico , come ottenere campioni di mezzi ambientali in punti di una griglia nel campo o campionare ogni altro albero in un frutteto, e quindi questo campionamento potrebbe godere di vantaggi comparabili .

L'analogia qui è perfetta: l' età è stata "grigliata" per anno a partire da un'origine zero e l'assegnazione ai gruppi si è alternata lungo questa griglia (unidimensionale). Alcuni vantaggi di questo approccio sono garantire una dispersione ampia e uniforme del campione attraverso il campo o il frutteto (o le età, in questo caso), che aiuta a uniformare le influenze relative alla posizione (o al tempo). Ciò può essere particolarmente utile quando la teoria suggerisce che la posizione è il fattore predominante nella variazione della risposta. Inoltre, ad eccezione di campioni davvero minuscoli, analizza i dati come seerano un semplice campione casuale introduce errori relativamente piccoli. Inoltre, è possibile un po 'di randomizzazione: nel campo possiamo scegliere casualmente l'origine e l'orientamento della griglia. Nel presente caso, possiamo almeno randomizzare se gli anni pari sono soggetti a controllo o trattamento.

Un altro vantaggio del campionamento grigliato è di rilevare variazioni localizzate. Sul campo, si tratterebbe di "tasche" di risposte insolite. Statisticamente, possiamo considerarli come manifestazioni di correlazione spaziale. Nella situazione attuale, se c'è qualche possibilità che una fascia d'età relativamente ristretta abbia risposte insolite, allora il design a griglia è una scelta eccellente, perché un design puramente randomizzato può per caso contenere grandi lacune in età all'interno di uno dei gruppi. (Ma un progetto migliore potrebbe essere la stratificazione: utilizzare la parità di età per formare due strati analitici e quindi, indipendentemente all'interno di ogni strato, randomizzare i pazienti in gruppi di controllo e trattamento.)

9 , che le persone in determinati settori di lavoro, come la recitazione, tendono a ridurre le loro età riportate e altre esagereranno le loro età per vari scopi.) Pertanto, almeno in minima parte in almeno alcune aree degli Stati Uniti (e ancor più in altre parti del mondo), è probabile che la parità dell'età riportata sia


(+1) In particolare, per la controargumento istituito.
cardinale il

13

Sono d'accordo che l'esempio che dai è piuttosto innocuo ma ...

Se gli agenti coinvolti (o la persona che distribuisce l'intervento o le persone che ottengono l'intervento) vengono a conoscenza dello schema di assegnazione, possono trarne vantaggio. Tale auto-selezione dovrebbe essere abbastanza ovvia perché è problematico nella maggior parte dei progetti sperimentali.

Un esempio di cui sono a conoscenza in criminologia è il seguente; L'esperimento aveva lo scopo di testare l'effetto dissuasivo di una notte in prigione dopo una disputa domestica, invece di chiedere al colpevole di partire per la notte. Gli ufficiali ricevettero un opuscolo di fogli e il colore del foglio corrente in alto doveva identificare quale trattamento il perp. nel particolare incidente doveva ricevere.

Ciò che è accaduto alla fine è stato che gli ufficiali hanno disobbedito intenzionalmente al progetto dello studio e hanno scelto un foglio basato sulle preferenze personali per ciò che dovrebbe essere fatto al criminale. Non è esagerato sospettare che simili tentativi di anni siano almeno possibili nel tuo esempio.


Un bell'esempio, grazie, ma parte del ragionamento era che il fondere era molto più difficile - non potevano sostenere che il foglio era (diciamo) giallo, perché posso andare a controllare la data di nascita e vedere se sono stati assegnati correttamente.
Jeremy Miles,

3
Sono d'accordo @JeremyMiles, è solo un altro motivo per gli studi randomizzati in doppio cieco. È semplicemente un argomento intenzionale contro la pseudo-randomizzazione - che è più facile eludere il trattamento previsto rispetto alla randomizzazione effettiva. (Il mio esempio in realtà non è un esempio di pseudo-randomizzazione, ma illustra in modo succinto il punto.)
Andy W

Bene, questo dipende da come è stata fatta la (vera) randomizzazione - le persone coinvolte nello studio lo hanno fatto in parte per evitare problemi con la sovversione. Se si utilizza la randomizzazione effettiva, è necessario conservare una buona documentazione per assicurarsi che la persona che determina la randomizzazione comunichi con la persona che sta erogando il trattamento e che la persona che effettua la consegna faccia la cosa giusta. Con il tuo esempio, se avessero usato il numero civico (diciamo), gli ufficiali avrebbero avuto più difficoltà a sovvertire, anche se non era casuale.
Jeremy Miles il

1
Ci scusiamo per il ping off-topic: esiste un suggerimento su Meta per rendere [esperimento randomizzato] un sinonimo del tag [random-allocation] ( stats.meta.stackexchange.com/a/4651 ). Hai abbastanza reputazione in questo tag per votare questo suggerimento qui: stats.stackexchange.com/tags/random-allocation/synonym - ora ha bisogno di 4 voti per passare. Se non sei d'accordo con la proposta, considera di commentare Meta per spiegare il perché. Eliminerò presto questo commento. Saluti.
ameba dice di reintegrare Monica

0

La randomizzazione completa basata sulla distribuzione casuale non è prevedibile, nel tuo caso è noto se un caso verrebbe assegnato a Intervento o Controllo prima della conferma di ammissibilità.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.