Dimensione minima del campione per cluster in un modello a effetti casuali

10

Esiste un razionale per il numero di osservazioni per cluster in un modello a effetti casuali? Ho una dimensione del campione di 1.500 con 700 cluster modellati come effetti casuali intercambiabili. Ho la possibilità di unire i cluster per creare meno cluster, ma più grandi. Mi chiedo come posso scegliere la dimensione minima del campione per cluster in modo da avere risultati significativi nella previsione dell'effetto casuale per ciascun cluster? C'è un buon documento che spiega questo?

— Roccer
fonte

13

TL; DR : la dimensione minima del campione per cluster in un modello a effetti misti è 1, a condizione che il numero di cluster sia adeguato e la percentuale di cluster singleton non sia "troppo elevata"

Versione più lunga:

In generale, il numero di cluster è più importante del numero di osservazioni per cluster. Con 700, chiaramente non hai problemi.

Le dimensioni di piccoli cluster sono abbastanza comuni, specialmente nelle indagini di scienze sociali che seguono progetti di campionamento stratificati, e c'è un corpo di ricerca che ha studiato la dimensione del campione a livello di cluster.

Mentre l'aumento delle dimensioni del cluster aumenta il potere statistico per stimare gli effetti casuali (Austin e Leckie, 2018), le dimensioni di cluster piccoli non portano a gravi distorsioni (Bell et al, 2008; Clarke, 2008; Clarke & Wheaton, 2007; Maas & Hox , 2005). Pertanto, la dimensione minima del campione per cluster è 1.

In particolare, Bell, et al (2008) hanno eseguito uno studio di simulazione Monte Carlo con proporzioni di cluster singleton (cluster contenenti una sola osservazione) che vanno dallo 0% al 70%, e hanno scoperto che, a condizione che il numero di cluster fosse grande (~ 500) le dimensioni ridotte del cluster non hanno avuto quasi alcun impatto sulla polarizzazione e sul controllo degli errori di tipo 1.

Hanno anche segnalato pochissimi problemi con la convergenza dei modelli in uno dei loro scenari di modellazione.

Per il particolare scenario nel PO, suggerirei di eseguire il modello con 700 cluster in prima istanza. A meno che non ci fosse un chiaro problema in questo, non sarei propenso a unire i cluster. Ho eseguito una semplice simulazione in R:

Qui creiamo un set di dati cluster con una varianza residua di 1, un singolo effetto fisso anche di 1, 700 cluster, di cui 690 sono singleton e 10 hanno solo 2 osservazioni. Eseguiamo la simulazione 1000 volte e osserviamo gli istogrammi degli effetti casuali fissi e residui stimati.

> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) { 
   dtB$x <- rnorm(nrow(dtB), 0, 1)
   dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1

   fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
   fixef.v[i] <- fixef(fm0B)[[2]]
   ranef.v[i] <- attr(VarCorr(fm0B), "sc")
 }
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)

Come puoi vedere, gli effetti fissi sono molto ben stimati, mentre gli effetti casuali residui sembrano essere leggermente distorti verso il basso, ma non drasticamente:

> summary(fixef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.6479  0.9439  0.9992  1.0005  1.0578  1.2544 
> summary(ranef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2796  0.7745  0.9004  0.8993  1.0212  1.4837

Il PO menziona specificamente la stima degli effetti casuali a livello di cluster. Nella simulazione sopra, gli effetti casuali sono stati creati semplicemente come valore Subjectdell'ID di ciascuno (ridotto di un fattore 100). Ovviamente questi non sono normalmente distribuiti, il che è il presupposto di modelli lineari di effetti misti, tuttavia, possiamo estrarre gli (livelli condizionali) degli effetti a livello di cluster e tracciarli contro gli SubjectID reali :

> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)

L'istogramma si discosta dalla normalità, ma ciò è dovuto al modo in cui abbiamo simulato i dati. Esiste ancora una relazione ragionevole tra gli effetti casuali stimati e effettivi.

Riferimenti:

Peter C. Austin e George Leckie (2018) L'effetto del numero di cluster e della dimensione del cluster sulla potenza statistica e sui tassi di errore di tipo I durante il test di componenti di varianza degli effetti casuali in modelli di regressione lineare e logistica multilivello, Journal of Statistical Computation and Simulation, 88: 16, 3151-3163, DOI: 10.1080 / 00949655.2018.1504945

Bell, BA, Ferron, JM e Kromrey, JD (2008). Dimensione del cluster nei modelli multilivello: l'impatto delle strutture di dati sparse sulle stime dei punti e degli intervalli nei modelli a due livelli . Atti del JSM, sezione sui metodi di ricerca dell'indagine, 1122-1129.

Clarke, P. (2008). Quando è possibile ignorare il clustering a livello di gruppo? Modelli multilivello rispetto a modelli a livello singolo con dati sparsi . Journal of Epidemiology and Community Health, 62 (8), 752-758.

Clarke, P. e Wheaton, B. (2007). Affrontare la scarsità di dati nella ricerca contestuale sulla popolazione usando l'analisi dei cluster per creare quartieri sintetici . Sociological Methods & Research, 35 (3), 311-351.

Maas, CJ e Hox, JJ (2005). Dimensioni del campione sufficienti per la modellazione multilivello . Metodologia, 1 (3), 86-92.

— Robert Long
fonte

1

+1 ottima risposta. Correlati: ho avuto problemi con i modelli logistici multilivello in cui circa la metà dei cluster ha solo 1 osservazione. Vedi qui: stats.stackexchange.com/a/358460/130869

— Mark White

4

In modelli misti gli effetti casuali sono spesso stimati usando la metodologia di Bayes empirica. Una caratteristica di questa metodologia è il restringimento. Vale a dire, gli effetti casuali stimati sono ridotti verso la media complessiva del modello descritta dalla parte degli effetti fissi. Il grado di restringimento dipende da due componenti:

L'entità della varianza degli effetti casuali rispetto all'entità della varianza dei termini di errore. Maggiore è la varianza degli effetti casuali in relazione alla varianza dei termini di errore, minore è il grado di contrazione.
Il numero di misurazioni ripetute nei cluster. Le stime degli effetti casuali dei cluster con misurazioni più ripetute si riducono meno rispetto alla media complessiva rispetto ai cluster con meno misurazioni.

Nel tuo caso, il secondo punto è più pertinente. Tuttavia, tieni presente che la soluzione suggerita di unire i cluster potrebbe influire anche sul primo punto.

— Dimitris Rizopoulos
fonte