TL; DR : la dimensione minima del campione per cluster in un modello a effetti misti è 1, a condizione che il numero di cluster sia adeguato e la percentuale di cluster singleton non sia "troppo elevata"
Versione più lunga:
In generale, il numero di cluster è più importante del numero di osservazioni per cluster. Con 700, chiaramente non hai problemi.
Le dimensioni di piccoli cluster sono abbastanza comuni, specialmente nelle indagini di scienze sociali che seguono progetti di campionamento stratificati, e c'è un corpo di ricerca che ha studiato la dimensione del campione a livello di cluster.
Mentre l'aumento delle dimensioni del cluster aumenta il potere statistico per stimare gli effetti casuali (Austin e Leckie, 2018), le dimensioni di cluster piccoli non portano a gravi distorsioni (Bell et al, 2008; Clarke, 2008; Clarke & Wheaton, 2007; Maas & Hox , 2005). Pertanto, la dimensione minima del campione per cluster è 1.
In particolare, Bell, et al (2008) hanno eseguito uno studio di simulazione Monte Carlo con proporzioni di cluster singleton (cluster contenenti una sola osservazione) che vanno dallo 0% al 70%, e hanno scoperto che, a condizione che il numero di cluster fosse grande (~ 500) le dimensioni ridotte del cluster non hanno avuto quasi alcun impatto sulla polarizzazione e sul controllo degli errori di tipo 1.
Hanno anche segnalato pochissimi problemi con la convergenza dei modelli in uno dei loro scenari di modellazione.
Per il particolare scenario nel PO, suggerirei di eseguire il modello con 700 cluster in prima istanza. A meno che non ci fosse un chiaro problema in questo, non sarei propenso a unire i cluster. Ho eseguito una semplice simulazione in R:
Qui creiamo un set di dati cluster con una varianza residua di 1, un singolo effetto fisso anche di 1, 700 cluster, di cui 690 sono singleton e 10 hanno solo 2 osservazioni. Eseguiamo la simulazione 1000 volte e osserviamo gli istogrammi degli effetti casuali fissi e residui stimati.
> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) {
dtB$x <- rnorm(nrow(dtB), 0, 1)
dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1
fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
fixef.v[i] <- fixef(fm0B)[[2]]
ranef.v[i] <- attr(VarCorr(fm0B), "sc")
}
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)

Come puoi vedere, gli effetti fissi sono molto ben stimati, mentre gli effetti casuali residui sembrano essere leggermente distorti verso il basso, ma non drasticamente:
> summary(fixef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6479 0.9439 0.9992 1.0005 1.0578 1.2544
> summary(ranef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2796 0.7745 0.9004 0.8993 1.0212 1.4837
Il PO menziona specificamente la stima degli effetti casuali a livello di cluster. Nella simulazione sopra, gli effetti casuali sono stati creati semplicemente come valore Subjectdell'ID di ciascuno (ridotto di un fattore 100). Ovviamente questi non sono normalmente distribuiti, il che è il presupposto di modelli lineari di effetti misti, tuttavia, possiamo estrarre gli (livelli condizionali) degli effetti a livello di cluster e tracciarli contro gli SubjectID reali :
> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)


L'istogramma si discosta dalla normalità, ma ciò è dovuto al modo in cui abbiamo simulato i dati. Esiste ancora una relazione ragionevole tra gli effetti casuali stimati e effettivi.
Riferimenti:
Peter C. Austin e George Leckie (2018) L'effetto del numero di cluster e della dimensione del cluster sulla potenza statistica e sui tassi di errore di tipo I durante il test di componenti di varianza degli effetti casuali in modelli di regressione lineare e logistica multilivello, Journal of Statistical Computation and Simulation, 88: 16, 3151-3163, DOI: 10.1080 / 00949655.2018.1504945
Bell, BA, Ferron, JM e Kromrey, JD (2008). Dimensione del cluster nei modelli multilivello: l'impatto delle strutture di dati sparse sulle stime dei punti e degli intervalli nei modelli a due livelli . Atti del JSM, sezione sui metodi di ricerca dell'indagine, 1122-1129.
Clarke, P. (2008). Quando è possibile ignorare il clustering a livello di gruppo? Modelli multilivello rispetto a modelli a livello singolo con dati sparsi . Journal of Epidemiology and Community Health, 62 (8), 752-758.
Clarke, P. e Wheaton, B. (2007). Affrontare la scarsità di dati nella ricerca contestuale sulla popolazione usando l'analisi dei cluster per creare quartieri sintetici . Sociological Methods & Research, 35 (3), 311-351.
Maas, CJ e Hox, JJ (2005). Dimensioni del campione sufficienti per la modellazione multilivello . Metodologia, 1 (3), 86-92.