Sto modellando alcuni dati in cui penso di avere due effetti casuali incrociati. Ma il set di dati non è bilanciato e non sono sicuro di cosa si debba fare per renderlo conto.
I miei dati sono una serie di eventi. Un evento si verifica quando un client incontra un provider per eseguire un'attività, che ha esito positivo o meno. Esistono migliaia di clienti e fornitori e ogni cliente e fornitore partecipa a vari numeri di eventi (circa da 5 a 500). Ogni cliente e fornitore ha un livello di abilità e la possibilità che l'attività abbia successo dipende dalle capacità di entrambi i partecipanti. Non vi è alcuna sovrapposizione tra client e provider.
Sono interessato alle rispettive variazioni della popolazione di clienti e fornitori, quindi possiamo sapere quale fonte ha un effetto maggiore sulla percentuale di successo. Voglio anche conoscere i valori specifici delle competenze tra il cliente e i fornitori per i quali disponiamo effettivamente dei dati, al fine di identificare i clienti / fornitori migliori / peggiori.
Inizialmente, voglio presumere che la probabilità di successo sia guidata esclusivamente dai livelli di competenza combinati del cliente e del fornitore, senza altri effetti fissi. Quindi, supponendo che x sia un fattore per il client e y sia un fattore per il provider, quindi in R (usando il pacchetto lme4) ho un modello specificato come:
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
Un problema è che i client non sono distribuiti uniformemente tra i provider. I clienti con competenze più elevate hanno maggiori probabilità di essere abbinati a fornitori di competenze più elevate. La mia comprensione è che un effetto casuale deve essere non correlato con altri predittori nel modello, ma non sono sicuro di come spiegarlo.
Inoltre, alcuni clienti e fornitori hanno pochissimi eventi (meno di 10), mentre altri ne hanno molti (fino a 500), quindi c'è una vasta diffusione nella quantità di dati che abbiamo su ciascun partecipante. Idealmente, ciò si rifletterebbe in un "intervallo di confidenza" attorno alla stima delle abilità di ciascun partecipante (anche se penso che il termine intervallo di confidenza non sia del tutto corretto qui).
Gli effetti casuali incrociati saranno problematici a causa dei dati sbilanciati? In tal caso, quali altri approcci dovrei prendere in considerazione?