Effetti casuali incrociati e dati sbilanciati


10

Sto modellando alcuni dati in cui penso di avere due effetti casuali incrociati. Ma il set di dati non è bilanciato e non sono sicuro di cosa si debba fare per renderlo conto.

I miei dati sono una serie di eventi. Un evento si verifica quando un client incontra un provider per eseguire un'attività, che ha esito positivo o meno. Esistono migliaia di clienti e fornitori e ogni cliente e fornitore partecipa a vari numeri di eventi (circa da 5 a 500). Ogni cliente e fornitore ha un livello di abilità e la possibilità che l'attività abbia successo dipende dalle capacità di entrambi i partecipanti. Non vi è alcuna sovrapposizione tra client e provider.

Sono interessato alle rispettive variazioni della popolazione di clienti e fornitori, quindi possiamo sapere quale fonte ha un effetto maggiore sulla percentuale di successo. Voglio anche conoscere i valori specifici delle competenze tra il cliente e i fornitori per i quali disponiamo effettivamente dei dati, al fine di identificare i clienti / fornitori migliori / peggiori.

Inizialmente, voglio presumere che la probabilità di successo sia guidata esclusivamente dai livelli di competenza combinati del cliente e del fornitore, senza altri effetti fissi. Quindi, supponendo che x sia un fattore per il client e y sia un fattore per il provider, quindi in R (usando il pacchetto lme4) ho un modello specificato come:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

Un problema è che i client non sono distribuiti uniformemente tra i provider. I clienti con competenze più elevate hanno maggiori probabilità di essere abbinati a fornitori di competenze più elevate. La mia comprensione è che un effetto casuale deve essere non correlato con altri predittori nel modello, ma non sono sicuro di come spiegarlo.

Inoltre, alcuni clienti e fornitori hanno pochissimi eventi (meno di 10), mentre altri ne hanno molti (fino a 500), quindi c'è una vasta diffusione nella quantità di dati che abbiamo su ciascun partecipante. Idealmente, ciò si rifletterebbe in un "intervallo di confidenza" attorno alla stima delle abilità di ciascun partecipante (anche se penso che il termine intervallo di confidenza non sia del tutto corretto qui).

Gli effetti casuali incrociati saranno problematici a causa dei dati sbilanciati? In tal caso, quali altri approcci dovrei prendere in considerazione?

Risposte:


4

Per quanto riguarda i dati sbilanciati, glmer è in grado di gestire gruppi sbilanciati: quello era in realtà il punto di sviluppare approcci a modelli misti rispetto agli ANOVA a misure ripetute che sono limitati a progetti bilanciati. Includere clienti o fornitori con pochi eventi (anche solo uno) è ancora meglio che ometterli, poiché migliora la stima della varianza residua (vedi Martin et al. 2011 ).

Se si desidera utilizzare BLUP ( ranef(model)) come proxy di competenze, è necessario stimare l'incertezza relativa alle previsioni dei punti. Questo può essere fatto in un quadro frequentista usando ranef(model, postVar=TRUE)o attraverso la distribuzione posteriore in un quadro bayesiano. Tuttavia, non dovresti usare i BLUP come variabile di risposta in ulteriori modelli di regressione: vedi Hadfield et al. (2010) per esempi di abusi dei BLUP e metodi diversi per tenere adeguatamente conto della loro incertezza.

Per quanto riguarda la correlazione delle competenze tra clienti e fornitori, questo squilibrio potrebbe essere problematico se molto forte, poiché impedirebbe di stimare correttamente la varianza dovuta a ciascun effetto casuale. Non sembra esserci un framework di modelli misti che gestisca facilmente la correlazione tra intercettazioni casuali (vedi qui per un'espressione formale del tuo problema). Potresti forse precisare quanto sono correlati i successi medi di clienti e fornitori?


Grazie mille per aver affrontato una delle mie vecchie domande. La risposta è ancora pertinente e la guida e i riferimenti sono apprezzati. Mi dispiace che ci sia voluto così tanto tempo per notare che era lì! L'ho segnato risolto.
Colonel.triq,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.