Ho un set di dati sulle prove agricole. La mia variabile di risposta è un rapporto di risposta: log (trattamento / controllo). Sono interessato a ciò che media la differenza, quindi sto eseguendo meta-regressioni RE (non ponderate, perché sembra abbastanza chiaro che la dimensione dell'effetto non è correlata alla varianza delle stime).
Ogni studio riporta la resa in granella, la resa in biomassa o entrambe. Non posso imputare la resa del grano dagli studi che riportano la resa della biomassa da sola, perché non tutte le piante studiate erano utili per il grano (la canna da zucchero è inclusa, per esempio). Ma ogni pianta che produceva grano aveva anche biomassa.
Per le covariate mancanti, ho usato l'imputazione iterativa della regressione (seguendo il capitolo del manuale di Andrew Gelman). Sembra dare risultati ragionevoli e l'intero processo è generalmente intuitivo. Fondamentalmente, prevedo i valori mancanti e utilizzo quei valori previsti per prevedere i valori mancanti e eseguo il ciclo attraverso ciascuna variabile fino a quando ciascuna variabile converge approssimativamente (nella distribuzione).
C'è qualche motivo per cui non riesco a utilizzare lo stesso processo per imputare i dati dei risultati mancanti? Posso probabilmente formare un modello di imputazione relativamente informativo per il rapporto di risposta della biomassa dato il rapporto di risposta del grano, il tipo di coltura e altre covariate che ho. Quindi farei la media dei coefficienti e dei VCV e aggiungerei la correzione MI secondo la pratica standard.
Ma cosa misurano questi coefficienti quando vengono imputati gli stessi risultati? L'interpretazione dei coefficienti è diversa dall'MI standard per le covariate? Pensandoci, non riesco a convincermi che non funziona, ma non ne sono davvero sicuro. Sono benvenuti pensieri e suggerimenti per il materiale di lettura.