GEE: scelta della struttura di correlazione operativa corretta


19

Sono un epidemiologo che cerca di comprendere i GEE al fine di analizzare correttamente uno studio di coorte (utilizzando la regressione di Poisson con un log log, per stimare il rischio relativo). Ho alcune domande sulla "correlazione di lavoro" che vorrei che qualcuno più esperto chiarisse:

(1) Se ho ripetute misurazioni nello stesso individuo, è generalmente più ragionevole assumere una struttura intercambiabile? (O un autoregressivo se le misurazioni mostrano una tendenza)? Che dire dell'indipendenza - ci sono casi in cui si potrebbe assumere l'indipendenza per le misurazioni nello stesso individuo?

(2) Esiste un modo (ragionevolmente semplice) per valutare la struttura corretta esaminando i dati?

(3) Ho notato che, quando scelgo una struttura di indipendenza, ottengo le stesse stime puntuali (ma errori standard inferiori) di quando eseguo una semplice regressione di Poisson (usando R, funzione glm()e geeglm()dal pacchetto geepack). Perché sta succedendo? Comprendo che con GEE stimate un modello mediato dalla popolazione (in contrasto con il soggetto specifico), quindi dovreste ottenere le stesse stime dei punti solo nel caso della regressione lineare.

(4) Se la mia coorte si trova su più siti di localizzazione (ma una misurazione per individuo), dovrei scegliere un'indipendenza o una correlazione lavorativa intercambiabile, e perché? Voglio dire, le persone in ogni sito sono ancora indipendenti l'una dall'altra, giusto ?? Pertanto, per un modello specifico del soggetto, ad esempio, vorrei specificare il sito come effetto casuale. Con GEE, tuttavia, l'indipendenza e la possibilità di scambiare forniscono stime diverse e non sono sicuro quale sia la migliore in termini di ipotesi sottostanti.

(5) GEE può gestire un cluster gerarchico a 2 livelli, ovvero una coorte multi-sito con misure ripetute per individuo? Se sì, cosa devo specificare come variabile di clustering ingeeglm() e quale dovrebbe essere la correlazione di lavoro se si assume ad esempio "indipendenza" per il primo livello (sito) e "scambiabile" o "autoregressivo" per il secondo livello (individuo)?

Capisco che queste siano alcune domande, e alcune possono essere abbastanza semplici, ma ancora molto difficili da comprendere per me (e forse altri novizi?). Quindi, ogni aiuto è molto e sinceramente apprezzato, e per dimostrarlo ho iniziato una generosità.

Risposte:


12
  1. Non necessariamente. Con piccoli cluster, design sbilanciato e regolazione incompleta del confonditore all'interno del cluster, la correlazione scambiabile può essere più inefficiente e distorta rispetto all'indipendenza GEE. Anche queste ipotesi possono essere piuttosto forti. Tuttavia, quando vengono soddisfatte tali ipotesi, si ottiene un'inferenza più efficiente con lo scambiabile. Non ho mai trovato un'istanza in cui le strutture di correlazione dell'AR-1 abbiano un senso, dal momento che è raro avere misurazioni che siano bilanciate nel tempo (lavoro con dati di soggetti umani).

  2. Bene, esplorare la correlazione è buono e dovrebbe essere fatto nell'analisi dei dati. Tuttavia, in realtà non dovrebbe guidare il processo decisionale. È possibile utilizzare vari diagrammi e lorellogrammi per visualizzare la correlazione negli studi longitudinali e su pannello. La correlazione intracluster è una buona misura dell'estensione della correlazione all'interno dei cluster.

  3. La struttura di correlazione in GEE, a differenza dei modelli misti, non influisce sulle stime dei parametri marginali (che si sta stimando con GEE). Tuttavia, influisce sulle stime degli errori standard. Questo è indipendente da qualsiasi funzione di collegamento. La funzione di collegamento nel GEE è per il modello marginale.

  4. I siti possono essere fonti di variazioni non misurate, come denti all'interno di una bocca o studenti all'interno di un distretto scolastico. Esiste il potenziale per i confonditori a livello di cluster in questi dati, come la propensione genetica alla carie o il finanziamento dell'educazione della comunità, quindi per questo motivo, otterrai una migliore stima degli errori standard usando una struttura di correlazione intercambiabile.

  5. Il calcolo degli effetti marginali in un GEE è complicato quando non sono nidificati ma può essere eseguito . La nidificazione è facile e fai esattamente come hai detto.


(Riguardo al n. 5) Quindi, nel caso del clustering nidificato, si seleziona semplicemente la variabile di cluster di livello superiore e il gioco è fatto?
Theodore Lytras

No, puoi creare una struttura gerarchica di correlazione intercambiabile a due livelli e stimare in modo coerente i due parametri di correlazione separati per la correlazione utilizzando un algoritmo EM a 3 fasi. In questo modo sapresti che i bambini all'interno delle comunità sono correlati, ma non così come i bambini all'interno di una famiglia.
AdamO,

Mi dispiace, non lo capisco. Potresti indicarmi un codice, preferibilmente in R o Stata? Immagino che dovrebbe aiutare.
Theodore Lytras

1
@TheodoreLytras scusa, mi sono sbagliato. La tua affermazione precedente è corretta. Dallo stesso documento che ho collegato, "Inoltre, se più cluster sono perfettamente nidificati, il clustering GEE sul cluster di livello superiore rappresenta la struttura di correlazione multilivello attraverso lo stimatore della varianza sandwich".
AdamO,

1
Forse intendi qualcos'altro, ma quando dichiari "La struttura di correlazione in GEE, a differenza dei modelli misti, non influenza le stime dei parametri marginali", penso che ciò non sia vero. Almeno, se intendi che i coefficienti sono invariati scegliendo una diversa matrice di correlazione di lavoro, questo non è ciò che accade: la matrice di correlazione funziona attraverso la matrice di ponderazione e influenza la matrice di covarianza e i coefficienti.
Nick,

6

(1) Probabilmente avrai bisogno di una sorta di struttura autoregressiva, semplicemente perché ci aspettiamo che le misurazioni prese a parte siano meno correlate rispetto a quelle prese più vicine. Scambiabile supporrebbe che siano tutti ugualmente correlati. Ma come per tutto il resto, dipende.

(2) Penso che questo tipo di decisione dipenda dal modo in cui i dati sono stati generati, piuttosto che dal loro aspetto.

(4) dipende. Ad esempio, i bambini nidificati nelle scuole non dovrebbero, nella maggior parte dei casi, essere trattati come indipendenti. A causa del modello sociale, ecc., Se conosco qualcosa di un bambino in una determinata scuola, probabilmente conosco almeno un po 'di altri bambini nelle scuole. Una volta ho usato GEE per esaminare le relazioni tra diversi indicatori sociali ed economici e la prevalenza dell'obesità in una coorte di nascita in cui i partecipanti erano nidificati nei quartieri. Ho usato una struttura intercambiabile. Puoi trovare il documento qui e controllare alcuni dei riferimenti, tra cui 2 da riviste epi.

(5) Apparentemente (es. Vedi questo esempio ), ma non posso fare a meno delle specifiche R per farlo.

Zeger SL, Liang KY, Albert PS. Modelli per dati longitudinali: un approccio di equazione di stima generalizzata. Biometrica. 1988; 44: 1049-1060.

Hubbard AE, Ahern J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. To GEE o no a GEE: confronto di funzioni di stima e metodi basati sulla probabilità per stimare le associazioni tra quartieri e salute. Epidemiologia. 2009

Hanley JA, Negassa A, Edwardes MDB, Forrester JE. Analisi statistica di dati correlati usando equazioni di stima generalizzate: un orientamento. Am J Epidemiol. 2003; 157: 364.


Questo è davvero utile, ma mi chiedo perché qualcuno dovrebbe quindi utilizzare una struttura di indipendenza, perché il raggruppamento di per sé implica un certo grado di somiglianza tra le osservazioni. Tuttavia, ho l'impressione che nel caso delle scuole la somiglianza sia rispetto ad altre scuole e all'interno di ciascuna scuola gli alunni sarebbero indipendenti. Quindi non sono ancora molto chiaro su questo.
Theodore Lytras,

Sì, se hai limitato la tua modellazione di esempio e successiva a una singola scuola, non preoccuparti. In questo caso sarebbe più giustificabile supporre che gli errori siano stati eliminati. Ma una volta che inizi a combinare bambini di scuole diverse nello stesso campione / modello, tale presupposto diventa tenue, a meno che tu non tenga conto della scuola nel modello, vale a dire in modo che gli errori condizionali sulla scuola vengano assunti.
DL Dahly,

Vale anche la pena notare che le persone potrebbero esserti più utili se potessi fornire alcuni dettagli riguardanti la dimensione del campione, il numero e la tempistica delle misure di ripetizione, il numero di cluster, ecc.
DL Dahly,

2
@DLDahly il tuo punto in (1) non è qualcosa che trovo spesso nelle analisi del panel biostatistico. Una delle ipotesi alla base delle strutture di correlazione AR-N è che, dato il tempo sufficiente tra loro, due misurazioni sullo stesso individuo saranno non correlate come due misurazioni tra individui diversi. Tuttavia, i principali confonditori tra i cluster non sono spesso covariate variabili nel tempo (come i marcatori genetici), e supporre altrimenti è molto difficile (se non impossibile) da valutare. Un lorrelogramma è comunque un ottimo punto di partenza.
AdamO,

1

(0) Commenti generali: la maggior parte dei modelli che vedo su crossvalidated sono troppo complicati. Semplifica se possibile. Spesso vale la pena modellare con GEE e modelli misti per confrontare i risultati.
(1) Sì. Scegli intercambiabile. La mia risposta inequivocabile si basa sul vantaggio più ampiamente propagandato di GEE: la resilienza delle stime alle ipotesi formulate.
Se guardi gli studi nel tuo campo dovresti vedere che exch è l'opzione predefinita. Non significa che sia il migliore, ma dovrebbe essere il primo a considerare. Consigliare exch sarà il miglior consiglio senza avere una conoscenza dettagliata dei tuoi dati.
(2) Sì, esistono approcci basati sui dati come "QIC". Questo è un esempio di Stata, ma ampiamente accettato come opzione ragionevole, anche se molto raramente utilizzato nella pratica:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Le stime dei punti non sono mai le stesse (a meno che non si stia utilizzando una struttura di correlazione indipendente), ma di solito sono abbastanza vicine. Puoi trovare molti articoli che confrontano le stime del modello di effetti semplici / gee / misti per avere un'idea di ciò ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) La maggior parte dei libri di testo ha anche una tabella o due per questo. Per una struttura di correlazione indipendente stai essenzialmente eseguendo il modello di poisson con robusti SE. Quindi le stime saranno esattamente le stesse. Gli SE sono generalmente più grandi. Ma a volte i SE robusti sono più piccoli (vale a dire la vita: google fornisce una spiegazione indolore se interessati)
(4) Vedi (1) e (2) sopra.
(5) No. O meglio, puoi fare qualsiasi cosa se ci metti abbastanza sforzo, ma raramente ne vale la pena.


0

Stai usando un approccio sbagliato con un gee per fare quello che stai facendo perché non conosci la struttura e i tuoi risultati saranno probabilmente confusi. Fare riferimento a Jamie Robinson questo. Devi usare a lungo. TMLE (mark van der laan) o forse un gee con iptw pesi. Non tenere conto della correlazione sottostima la varianza. Pensa solo che se tutte le misure ripetute fossero correlate al 100%, allora avresti effettivamente meno osservazioni (essenzialmente solo n per i tuoi n soggetti) e n più piccola significa varianza più elevata.


Se si dispone di un tipo di esito non di sopravvivenza, è possibile utilizzare l'approccio gee con struttura corr indipendente e pesi iptw come suggerito per stime imparziali, assumendo che si ottenga il punteggio di propensione giusto. La TMLE è praticamente la migliore in tutti i casi, sopravvivenza o no perché puoi usare l'apprendimento d'insieme per prevedere i punteggi di propensione e le regressioni sequenziali e ottenere comunque un'inferenza efficiente. Il tuo approccio sarà sicuramente di parte e darà un'inferenza errata e maggiore sarà la dimensione del tuo campione, se non ci sono effetti, probabilmente individuerai un effetto significativo sbagliato !!
Jonathan Levy,

Questo potrebbe usare più dettagli. Che cos'è Janie Robinson? Quale articolo di van der Laan?
mdewey,

@mdewey scusa, errore di battitura, significava Jamie Robins. Prova Robins, hernan, Babette 2000 modelli strutturali marginali e inferenza causale - ottimo metodo per risultati di non sopravvivenza incluso il modo di fare msm con modificatori di effetti. Per prestiti, consultare il libro, apprendimento mirato. Come ho detto, il prestito è probabilmente il migliore, ma ci vuole di più per capire. Il pacchetto R Ltmle fa questa metodologia ma richiede del tempo per imparare.
Jonathan Levy,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.