Collinearità tra variabili categoriali


11

C'è molto sulla collinearità rispetto ai predittori continui, ma non così tanto che posso trovare su predittori categorici. Ho dati di questo tipo illustrati di seguito.

Il primo fattore è una variabile genetica (conta degli alleli), il secondo fattore è una categoria di malattia. Chiaramente i geni precedono la malattia e sono un fattore nel mostrare i sintomi che portano a una diagnosi. Tuttavia, un'analisi regolare che utilizza somme di quadrati di tipo II o III, come sarebbe comunemente fatto in psicologia con SPSS, manca l'effetto. Una somma di tipo I di analisi dei quadrati lo raccoglie quando viene inserito l'ordine appropriato perché dipende dall'ordine. Inoltre, è probabile che ci siano componenti extra nel processo della malattia che non sono correlati al gene che non sono ben identificati con il tipo II o III, vedi anova (lm1) sotto vs lm2 o Anova.

Dati di esempio:

set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv  <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)

library(car)
chisq.test(table(iv1, iv2))          # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1);    lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1);                    anova(lm2)
Anova(lm1, type="II");         Anova(lm2, type="II")
  1. Lm1 con SS di tipo I per me sembra il modo appropriato per analizzare i dati data la teoria di base. La mia ipotesi è corretta?
  2. Sono abituato a manipolare esplicitamente disegni ortogonali, in cui questi problemi di solito non si presentano. È difficile convincere i revisori che questo è il processo migliore (supponendo che il punto 1 sia corretto) nel contesto di un campo centrico SPSS?
  3. E cosa segnalare nella sezione delle statistiche? Qualche analisi aggiuntiva o commenti che dovrebbero entrare?

È sorprendente sapere che qualcuno che utilizza SPSS conosce solo SS di tipo III o II. E tu suoni così.
ttnphns,

2
Bene, avevo lo stesso gap di conoscenza a cui mi riferivo nella mia domanda. Sembra essere più un riflesso degli interessi delle persone, delle conoscenze e di come vengono introdotti al software piuttosto che al software stesso. Ma le opzioni predefinite svolgono un ruolo importante anche con l'opzione di tipo III predefinita utilizzata in SPSS.
Matt Albrecht,

Sembra che tu abbia un modo per inserire 2 predittori in un ordine specifico usando la procedura anova di SPSS (unianova?). Conosco solo un modo per specificare l'ordine passando alla procedura di regressione. Come ci riesci?
rolando2,

Risposte:


8

La collinearità tra i fattori è piuttosto complicata. L'esempio classico è quello che si ottiene raggruppando e codificando fittizi le tre variabili continue 'age', 'period' e 'year'. È analizzato in:

I coefficienti ottenuti, dopo aver rimosso quattro (non tre) riferimenti, vengono identificati solo fino a una tendenza lineare sconosciuta. Questo può essere analizzato perché la collinearità deriva da una collinearità nota nelle variabili di origine (età + anno = periodo).

Alcuni lavori sono stati fatti anche sulla collinearità spuria tra due fattori. È stato analizzato in:

Il risultato è che la collinearità tra le variabili categoriali significa che il set di dati deve essere suddiviso in parti disconnesse, con un livello di riferimento in ciascun componente. I coefficienti stimati di diversi componenti non possono essere confrontati direttamente.

Per collinearità più complicate tra tre o più fattori, la situazione è complicata. Esistono procedure per trovare funzioni stimabili, cioè combinazioni lineari dei coefficienti che sono interpretabili, ad esempio in:

  • "Sulla connettività dei disegni a colonne" di Godolphin e Godolphin in Utilitas Mathematica (60) pp 51-65

Ma per quanto ne so, non esiste alcun proiettile d'argento generale per gestire tali collinearità in modo intuitivo.


1

Dopo aver fatto una chiacchierata con alcune delle persone statistiche nel luogo. Sembra che questo tipo di domanda potrebbe non essere la domanda più corretta a cui rispondere. L'uso di ANOVA (o metodi simili) per studiare le interazioni genetiche e diagnostiche su misure neuropsicologiche quando sono altamente correlate è una domanda difficile. Sono stato invece indicato di esaminare la struttura dei dati con la modellazione di equazioni strutturali.

Questa risposta verrà aggiornata man mano che avrò maggiori informazioni su SEM.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.