Come testare un effetto di interazione con un test non parametrico (ad esempio un test di permutazione)?


10

Ho due variabili categoriali / nominali. Ognuno di loro può assumere solo due valori distinti (quindi, ho 4 combinazioni in totale).

Ogni combinazione di valori viene fornita con un set di valori numerici. Quindi, ho 4 serie di numeri. Per renderlo più concreto, diciamo che ho male / femalee young / oldcome variabili nominali e ho weightcome "output" numerico dipendente.

So che la transizione da malea femalecambia il peso medio e questi cambiamenti sono statisticamente significativi. Quindi, posso calcolare un genderfattore. Lo stesso vale per la agevariabile. So che il passaggio da younga oldcambia il peso medio e posso calcolare il agefattore corrispondente .

Ora, quello che voglio davvero vedere se i dati dimostrano che la transizione da giovani femmine a vecchi maschi è più quella combinazione di fattori di genere ed età. In altre parole, voglio sapere se i dati dimostrano che esistono "effetti 2D" o, in altre parole, che gli effetti sull'età e sul genere non sono indipendenti. Ad esempio, potrebbe essere che invecchiando per i maschi aumenti il ​​peso del fattore 1.3 e per le femmine il fattore corrispondente sia 1.1.

Ovviamente posso calcolare i due fattori citati (fattore di età per i maschi e fattore di età per le femmine) e sono diversi. Ma voglio calcolare il significato statistico di questa differenza. Quanto è reale questa differenza.

Vorrei fare un test non parametrico, se possibile. È possibile fare quello che voglio fare mescolando i quattro set, mescolandoli, ri-dividendo e calcolando qualcosa.


2
Una difficoltà a gestire l'interazione in modo non parametrico è che una trasformazione monotonica della risposta può rimuovere l'interazione che era presente, indurre l'interazione in cui era assente o invertire la direzione dell'interazione. Ciò suggerisce che gli approcci basati sul rango, ad esempio, potrebbero non fare ciò che ti aspetteresti.
Glen_b -Restinata Monica,

Con i test di permutazione sulle variabili originali, non hai questo problema ma si scopre che non ci sono test esatti per l'interazione. È possibile ottenere alcuni test approssimativi.
Glen_b

Risposte:


5

Esistono test non parametrici per l'interazione. In parole povere, sostituisci i pesi osservati con i loro ranghi e tratti l'insieme di dati risultante come ANOVA eteroschedastico. Guarda ad esempio "Metodi non parametrici nei disegni fattoriali" di Brunner e Puri (2001).

Tuttavia, il tipo di interazione non parametrica a cui sei interessato non può essere mostrato in questa generalità. Tu hai detto:

In altre parole, voglio sapere se i dati dimostrano che esistono "effetti 2D" o, in altre parole, che gli effetti sull'età e sul genere non sono indipendenti. Ad esempio, potrebbe essere che invecchiando per i maschi aumenti il ​​peso del fattore 1.3 e per le femmine il fattore corrispondente sia 1.1.

Quest'ultimo è impossibile. L'interazione non parametrica deve comportare un cambiamento di segno, ovvero l'invecchiamento aumenta il peso dei maschi ma diminuisce il peso delle femmine. Un tale cambiamento di segno rimane anche se trasformi monotonicamente i pesi. Ma puoi scegliere una trasformazione monotona sui dati che associa l'aumento di peso per fattore 1,1 il più vicino possibile a 1.3. Ovviamente, non mostrerai mai una differenza come significativa se può essere il più vicino possibile.

Se sei veramente interessato alle interazioni senza cambio di segno, dovresti attenersi alla solita analisi parametrica. Lì non sono ammesse trasformazioni monotone che "ingoiano la differenza". Naturalmente, questo è ancora qualcosa da tenere a mente modellando e interpretando le tue statistiche.


1

Se ritieni che gli effetti dell'età e del genere non siano solo i singoli effetti, puoi considerare il modello Il γweighti=αagei+βgenderi+γ(genderiagei).γil coefficiente acquisisce la dimensione dell'effetto "2D" di età e sesso. Puoi controllare la statistica t di per avere un'idea approssimativa se la γ che osservi nel tuo modello è significativamente diversa da γ = 0 .γγγ=0

Ecco un esempio grafico molto approssimativo per mostrare che cosa fa questo termine moltiplicativo aggiuntivo .genderiagei

Nel modello , essenzialmente cerchiamo di adattare un semplice iperpiano ai datiresponse=x1+x2

inserisci qui la descrizione dell'immagine

Questo modello è lineare nelle covariate, quindi la forma lineare che vedi nella trama sopra.

response=x1+x2+x1x2x1x2

inserisci qui la descrizione dell'immagine

γ=0

γγ^γ^50±p%2p%γ


Come può essere non lineare se x1 e x2 possono assumere solo valori di 0 o 1? In che modo la gamma nel tuo esempio spiegherebbe qualsiasi forma di curvatura?
5

αR2:x1+x2+x1x2=i=12αixi

Aggiungerò, tuttavia, che quando il dominio è binario (che è come i vertici del cubo 2D), è possibile trattare questa funzione in modo lineare. Ma la forma funzionale è rigorosamente non lineare.
Mustafa S Eisa,

@MustafaMEisa, non ho mai visto un termine di interazione in un modello lineare spiegato in termini di "vertici di un cubo 2D". Sarebbe informativo se si potesse elaborare.
5

@ HorstGrünbusch, sono anche curioso di sapere il tuo commento su questa risposta, dato che hai già dato un commento utile sulla mia risposta.
5

1

wt=α+b1age+b2gender+b3agegender+ϵ

wtgender=b2+b3age

gender=0age=0gender=1age=1gender=0age=1gender=1age=0

wt=α+b1young.male+b2old.male+b3young.female+ϵ

old.femaleb1old.femaleyoung.maleαwtold.female

Gli esempi precedenti sono quindi un modo eccessivamente complicato per giungere a questa conclusione (che stiamo davvero confrontando quattro mezzi di gruppo), ma per sapere come funzionano le interazioni, penso che questo sia un esercizio utile. Ci sono altri post molto buoni su CV sull'interazione di una variabile continua con una variabile nominale o sull'interazione di due variabili continue. Anche se la tua domanda è stata modificata per specificare test non parametrici, penso che sia utile riflettere sul tuo problema da un approccio più convenzionale (cioè, parametrico), perché la maggior parte degli approcci non parametrici al test di ipotesi hanno la stessa logica ma generalmente con meno ipotesi su distribuzioni specifiche.

wt

old.menyoung.women

A parte le interazioni "significative"

x1x2x1x2Ma ancora una volta, se abbiamo solo due covariate che possono assumere solo valori di 0 o 1, ciò significa che essenzialmente stiamo guardando quattro medie di gruppo.

Esempio lavorato

Confrontiamo i risultati del modello di interazione con i risultati del test di Dunn. Innanzitutto, generiamo alcuni dati in cui (a) gli uomini pesano più delle donne, (b) gli uomini più giovani pesano meno degli uomini più anziani, e (c) non c'è differenza tra le donne più giovani e quelle più anziane.

set.seed(405)
old.men<-rnorm(50,mean=80,sd=15)
young.men<-rnorm(50,mean=70,sd=15)
young.women<-rnorm(50,mean=60,sd=15)
old.women<-rnorm(50,mean=60,sd=15)
cat<-rep(1:4, c(50,50,50,50))
gender<-rep(1:2, c(100,100))
age<-c(rep(1,50),rep(2,100),rep(1,50))
wt<-c(old.men,young.men,young.women,old.women)
data<-data.frame(cbind(wt,cat,age,gender))
data$cat<-factor(data$cat,labels=c("old.men","young.men","young.women","old.women"))
data$age<-factor(data$age,labels=c("old","young"))
data$gender<-factor(data$gender,labels=c("male","female"))

wt

mod<-lm(wt~age*gender,data)
library(effects)
allEffects(mod)

 model: wt ~ age * gender

 age*gender effect
       gender
age         male   female
  old   80.61897 57.70635
  young 67.78351 56.01228

Devi calcolare un errore standard o un intervallo di confidenza per il tuo effetto marginale? Il pacchetto "effetti" sopra citato può fare questo per te, ma meglio ancora, Aiken e West (1991) ti offrono le formule, anche per modelli di interazione molto più complicati. I loro tavoli sono comodamente stampati qui , insieme a un ottimo commento di Matt Golder.

Ora per implementare il test di Dunn.

#install.packages("dunn.test")
dunn.test(data$wt, data$cat, method="bh")

Kruskal-Wallis chi-squared = 65.9549, df = 3, p-value = 0


                           Comparison of x by group                            
                             (Benjamini-Hochberg)                              
Col Mean-|
Row Mean |    old.men   young.me   young.wo
---------+---------------------------------
young.me |   3.662802
         |    0.0002*
         |
young.wo |   7.185657   3.522855
         |    0.0000*    0.0003*
         |
old.wome |   6.705346   3.042544  -0.480310
         |    0.0000*    0.0014*     0.3155

Il valore p sul risultato del test chi quadrato di Kruskal-Wallis suggerisce che almeno uno dei nostri gruppi "proviene da una popolazione diversa". Per i confronti gruppo per gruppo, il numero in alto è la statistica del test z di Dunn e il numero in basso è un valore p, che è stato adattato per confronti multipli. Poiché i nostri dati di esempio erano piuttosto artificiali, non sorprende che abbiamo così tanti piccoli valori p. Ma nota il confronto in basso a destra tra donne più giovani e più anziane. Il test supporta correttamente l'ipotesi nulla che non vi sia alcuna differenza tra questi due gruppi.

AGGIORNAMENTO: date altre risposte, questa risposta è stata aggiornata per contestare l'idea che ciò richiede qualsiasi forma di modellazione non lineare o che - dato l'esempio specifico di OP di due covariate binarie, ovvero quattro gruppi - che ci debba essere un sign change to asess this non parametricamente. Se l'età fosse continua, ad esempio, ci sarebbero altri modi per affrontare questo problema, ma questo non era l'esempio fornito dall'OP.


Non usi la struttura di due fattori incrociati. Devi solo confrontare quattro gruppi. Il test di Dunn non riguarda affatto l'interazione.
Horst Grünbusch,

D'accordo, il test di Dunn non riguarda l'interazione. Tuttavia, la domanda si pone specificamente riguardo un'interazione tra due variabili binarie. La mia risposta dimostra come ciò equivale a confrontare i quattro gruppi. Se i termini di interazione sono nuovi per OP, si spera che questa sia un'illustrazione utile.
5

1

Quindi hai queste variabili casuali:

  • AN
  • S{male,female}
  • W]0,[

E hai queste funzioni di massa / densità di probabilità:

  • fWW
  • fW,AW,A
  • fW,SW,S
  • fW,A,SW,A,S

was

  • fW,A(w,a)fW(w)
  • fW,S(w,s)fW(w)

fW,A,S(w,a,s)fW,A(w,a)fW,S(w,s)

was

Tuttavia, non conosci i veri PDF comuni qui sopra. Dato che vuoi limitarti a metodi non parametrici, il tuo compito ora è trovare queste stime non parametriche:

  • f^W,A(w,a)
  • f^W,S(w,s)
  • f^W,A,S(w,a,s)

E poi mostra che:

  • Le tue stime di densità sono abbastanza accurate.
  • f^W,A,S(w,a,s)f^W,A(w,a)f^W,S(w,s)
  • f^W,A,S(w,a,s)=f^W,A(w,a)=f^W,S(w,s)

0

Sarebbe verificare gli effetti dell'interazione . La modellazione lineare sarebbe in grado di verificare tale cosa ma non è non parametrica, quindi immagino che debba essere utilizzato un altro strumento.

Come stai controllando il tuo ageed gendereffetto fino ad ora?

EDIT: Questa risposta sembra che ti sarebbe di aiuto

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.