Quali sono le migliori pratiche per identificare gli effetti di interazione?


35

Oltre a testare letteralmente ogni possibile combinazione di variabili in un modello ( x1:x2o x1*x2 ... xn-1 * xn). Come identifichi se esiste un'interazione DOVREBBE o POTREBBE esistere tra le tue variabili indipendenti (si spera)?

Quali sono le migliori pratiche nel tentativo di identificare le interazioni? Esiste una tecnica grafica che potresti o che potresti usare?


Potresti parlarci un po 'dei tuoi dati? dimensione (vedi la mia risposta) e natura (vedi la risposta di Gavin)
robin girard,

@Robin: dategli il tempo di alzarsi dal letto, Brandon è a Toronto ;-)
Ripristina Monica - G. Simpson,

1
@Robin, preferirei mantenerlo più generale. Se, nella tua risposta, stai fornendo un metodo che richiede un'ipotesi sulla dimensione o la natura dei dati, ti preghiamo di indicarlo. Il problema che sto riscontrando riguarda diverse attività di modellazione, tutte con dati diversi. Quindi, in questo caso, sto cercando consigli generali sull'identificazione degli effetti di interazione.
Brandon Bertelsen,

Risposte:


20

Cox e Wermuth (1996) o Cox (1984) hanno discusso alcuni metodi per rilevare le interazioni. Il problema è di solito quanto dovrebbero essere generali i termini di interazione. Fondamentalmente, noi (a) adattiamo (e testiamo) tutti i termini di interazione del secondo ordine, uno alla volta, e (b) tracciamo i loro corrispondenti valori p (cioè i termini n. In funzione di ). L'idea è quindi di verificare se un certo numero di termini di interazione debba essere mantenuto: Partendo dal presupposto che tutti i termini di interazione siano nulli, la distribuzione dei valori p dovrebbe essere uniforme (o equivalentemente, i punti sul diagramma a dispersione dovrebbero essere approssimativamente distribuiti lungo una linea che passa attraverso l'origine).1p

Ora, come ha detto @Gavin , l'adattamento di molte (se non tutte) interazioni potrebbe portare a un overfitting, ma è anche inutile in un certo senso (alcuni termini di interazione di alto ordine spesso non hanno alcun senso). Tuttavia, ciò ha a che fare con l'interpretazione, non con il rilevamento delle interazioni, e una buona revisione è stata già fornita da Cox in Interpretazione dell'interazione: una revisione ( The Annals of Applied Statistics 2007, 1 (2), 371–385) - include riferimenti citati sopra. Altre linee di ricerca che vale la pena esaminare sono lo studio degli effetti epistatici negli studi genetici, in particolare metodi basati su modelli grafici (ad esempio, un metodo efficiente per identificare gli interattori statistici nelle reti di associazione genica ).

Riferimenti

  • Cox, DR e Wermuth, N (1996). Dipendenze multivariate: modelli, analisi e interpretazione . Chapman and Hall / CRC.
  • Cox, DR (1984). Interazione . Revisione statistica internazionale , 52, 1–31.

16

La mia migliore pratica sarebbe quella di pensare al problema da affrontare prima di adattare il modello. Qual è un modello plausibile dato il fenomeno che stai studiando? Adattare tutte le possibili combinazioni di variabili e interazioni suona come un dragaggio dei dati per me.


5
sembra un'osservazione o la risposta è "pensare"?
Robin Girard,

2
@Robin - quest'ultimo. Trovo che la modellistica statistica sia piuttosto difficile (sono un ecologo con poca formazione statistica formale, la maggior parte di ciò che ho imparato è stato autodidatta) ma è molto più facile se penso prima al problema, determinare cosa sia plausibile, costruire quel modello, fare la diagnostica del mio modello, provare interazioni in cui queste hanno un senso scientifico.
Ripristina Monica - G. Simpson,

2
@Brandon: se c'è un'interazione mancante, ci saranno modelli nei residui condizionati ai valori delle covariate. Tracciare i residui contro le covariate può aiutare a determinare dove potrebbe essere appropriata un'interazione.
Ripristina Monica - G. Simpson il

2
@Brandon: questa è la diagnostica standard del modello e le capacità di tracciamento esplorativo. Vorrei tracciare i residui contro una delle covariate che penso possano essere candidati per un'interazione, condizionati (nel modo ggplot2 o reticolo) sui valori della covariata che penso siano coinvolti nell'interazione. Attacca un loess più liscio attraverso ogni pannello per vedere se ci sono schemi. Dipende dal tipo di variabili che sono le tue covariate.
Ripristina Monica - G. Simpson il

2
Dragaggio dei dati? Se torturi i dati abbastanza a lungo, confesseranno ...
Curioso

16

Montare un modello ad albero (cioè usando R), ti aiuterà a identificare interazioni complesse tra le variabili esplicative. Leggi l'esempio a pagina 30 qui .


Molto semplice e molto utile. Grazie anche per il riferimento al testo di Crawley!
Brandon Bertelsen,

Fai attenzione: non puoi adattare facilmente questi tipi di interazioni, ad esempio un modello lineare. Le interazioni si verificano solo in un ramo dell'albero (o parte di). Hai bisogno di molti dati per utilizzare questo tipo di strumenti nei dati del mondo reale.
Ripristina Monica - G. Simpson,

3
Come ha detto @Gavin, una delle potenziali insidie ​​è che gli alberi decisionali necessitano di una grande dimensione del campione e sono piuttosto instabili (che è una delle ragioni per cui sono state proposte insaccamento e foreste casuali come alternative praticabili). Un altro problema è che non è chiaro se cerchiamo effetti di interazione di secondo o superiore ordine. Nel primo caso, i CART non sono una soluzione. In ogni caso, troverò molto dubbia qualsiasi interpretazione di un'interazione tra 6 variabili in qualsiasi tipo di studio (osservativo o controllato).
chl,

7

Prefarrò questa risposta poiché concordo pienamente con Gavin, e se sei interessato ad adattare qualsiasi tipo di modello, dovrebbe riflettere il fenomeno in studio. Qual è il problema con la logica di identificare tutti gli effetti (e ciò a cui Gavin si riferisce quando dice il dragaggio dei dati) è che potresti adattare un numero infinito di interazioni, o termini quadratici per variabili, o trasformazioni ai tuoi dati, e tu troverebbe inevitabilmente effetti "significativi" per alcune variazioni dei tuoi dati.

Come afferma chl, questi effetti di interazione di ordine superiore in realtà non hanno alcuna interpretazione e spesso anche le interazioni di ordine inferiore non hanno alcun senso. Se sei interessato a sviluppare un modello causale, dovresti includere solo termini che ritieni possano essere pertinenti alla tua variabile dipendente A priori per adattare il tuo modello.

Se ritieni che possano aumentare il potere predittivo del tuo modello, dovresti cercare risorse sulle tecniche di selezione del modello per evitare un adattamento eccessivo del modello.


7

Quanto è grande n? quante osservazioni hai? questo è cruciale ...

Gli indici Sobol ti diranno la percentuale di varianza spiegata dall'interazione se hai molte osservazioni e alcunen, altrimenti dovrai fare la modellazione (lineare per cominciare). Hai un bel pacchetto R per quella chiamata sensibilità. Comunque l'idea è abbastanza spesso quella di decomporre la varianza (chiamata anche ANOVA generalizzata).

Se vuoi sapere se questa proporzione di varianza è significativa, dovrai fare un modello (approssimativamente, devi conoscere il numero di gradi di libertà del tuo modello per confrontarlo con la varianza).

Le tue variabili sono discrete o continue? limitato o non proprio (cioè non conosci il massimo)?


grazie per la direzione verso gli indici Sobol. Ancora una volta, vorrei specificare che sto cercando una risposta generale piuttosto che specifica qui. Non sto chiedendo informazioni su un set specifico di dati, ma piuttosto sto cercando di spiegare un problema che ho riscontrato con un numero di set diversi.
Brandon Bertelsen,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.