Se utilizzare la modellazione di equazioni strutturali per analizzare studi osservazionali in psicologia


20

Ho notato questo problema emergere molto nelle impostazioni di consulenza statistica ed ero desideroso di avere i tuoi pensieri.

Contesto

Parlo spesso con studenti di ricerca che hanno condotto uno studio approssimativamente come segue:

  • Studio osservazionale
  • La dimensione del campione potrebbe essere 100, 200, 300, ecc.
  • Sono state misurate più scale psicologiche (ad esempio, forse ansia, depressione, personalità, atteggiamenti, altre scale cliniche, forse intelligenza, ecc.)

I ricercatori hanno letto la letteratura pertinente e hanno alcune riflessioni su possibili processi causali. Spesso ci sarà una concettualizzazione generale delle variabili in antecedenti, variabili di processo e variabili di risultato. Hanno anche spesso sentito che la modellazione di equazioni strutturali è più appropriata per testare modelli globali delle relazioni tra l'insieme di variabili che stanno studiando.

Domanda

  • In quali condizioni pensi che la modellazione di equazioni strutturali sia una tecnica appropriata per analizzare tali studi?
  • Se non raccomandassi la modellazione di equazioni strutturali, quali tecniche alternative consiglieresti?
  • Quale consiglio daresti ai ricercatori in considerazione dell'utilizzo della modellazione di equazioni strutturali in questi casi?

Risposte:


14

La mia dichiarazione di non responsabilità : mi rendo conto che questa domanda è rimasta in sospeso per un po 'di tempo, ma sembra essere importante, e tu intendevi suscitare risposte multiple. Sono uno psicologo sociale, e dai suoi suoni, probabilmente un po 'più a mio agio con tali disegni rispetto a Henrik (anche se le sue preoccupazioni sulle interpretazioni causali sono totalmente legittime).

In quali condizioni SEM è una tecnica di analisi dei dati appropriata?

Per me, questa domanda in realtà arriva a due distinte sotto-domande:

  1. Perché usare SEM in primo luogo?
  2. Se un ricercatore ha deciso di utilizzare SEM, quali sono i requisiti relativi ai dati per l'utilizzo di SEM?

Perché usare SEM in primo luogo?

SEM è un approccio all'analisi dei dati più sfumato e complicato - e quindi meno accessibile - rispetto ad altri approcci di modellazione lineare generale più tipici (ad es. ANOVA, correlazioni, regressione e loro estensioni, ecc.). Qualunque cosa tu possa pensare di fare con quegli approcci, puoi farlo con SEM.

In quanto tale, penso che i potenziali utenti dovrebbero innanzitutto valutare con forza il motivo per cui sono obbligati a utilizzare SEM in primo luogo. A dire il vero, SEM offre alcuni potenti vantaggi ai suoi utenti, ma ho esaminato articoli in cui nessuno di questi vantaggi viene utilizzato e il prodotto finale è una sezione di analisi dei dati in un documento che è inutilmente più difficile da comprendere per i lettori tipici . Semplicemente non vale la pena - per il ricercatore o il lettore - se i benefici di SEM rispetto ad altri approcci di analisi dei dati non vengono raccolti.

Quindi quali sono i vantaggi principali di un approccio SEM? I più grandi, secondo me sono:

(1) Modellazione di variabili latenti : SEM consente agli utenti di esaminare le relazioni strutturali (varianze, covarianze / correlazioni, regressioni, differenze medie di gruppo) tra variabili latenti non osservate, che sono essenzialmente la covarianza condivisa tra un gruppo di variabili (ad esempio, elementi da un'ansia misura che i tuoi studenti potrebbero usare).

Il principale punto di forza per l'analisi delle variabili latenti (ad es. Ansia latente) rispetto a un punteggio osservato del costrutto (ad es. Una media degli elementi di ansia) è che le variabili latenti sono prive di errori - le variabili latenti sono formate da covarianza condivisa, e l'errore è teorizzato alla covaria con nulla. Ciò si traduce in un aumento del potere statistico, poiché gli utenti non devono più preoccuparsi della non affidabilità della misurazione che attenua gli effetti che stanno cercando di modellare.

Un altro, più discreto, motivo per considerare l'utilizzo del SEM è in alcuni casi un modo più valido per testare le nostre teorie sui costrutti. Se i tuoi studenti, ad esempio, stessero usando tre diverse misure di ansia, non sarebbe meglio capire le cause / conseguenze di ciò che queste tre misure hanno in comune - presumibilmente l'ansia - in un quadro SEM, invece di privilegiare qualsiasi particolare misura uno come la misura di ansia?

(2) Modellazione di più variabili dipendenti: Anche se qualcuno non utilizzerà SEM per modellare variabili latenti, può comunque essere abbastanza utile come framework per analizzare simultaneamente più variabili di risultato in un modello. Ad esempio, forse i tuoi studenti sono interessati a esplorare come gli stessi predittori sono associati a una serie di risultati clinicamente rilevanti diversi (ad es. Ansia, depressione, solitudine, autostima, ecc.). Perché eseguire quattro modelli separati (aumento del tasso di errore di tipo I), quando è possibile eseguire un solo modello per tutti e quattro i risultati a cui si è interessati? Questo è anche un motivo per usare SEM quando si ha a che fare con determinati tipi di dati dipendenti, in cui più intervistati dipendenti potrebbero fornire sia risposte predittive che risultati (es. Dati diadici; vedere Kenny, Kashy e Cook, 2006,

(3) Modellare le ipotesi, invece di formularle : con molti altri approcci all'analisi dei dati (ad es. ANOVA, correlazione, regressione), facciamo molte ipotesi sulle proprietà dei dati di cui ci stiamo occupando, come l'omogeneità di varianza / omoschedasticità. SEM (solitamente combinato con un approccio variabile latente) consente agli utenti di modellare effettivamente i parametri di varianza simultaneamente insieme a mezzi e / o correlazioni / percorsi regressivi. Ciò significa che gli utenti possono iniziare a teorizzare e testare l'ipotesi sulla variabilità, oltre alle differenze / covariabilità medie, invece di considerare la variabilità solo come un ripensamento fastidioso relativo all'assunzione.

Un altro presupposto verificabile, quando si confrontano i livelli medi di gruppo su una variabile, è se quella variabile significhi effettivamente la stessa cosa per ciascun gruppo - indicato come invarianza di misurazione nella letteratura SEM (vedere Vandenberg & Lance, 2000, per una revisione di questo processo ). In tal caso, sono validi i confronti sui livelli medi di quella variabile, ma se i gruppi hanno una comprensione significativamente diversa di cosa sia qualcosa, è discutibile confrontare i livelli medi tra i gruppi. Facciamo questo presupposto particolare implicitamente tutto il tempo nella ricerca usando confronti di gruppo.

E poi c'è il presupposto che, quando si calcola la media o si sommano i punteggi degli articoli (ad esempio, su una misura di ansia) per creare un indice aggregato, ogni articolo è una misura altrettanto buona del costrutto sottostante (perché ogni articolo è ponderato equamente nel media / sommando). SEM elimina questo presupposto quando vengono utilizzate variabili latenti, stimando diversi valori di caricamento dei fattori (l'associazione tra l'elemento e la variabile latente) per ciascun elemento.

Infine, altre ipotesi sui dati (ad esempio, la normalità), sebbene siano ancora importanti per SEM, possono essere gestite (ad esempio, mediante l'uso di stimatori "robusti", vedere Finney e DiStefano, 2008) quando i dati non riescono a soddisfare alcuni criteri (bassi livelli di asimmetria e curtosi).

(4) Specifica dei vincoli del modello: L'ultimo grande motivo, secondo me, da considerare l'utilizzo di SEM, è perché rende molto semplice testare particolari ipotesi che potresti avere sul tuo modello di dati, forzando ("vincolando" in termini SEM) determinati percorsi nel tuo modello assumere valori particolari ed esaminare come ciò influisca sull'adattamento del modello ai dati. Alcuni esempi includono: (A) vincolare una via di regressione a zero, per verificare se è necessario nel modello; (B) contenente più percorsi di regressione per essere uguali in grandezza (ad esempio, la forza associativa per alcuni predittori è approssimativamente uguale per ansia e depressione?); (C) vincolare i parametri di misurazione necessari per valutare l'invarianza della misurazione (sopra descritta); (D) vincolare un percorso di regressione per essere uguale in forza tra due diversi gruppi,

Quali sono i requisiti relativi ai dati per SEM?

I requisiti relativi ai dati per SEM sono piuttosto modesti; hai bisogno di una dimensione del campione adeguata e affinché i tuoi dati soddisfino i presupposti dello stimatore del modello che hai selezionato (la massima verosimiglianza è tipica).

È difficile dare una raccomandazione unica per tutte le dimensioni del campione. Basato su alcune simulazioni semplici, Little (2013) suggerisce che per modelli molto semplici, 100-150 osservazioni potrebbero essere sufficienti, ma le esigenze di dimensione del campione aumenteranno man mano che i modelli diventano più complessi e / o come l'affidabilità / validità delle variabili utilizzate in il modello diminuisce. Se la complessità del modello è una preoccupazione, potresti prendere in considerazione la parcellizzazione degli indicatori delle tue variabili latenti, ma non tutti sono integrati con questo approccio (Little, Cunningham, Shahar e Widaman, 2002). Ma in generale, a parità di condizioni, i campioni più grandi (cerco almeno 200 nella mia ricerca) sono migliori.

Per quanto riguarda il rispetto delle ipotesi di uno stimatore selezionato, di solito questo è abbastanza facile da valutare (ad esempio, guardare i valori di asimmetria e curtosi per uno stimatore di massima verosimiglianza). E anche se i dati si discostano dalle proprietà assunte, una ricerca potrebbe prendere in considerazione l'uso di uno stimatore "robusto" (Finney & DiStefano, 2008) o uno stimatore che assume un diverso tipo di dati (ad esempio, uno stimatore categorico, come diagonalmente ponderato almeno piazze).

Alternative al SEM per l'analisi dei dati?

Se un ricercatore non trarrà vantaggio dai vantaggi offerti da un approccio SEM che ho sottolineato sopra, consiglierei di attenersi alla versione più semplice e accessibile di quella particolare analisi (e..g, t -test, ANOVA, analisi di correlazione, modelli di regressione [inclusi mediazione, moderazione e modelli di processo condizionato]). I lettori hanno più familiarità con loro e quindi li capiranno più facilmente. Non vale la pena confondere i lettori con le minuzie di SEM se essenzialmente si utilizza SEM con lo stesso effetto di un approccio analitico più semplice.

Consigli ai ricercatori che considerano l'uso del SEM?

Per quelli nuovi di SEM:

  1. Ottieni un testo SEM di base completo e accessibile. Mi piacciono Beaujean (2014), Brown (2015; anche l'edizione precedente è solida) e Little (2013; buona introduzione generale, anche se in seguito si concentrerà specificamente su modelli longitudinali).
  2. Scopri come utilizzare il lavaanpacchetto per R(Rosseel, 2012). La sua sintassi è semplice quanto la sintassi SEM può ottenere, la sua funzionalità è abbastanza ampia per le esigenze SEM di molte persone (sicuramente per i principianti) ed è gratuita. Il libro Beaujean offre una grande introduzione simultanea al SEM e al lavaanpacchetto.
  3. Consultare / utilizzare CrossValidated e StacksOverflow regolarmente. Quando si adattano i modelli SEM, possono accadere cose inaspettate e, probabilmente, molte delle cose strane che potresti sperimentare sono già state descritte e risolte i problemi con gli stack.
  4. Come sottolinea Herik, nota che solo perché stai specificando un modello che implica associazioni causali, ciò non significa che SEM aiuta a stabilire la causalità in uno studio trasversale / non sperimentale. Inoltre, vale la pena considerare l'uso di SEM per analizzare i dati provenienti da progetti longitudinali e / o sperimentali.

E per coloro che stanno iniziando a utilizzare effettivamente SEM:

  1. A un certo punto, sarai tentato di specificare i residui correlati, volenti o nolenti, nel tentativo di migliorare l'adattamento del tuo modello. Non farlo. Almeno non senza una buona ragione a priori . Più spesso, la cura è un campione più ampio o un modello più semplice.
  2. Evitare l'uso del metodo di identificazione variabile marcatore per variabili latenti (cioè, fissando il primo fattore che carica su 1). Privilegia tale indicatore come indicatore "gold standard" della variabile latente, quando nella maggior parte dei casi non vi è motivo di ritenere che ciò avvenga. Tenere presente che questa è l'impostazione di identificazione predefinita nella maggior parte dei programmi.

Riferimenti

Beaujean, AA (2014). Modellazione di variabili latenti utilizzando R: una guida dettagliata . New York, NY: Routledge.

Brown, TA (2015). Analisi fattoriale confermativa per ricercatori applicati (2a edizione). New York, NY: Guilford Press.

Finney, SJ e DiStefano, C. (2008). Dati non normali e categorici nella modellazione di equazioni strutturali. In GR Hancock & RD Mueller (Eds.), Modellazione di equazioni strutturali: un secondo corso (pagg. 269-314). Pubblicazione dell'era dell'informazione.

Kenny, DA, Kashy, DA, & Cook, WL (2006). Analisi dei dati diadici . New York, NY: Guilford Press.

Little, TD (2013). Modellazione longitudinale di equazioni strutturali . New York, NY: Guilford Press.

Little, TD, Cunningham, WA, Shahar, G., & Widaman, KF (2002). Per pacchi o non pacchi: esplorare la domanda, soppesare i meriti. Modellazione di equazioni strutturali , 9 , 151-173.

Rosseel, Y. (2012). lavaan: un pacchetto R per la modellazione di equazioni strutturali. Journal of Statistical Software , 48 (2), 1-36.

Vandenberg, RJ, & Lance, CE (2000). Una revisione e sintesi della letteratura sull'invarianza della misurazione: suggerimenti, pratiche e raccomandazioni per i ricercatori organizzativi. Metodi di ricerca organizzativa , 3 , 4-70.


1
+1 buona risposta. Non vedo l'ora di altri tuoi contributi!
Momo,

1
+1 Ottima risposta. Sono d'accordo con la maggior parte di ciò che dici. Un punto di follow-up: non credo che SEM abbia un maggiore potere statistico perché sta stimando la relazione tra variabili latenti. In generale, penserei che semmai SEM introduce un'ulteriore fonte di errore. Pertanto, vi è il solito errore nella stima della variabile osservata e un errore aggiuntivo nella stima della varianza dell'errore o di altri elementi della struttura latente.
Jeromy Anglim,

Direi rispettivamente che SEM, modellando l'errore in fattori unici, aumenta infatti la potenza. Ciò può essere più facilmente dimostrato, penso, confrontando un modello SEM di differenze di gruppo in mezzi latenti con un modello di differenze medie osservate di gli stessi dati. Se esegui il SEM usando un approccio di codifica degli effetti (vedi Little, Slegers e Card, 2006), i tuoi mezzi latenti per ciascun gruppo assumeranno lo stesso valore dei tuoi mezzi osservati. Ma le varianze per ciascun gruppo nel modello SEM saranno minori rispetto a quelle osservate, il che rende una dimensione dell'effetto maggiore che è più facile da rilevare.
jsakaluk,

Mi rendo conto che il commento sopra potrebbe non essere il modo migliore per rispondere alla tua preoccupazione; se fai una domanda separata su SEM e il potere sul CV, sarei felice di pubblicare una risposta più elaborata, con alcuni output di esempio che potrebbero essere utili.
jsakaluk,

12

Disclaimer: mi considero uno psicologo esperiemale con particolare attenzione alla sperimentazione. Quindi, ho un disagio naturale con disegni come questo.

Per rispondere alla tua prima e seconda domanda: penso che per un progetto come questo un SEM o, a seconda del numero di variabili coinvolte, l'analisi della mediazione o della moderazione sia il modo naturale di trattare i dati. Non ho idea di cos'altro raccomandare.

Per la tua terza domanda: penso che il vantaggio principale con un design come questo sia il suo principale svantaggio. Vale a dire che (dato abbastanza variabili) si trova risultati significativi. La domanda è: come interpreti questi risultati.

Cioè, puoi guardare così tante ipotesi (alcune più alcune meno ispirate alla letteratura pertinente) che probabilmente troverai qualcosa di significativo (non nel senso letterale di rifiutare un SEM) che sarà interpretabile in senso psicologico. Pertanto, il mio consiglio a chiunque lo faccia sarebbe duplice:

  1. Sottolinea il problema con l'interpretazione causale di questi disegni. Non sono un esperto in questo, ma so, che un disegno completamente trasversale non può essere interpretato causalmente, indipendentemente da quanto possa sembrare intuitivamente plausibile. Per interpetazioni causali sono necessari disegni più avanzati come disegni a pana incrociata o cose del genere. Penso che il lavoro di Shadish, Cook & Campbell (o almeno alcuni di essi) sia una buona risorsa per ulteriori discussioni su questi argomenti.
  2. Sottolinea la responsabilità individuale e l'etica scientifica. Se vedi che la tua idea iniziale non è supportata dai dati, è il passaggio naturale successivo a ispezionare ulteriormente i dati. Tuttavia, non dovrai mai fare affidamento su HARKing (Ipotesi dopo che i risultati sono noti; Kerr, 1998 , vedi anche Maxwell, 2004 ). Cioè, dovresti sottolineare che esiste una linea sottile tra un ragionevole adattamento delle tue ipotesi dati i dati e la raccolta dei risultati significativi.

1
e Bernd: Idem! Grande acronimo e spero che prenda piede.
rolando2,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.