Complicazioni di avere un campione molto piccolo in un modello di equazione strutturale


13

Sto eseguendo un modello di equazione strutturale (SEM) in Amos 18. Stavo cercando 100 partecipanti per il mio esperimento (usato in modo approssimativo), che probabilmente non era abbastanza per condurre SEM di successo. Mi è stato ripetutamente detto che SEM (insieme a EFA, CFA) è una procedura statistica "di grande campione". Per farla breve, non sono arrivato a 100 partecipanti (che sorpresa!), E ne ho solo 42 dopo aver escluso due punti dati problematici. Per interesse, ho provato comunque il modello e, con mia sorpresa, sembrava adattarsi molto bene! CFI> .95, RMSEA <.09, SRMR <.08.

Il modello non è semplice, anzi, direi che è relativamente complesso. Ho due variabili latenti, una con due osservate e l'altra con 5 variabili osservate. Ho anche quattro ulteriori variabili osservate nel modello. Esistono numerose relazioni tra le variabili, indirette e dirette, con alcune variabili endogene per altre quattro, ad esempio.

Sono un po 'nuovo in SEM; tuttavia, due persone che conosco che hanno una certa familiarità con SEM mi dicono che fintanto che le indicazioni di adattamento sono buone, gli effetti sono interpretabili (purché siano significativi) e non c'è nulla di significativamente "sbagliato" nel modello. So che alcune indicazioni di adattamento sono distorte a favore o contro piccoli campioni in termini di suggerimento di un buon adattamento, ma i tre che ho menzionato in precedenza sembrano andare bene e credo che non siano distorti in modo simile. Per testare gli effetti indiretti sto usando il bootstrap (2000 campioni o giù di lì), il 90 percento ha corretto la sicurezza, monte carlo. Una nota aggiuntiva è che sto eseguendo tre diversi SEM per tre diverse condizioni.

Ho due domande che vorrei che alcuni di voi prendessero in considerazione e per favore rispondete se avete qualcosa da contribuire:

  1. Ci sono punti deboli significativi nel mio modello che non sono dimostrati dagli indici di adattamento? Il piccolo campione verrà evidenziato come una debolezza dello studio, ma mi chiedo se ci sia qualche enorme problema statistico di cui sono completamente ignaro. Ho intenzione di ottenere altri 10-20 partecipanti in futuro, ma questo mi lascerà comunque con un campione relativamente piccolo per tali analisi.

  2. Ci sono problemi con il mio uso del bootstrap dato il mio piccolo campione o il contesto in cui lo sto usando?

Spero che queste domande non siano troppo "basilari" per questo forum. Ho letto numerosi capitoli su SEM e questioni correlate, ma trovo che le persone siano molto disperse in termini di opinioni in questo settore!

Saluti


1
@ Behacad - problema ben spiegato. Stai stimando un sacco di parametri usando dati molto sparsi. Quindi l'inferenza sarà tremendamente tremante. Ma vorrei fare un passo indietro e chiedere: stai usando questi 42 per inferire le relazioni tra una popolazione più ampia? In tal caso, il 42 è un campione casuale, o almeno dimostrabilmente rappresentativo?
rolando2,

Grazie per il tuo commento rolando2! Il campione comprende 42 studenti universitari e sto esaminando la relazione tra una serie di fattori e ansia. Le relazioni che sto cercando di dedurre sarebbero tra la popolazione generale. Le mie inferenze sono limitate perché i partecipanti sono tutti studenti relativamente giovani, ma non cerco una popolazione specifica (ad esempio, individui che soffrono di un disturbo d'ansia). Sono interessato ad affermare ampiamente che X è indirettamente associato a Y in un campione non clinico. Risponde alle tue domande?
Behacad,

1
@Behacad - supponendo che tu possa difendere dai tuoi potenziali critici la rappresentatività del tuo campione, direi inequivocabilmente che tentare di stimare le relazioni tra 12 variabili sta chiedendo troppo ai tuoi 42 casi. Scopri se riesci a semplificare il tuo modello per includere solo i 3 predittori più interessanti. Anche se mi rendo conto che è doloroso separarsi dai dati, potresti aver lavorato sodo per raccogliere!
rolando2,

Grazie per la risposta. Ho la sensazione che stimare le relazioni tra tutte queste variabili sia difficile da fare con 42 punti dati e vedo da dove vieni. Detto questo, quale sarebbe una ragione statistica (preferibilmente citata) per questo problema? In che cosa differisce dall'eseguire un numero di regressioni / correlazioni su diverse variabili dipendenti? L'adattamento è buono (e attualmente sto eseguendo tre diversi modelli per diversi compiti sperimentali) e i risultati sono coerenti tra i modelli e in linea con la teoria. Scusa se vengo fuori come difensivo!
Behacad,

(Non difensivo - nessuna preoccupazione!) Avere 42 casi ti espone almeno agli errori di campionamento, anche durante la stima di statistiche univariate. Ora, in SEM, ogni variabile viene utilizzata molte volte, perché stai stimando la relazione tra A e B mentre controlli per C, D, ecc. Quindi gli effetti dell'errore di campionamento verranno propagati, il che, a mio avviso, è il motivo per cui uno in genere vuole campioni di grandi dimensioni. Nel tuo caso, hai potenzialmente più tipi di errore rispetto all'errore di campionamento perché non hai un campione casuale. Quindi è necessario tracciare un intervallo credibile molto ampio attorno a qualsiasi risultato ottenuto.
rolando2

Risposte:


4

Un punto: non esiste una "domanda di base", sai solo ciò che sai e non ciò che non conosci. porre una domanda è spesso l'unico modo per scoprirlo.

Ogni volta che vedi piccoli campioni, scopri chi ha veramente "fiducia" nei loro modelli e chi no. Dico questo perché i piccoli campioni sono in genere i modelli che hanno l'impatto maggiore.

Essendo un modellista appassionato (psicopatico?), Dico di provarlo! Sembra che tu stia adottando un approccio prudente e hai riconosciuto un potenziale pregiudizio, ecc. A causa di un piccolo campione. Una cosa da tenere a mente con l'adattamento di modelli a piccoli dati è che hai 12 variabili. Ora dovresti pensare: in che modo un modello con 12 variabili può essere determinato da 42 osservazioni? Se avessi 42 variabili, allora qualsiasi modello potrebbe adattarsi perfettamente a quelle 42 osservazioni (parlando in senso lato), quindi il tuo caso non è troppo lontano dall'essere troppo flessibile. Cosa succede quando il tuo modello è troppo flessibile? Tende ad adattarsi al rumore, cioè alle relazioni che sono determinate da cose diverse da quelle che ipotizzi.

Hai anche l'opportunità di mettere il tuo ego nel punto in cui si trova il tuo modello predicendo quali saranno i futuri 10-20 campioni dal tuo modello. Mi chiedo come i tuoi critici reagiranno a un cosiddetto modello "malvagio" che fornisce le giuste previsioni. Si noti che otterresti un simile "Te l'avevo detto" se il tuo modello non prevede bene i dati.

Un altro modo in cui puoi assicurarti che i tuoi risultati sono affidabili è provare a romperli. Mantenere intatti i dati originali, creare un nuovo set di dati e vedere cosa è necessario fare per questo nuovo set di dati al fine di rendere i risultati SEM ridicoli. Quindi guarda cosa dovevi fare e considera: è uno scenario ragionevole? I miei dati "ridicoli" assomigliano a una possibilità reale? Se devi portare i tuoi dati in un territorio ridicolo per produrre risultati ridicoli, fornisce una certa sicurezza (euristica, non formale) che il tuo metodo sia valido.


1

Il problema principale che vedo in questo è la mancanza di potere. Il fattore di conferma e il test SEM sembrano accettare il valore nullo - si desidera vedere un valore p non significativo - quindi la mancanza di energia può essere un problema. La potenza del test dipende dalla dimensione del campione (42) e dai gradi di libertà. AMOS ti offre i gradi di libertà. Non lo hai citato, ma in questo caso non sarà grande. Con 12 variabili, inizi con 66 DF e sottrai 1 per ogni parametro stimato. Non so quanti sarebbero, ma tu dici che hai diversi fattori e correlazioni tra vari costrutti.

Non sono completamente d'accordo con Rolando2. In SEM, guadagni avendo molte variabili, supponendo che siano indicatori affidabili dei costrutti sottostanti. Quindi non ridurre il numero di variabili. Per lo stesso motivo, non sono completamente d'accordo con @probabilityislogic. In SEM, non stai cercando di modellare 12 variabili con 42 osservazioni. Stai cercando di modellare i costrutti attraverso 12 indicatori, rafforzati da 42 repliche. Un modello di fattore molto semplice - 1 fattore con 12 indicatori - potrebbe essere testato con 42 persone.

L'RMSEA e altre misure di bontà di adattamento tenderanno a migliorare man mano che si avvicina la saturazione del modello, quindi si corre il rischio di un risultato fuorviante.

Detto questo, ho visto piccoli set di dati rifiutare un modello fattoriale. Probabilmente significa qualcosa che la vestibilità sembra essere buona.

Nota: è anche possibile controllare i residui di un modello SEM. Queste sono le differenze tra la matrice di covarianza stimata e la matrice di covarianza modello. AMOS te li darà se li richiedi. L'esame dei residui potrebbe indicare se sono distribuiti uniformemente o se alcune covarianze sono adattate molto male.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.