Come trattare correttamente più punti dati per ogni argomento


10

Attualmente sto discutendo con qualcuno su come trattare correttamente i dati con misurazioni multiple per ogni argomento. In questo caso i dati sono stati raccolti per ogni soggetto in breve tempo per condizioni diverse all'interno di ciascun soggetto. Tutte le misurazioni raccolgono esattamente la stessa variabile, solo multipla.

Un'opzione ora è semplicemente raggruppare i dati per condizioni e non preoccuparsi che più punti dati provengano da un soggetto. Tuttavia, i punti dati di ciascun argomento probabilmente non sono completamente indipendenti.

L'altra alternativa è, prima di prendere la media di tutte le misurazioni per ciascuna condizione da ciascun soggetto e quindi confrontare i mezzi. Tuttavia, ciò avrà probabilmente un impatto sul significato, poiché in ultima analisi non viene preso in considerazione il fatto che i mezzi hanno meno errori.

Come è possibile analizzare correttamente tali dati? Questo è in qualche modo curato in SPSS? In linea di principio dovrebbe essere possibile calcolare il margine di errore quando si calcola una media e non si considera questo nell'analisi finale, ma non credo che SPSS stia facendo questo calcolo alle mie spalle.


1
Si tratta di un disegno di misure ripetute in modo tale che ogni soggetto risponda a tutte o a molte delle condizioni? Oppure, è solo un gruppo indipendente, o misure, design in cui ogni soggetto è in una condizione?
Giovanni

In questo disegno ogni soggetto scorre in tutte le condizioni. Tuttavia ci sono alcuni punti dati, che devono essere respinti, perché i soggetti non sono riusciti a svolgere il compito in questione. È improbabile che un soggetto fallisca in tutte le attività secondarie per una singola condizione (ci sono circa 40 ripetizioni per condizione), quindi molto probabilmente ogni soggetto avrà punti dati per tutte le condizioni.
LiKao,

Risposte:


9

Sarebbe una violazione dell'indipendenza "raggruppare i dati per condizioni e non preoccuparsi che più punti dati provengano da un soggetto". Quindi questo è un non andare. Un approccio è quello di "prendere la media di tutte le misurazioni per ogni condizione da ciascun soggetto e quindi confrontare i mezzi". Potresti farlo in questo modo, non violeresti l'indipendenza, ma stai perdendo alcune informazioni nell'aggregazione a livello di soggetto.

A prima vista, questo suona come un disegno misto con condizioni tra soggetti e periodi di tempo multipli misurati all'interno dei soggetti. Tuttavia, ciò solleva la domanda, perché hai raccolto dati in più punti temporali? Si prevede che l'effetto del tempo o la progressione di una variabile nel tempo differiscano tra le condizioni? Se la risposta è affermativa a una di queste domande, quindi data la struttura dei dati, mi aspetto che ciò a cui sei interessato sia un ANOVA misto. L'ANOVA misto partizionerà la varianza del soggetto dallo SSTotal "alle tue spalle" per così dire. Ma se quel partizionamento ti aiuta a testare le condizioni tra soggetti dipende da molti altri fattori.

Ad ogni modo, in SPSS / PASW 18 Analizza -> Modello lineare generale -> Misure ripetute. Avrai una riga per ogni soggetto e una colonna per ogni punto temporale e una come identificatore della condizione. L'identificatore di condizione andrà nella sezione "tra" e le misure ripetute saranno prese in considerazione quando si definisce il fattore di misura ripetuto.


Ok, questo è quello che ho pensato. I punti dati multipli per condizione vengono raccolti per due motivi. Uno è che i dati dovrebbero essere più affidabili in questo modo. L'altra ragione è che alcuni punti dati devono essere scartati (i soggetti non hanno seguito correttamente le istruzioni per tutto il tempo). Le condizioni sono completamente all'interno dei soggetti, quindi in questo caso non abbiamo un disegno misto. Purtroppo una misura ripetuta è fuori discussione, dato che abbiamo circa 40 ripetizioni per condizione in ciascuna materia. L'alto numero di ripetizioni significa tuttavia che perdiamo molte informazioni quando si usa media.
LiKao,

Quindi raccomando la risposta di John. È probabilmente preferibile un modello misto. Ciò può modellare sia la media che la variabilità all'interno di ogni soggetto e rispettare la nidificazione. Un problema con tale analisi è che i gradi di libertà "corretti" non sono chiari e quindi anche le soglie per il significato statistico non sono chiare. Contrariamente al codice fornito da John, consiglierei di adattare una pendenza casuale al tuo effetto di condizione (soggetti diversi visualizzano effetti diversi). Ho visto alcune simulazioni che suggeriscono di non farlo potrebbe aumentare il tasso di errore di tipo I.
Russellpierce,

4

La progettazione di misure ripetute è il modo tradizionale di gestirlo, come menziona drknexus. Quando si esegue quel tipo di analisi, è necessario aggregare un punteggio / condizione / soggetto. È sensibile alle violazioni di ipotesi di sfericità e ad altri problemi. Tuttavia, la tecnica più moderna consiste nell'utilizzare la modellazione multilivello o effetti misti lineari. Utilizzando questa tecnica non si aggregano i dati. Ci sono molti trattamenti disponibili, ma al momento non conosco il miglior tutorial di base. Baayen (2008) Il capitolo 7 è buono. Pinheiro & Bates (2000) è molto bravo ma dai suoni delle cose segui i loro consigli nell'introduzione e leggi i bit raccomandati per i principianti.

Se vuoi ottenere solo un risultato in stile ANOVA, supponendo che tutti i tuoi dati siano in formato lungo (una riga / punto dati) e che tu abbia colonne che indicano soggetto, risposta (y) e una variabile di condizione (x), puoi provare guardando qualcosa del genere in R (assicurati che il pacchetto lme4 sia installato).

library(lme4)
dat <- read.table('myGreatData.txt', header = TRUE)
m <- lmer( y ~ x + (1|subject), data = dat)
summary(m)
anova(m)

Ovviamente potresti avere molte più variabili variabili, magari interagendo. Quindi potresti cambiare il comando lmer in qualcosa come ...

m <- lmer( y ~ x1 * x2 + (1|subject), data = dat)

(A proposito, credo che non aggregarsi in misure ripetute per aumentare il potere sia un errore formale. Qualcuno ricorda il nome?)


Penso che l'errore di non riuscire ad aggregare e usare il df dal numero di risposte piuttosto che dal numero di soggetti sia una violazione dell'indipendenza. In alternativa, (penso) si potrebbe pensare di fare una deduzione a livello di risposte dei singoli oggetti per un insieme fisso di argomenti.
Russellpierce,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.