Follow-up: in un diagramma ANOVA misto tra SE stimati o SE effettivi?


14

Attualmente sto finendo un documento e mi sono imbattuto in questa domanda di ieri che mi ha portato a porre la stessa domanda a me stesso. È meglio fornire al mio grafico l'errore standard effettivo dai dati o quello stimato dalla mia ANOVA?
Poiché la domanda di ieri era piuttosto non specifica e la mia è piuttosto specifica, ho pensato che sarebbe stato opportuno porre questa domanda di follow-up.

Dettagli:
ho condotto un esperimento in alcuni domini della psicologia cognitiva (ragionamento condizionale) confrontando due gruppi (istruzioni induttive e deduttive, cioè una manipolazione tra soggetti) con due manipolazioni all'interno di soggetti (tipo di problema e contenuto del problema, ciascuno con due livelli di fattore).

I risultati si presentano così (pannello di sinistra con stime SE dall'uscita ANOVA, pannello di destra con SE stimati dai dati): testo alternativo
Nota che le diverse linee rappresentano i due diversi gruppi (cioè la manipolazione tra soggetti) e l'interno- le manipolazioni dei soggetti sono tracciate sull'asse x (cioè i livelli del fattore 2x2).

Nel testo fornisco i rispettivi risultati dell'ANOVA e persino i confronti pianificati per l'interazione crossover critica nel mezzo. Le SE sono lì per dare al lettore qualche suggerimento sulla variabilità dei dati. Preferisco gli ES rispetto alle deviazioni standard e agli intervalli di confidenza in quanto non è comune tracciare gli SD e ci sono gravi problemi quando si confrontano gli EC tra soggetti e tra soggetti (come lo stesso vale per gli ES, non è così comune dedurre falsamente differenze significative da loro).

Per ripetere la mia domanda: è meglio tracciare gli ES stimati dall'ANOVA o dovrei tracciare gli ES stimati dai dati grezzi?

Aggiornamento:
penso che dovrei essere un po 'più chiaro in ciò che sono gli ES stimati. L'output ANOVA in SPSS mi fornisce i estimated marginal meanscorrispondenti SE e CI. Questo è ciò che è tracciato nel grafico a sinistra. Per quanto ho capito, dovrebbero essere le SD dei residui. Ma, quando salvano i residui, le loro SD non sono in qualche modo vicine alle SE stimate. Quindi una domanda secondaria (potenzialmente specifica per SPSS) sarebbe: che
cosa sono questi SE?


AGGIORNAMENTO 2: Finalmente sono riuscito a scrivere una funzione R che dovrebbe essere in grado di creare una trama come finalmente mi è piaciuta (vedi la mia risposta accettata) da sola. Se qualcuno ha tempo, apprezzerei molto se tu potessi dargli un'occhiata. Ecco qui.


1
Puoi chiarire la variabile prevista, "approvazione media" ?. È una scala 0-100 che i partecipanti hanno usato per la risposta, o è una misura della proporzione di prove su cui i partecipanti hanno detto "sì, io approvo" (rispetto a "no, non approvo"). In quest'ultimo caso, è inappropriato analizzare questi dati come proporzioni. Invece, dovresti analizzare i dati grezzi, prova per prova usando un modello a effetti misti con una funzione di collegamento binomiale.
Mike Lawrence,

Ci dispiace, per aver omesso questo: è una scala di risposta 0-100.
Henrik,

Hai molti 0 o 100? In caso contrario, prenderei in considerazione la divisione per 100 e l'esecuzione di una trasformazione logit per tenere conto della limitazione della portata agli estremi. Questo è essenzialmente ciò che si ottiene dalla funzione di collegamento binomiale quando si hanno dati binari, ma è utile se si hanno solo dati simili a quelli che si sembrano avere qui. Tuttavia, non puoi accedere a trasformare 1 o 0, quindi dovresti lanciare le risposte di 100 o 0.
Mike Lawrence

Oops, ho appena realizzato che il mio primo commento non era corretto al 100%. Ogni media tracciata rappresenta la media di due risposte su una scala 0-100. In questi dati ci sono molti valori molto vicini a 100 e alcuni direttamente su 100, ma in realtà molto poco a 0 e intorno a 0. Hai della letteratura per giustificare la tua raccomandazione?
Henrik

1
Altre persone di visualizzazione dei dati potrebbero affermare che i grafici a barre sono un crimine contro l'umanità: Op
Mike Lawrence

Risposte:


9

Come conseguenza delle risposte ispiratrici e della discussione alla mia domanda, ho costruito i seguenti diagrammi che non si basano su parametri basati su modelli, ma presentano i dati sottostanti.

Le ragioni sono che, indipendentemente dal tipo di errore standard che posso scegliere, l'errore standard è un parametro basato sul modello. Quindi, perché non presentare i dati sottostanti e quindi trasmettere più informazioni?

Inoltre, se si sceglie la SE dall'ANOVA, sorgono due problemi per i miei problemi specifici.
In primo luogo (almeno per me) non è in qualche modo chiaro cosa SPSSsiano realmente gli SE di ANOVA Output ( vedi anche questa discussione, nei commenti ). Sono in qualche modo legati all'MSE ma come esattamente non lo so.
In secondo luogo, sono ragionevoli solo quando sono soddisfatte le ipotesi sottostanti. Tuttavia, come mostrano i seguenti grafici, le ipotesi di omogeneità della varianza sono chiaramente violate.

I grafici con grafici a scatole: testo alternativo

I grafici con tutti i punti dati: testo alternativo

Si noti che i due gruppi sono dislocati leggermente a sinistra o a destra: deduttivi a sinistra, induttivi a destra. I mezzi sono ancora tracciati in nero e i dati o i riquadri sullo sfondo in grigio. Le differenze tra i grafici a sinistra e a destra sono se i mezzi sono dislocati allo stesso modo dei punti o dei grafici a scatole o se sono presentati centralmente.
Ci scusiamo per la qualità non ottimale dei grafici e delle etichette mancanti dell'asse x.

La domanda che rimane è: quale delle trame sopra è quella da scegliere ora. Devo pensarci e chiedere all'altro autore del nostro documento. Ma in questo momento, preferisco i "punti con mezzi slogati". E sarei comunque molto interessato ai commenti.


Aggiornamento: dopo un po 'di programmazione sono finalmente riuscito a scrivere una funzione R per creare automaticamente una trama come punti con mezzi dislocati. Dai un'occhiata (e inviami commenti) !


Ottimo Henrik. Preferisco anche i "punti con mezzi slogati". Il collegamento di soggetti con segmenti di linea potrebbe apparire troppo disordinato. Pietà. Per quanto riguarda l'omogeneità della varianza, sono un po 'più ottimista. Il problema della varianza potrebbe non essere così grave come appare nei dati non elaborati. Per la maggior parte sospetto che confronterai i contrasti, all'interno delle differenze di gruppo. Le varianze di contrasto saranno più omogenee delle varianze dei dati grezzi. Se si confrontano misure grezze con varianze diverse (ad es. Induttivo vs deduttivo nel gruppo di valia MP e plausibile), è possibile utilizzare un test non parametrico come backup.
Thylacoleo,

1
Mi piacciono i punti con media a livello centrale. Ha una rappresentazione più vera delle linee. Potresti ridurre i punti.
Giovanni,

8

Non troverai un'unica barra di errore ragionevole per scopi inferenziali con questo tipo di disegno sperimentale. Questo è un vecchio problema senza una soluzione chiara.

Sembra impossibile avere la stima di SE che hai qui. Esistono due tipi principali di errori in un tale progetto, tra e all'interno dell'errore S. Di solito sono molto diversi tra loro e non confrontabili. Non esiste davvero una buona barra di errore singola per rappresentare i tuoi dati.

Si potrebbe obiettare che i SE grezzi o le SD dei dati sono più importanti in senso descrittivo piuttosto che inferenziale. Parlano della qualità della stima della tendenza centrale (SE) o della variabilità dei dati (DS). Tuttavia, anche in questo caso è un po 'disonesto perché la cosa che stai testando e misurando all'interno di S non è quel valore grezzo ma piuttosto l'effetto della variabile S interna. Pertanto, riferire la variabilità dei valori grezzi è insignificante o fuorviante rispetto agli effetti S interni.

In genere non ho approvato barre di errore su tali grafici e grafici ad effetti adiacenti che indicano la variabilità degli effetti. Uno potrebbe avere CI su quel grafico che sono perfettamente ragionevoli. Vedi Masson & Loftus (2003) per esempi dei grafici degli effetti. Elimina semplicemente le loro barre di errore (praticamente completamente inutili) attorno ai valori medi che mostrano e usa semplicemente le barre di errore degli effetti.

Per il tuo studio, prima sostituivo i dati come è il design 2 x 2 x 2 (2 pannelli 2x2) e quindi tracciavo immediatamente un grafico adiacente con intervalli di confidenza degli effetti di validità, plausibilità, istruzione ed interazione. Inserisci SD e SE per i gruppi di istruzioni in una tabella o nel testo.

(in attesa della risposta prevista per l'analisi degli effetti misti;))

AGGIORNAMENTO: OK, dopo la modifica è chiaro che l'unica cosa che vuoi è una SE da usare per mostrare la qualità della stima del valore. In tal caso, utilizzare i valori del modello. Entrambi i valori si basano su un modello e non esiste un valore "vero" nel campione. Usa quelli del modello che hai applicato ai tuoi dati. MA, assicurati di avvertire i lettori nella didascalia della figura che questi SE non hanno alcun valore inferenziale per gli effetti o le interazioni all'interno di S.

AGGIORNAMENTO2: Guardando indietro ai dati che hai presentato ... sembrano sospettosamente percentuali che non avrebbero dovuto essere analizzate con ANOVA in primo luogo. Che sia o non sia, è una variabile che raggiunge il massimo a 100 e ha varianze ridotte agli estremi, quindi non dovrebbe ancora essere analizzato con ANOVA. Mi piacciono molto le tue trame rm.plot. Sarei ancora tentato di fare grafici separati delle condizioni tra, mostrando i dati grezzi e all'interno delle condizioni che mostrano i dati con la variabilità tra S rimossa.


1
Ho buone ragioni (non statistiche) per tracciare il grafico così com'è: vedi direttamente la risposta alla domanda di ricerca. Inoltre, non sto cercando barre di errore per scopi inferenziali, poiché conosco i problemi intermedi. Ma, grazie a indicarmi di nuovo su Mason & Loftus, devo aver dimenticato che avevano un esempio contrastante. Devo pensare se serve o meno al mio scopo.
Henrik

7

Sembra un esperimento molto bello, quindi congratulazioni!

Sono d'accordo con John Christie, è un modello misto, ma purché possa essere adeguatamente specificato in un design ANOVA (ed è bilanciato) Non vedo perché non possa essere così formulato. Due fattori all'interno e 1 fattore tra i soggetti, ma il fattore tra i soggetti (induttivo / deduttivo) interagisce chiaramente (modifica) gli effetti all'interno dei soggetti. Presumo che i mezzi tracciati provengano dal modello ANOVA (LHS) e quindi il modello sia specificato correttamente. Ben fatto - questo non è banale!

Alcuni punti: 1) L'errore "stimato" vs "effettivo" "è una falsa dicotomia. Entrambi assumono un modello sottostante e fanno stime su tale base. Se il modello è ragionevole, direi che è meglio usare le stime basate sul modello (sono basate sul raggruppamento di campioni più grandi). Ma come menziona James, gli errori differiscono a seconda del confronto che stai facendo, quindi non è possibile una rappresentazione semplice.

2) Preferirei vedere grafici a riquadri o singoli punti dati tracciati (se non ce ne sono troppi), magari con un po 'di jitter laterale, in modo da poter distinguere punti con lo stesso valore.

http://en.wikipedia.org/wiki/Box_plot

3) Se devi tracciare una stima dell'errore della media, non tracciare mai le SD - sono una stima della deviazione standard del campione e si riferiscono alla variabilità della popolazione, non un confronto statistico delle medie. È generalmente preferibile tracciare intervalli di confidenza al 95% piuttosto che SE, ma non in questo caso (vedere 1 e punto di John)

4) L'unico problema con questi dati che mi preoccupa è che l'ipotesi di una varianza uniforme è probabilmente violata poiché i dati "MP validi e plausibili" sono chiaramente vincolati dal limite del 100%, specialmente per le persone deduttive. Sto pensando a me stesso quanto sia importante questo problema. Passare a un logit a effetti misti (probabilità binomiale) è probabilmente la soluzione ideale, ma è una domanda difficile. Potrebbe essere meglio lasciare che gli altri rispondano.


Non sono del tutto sicuro di aver compreso la tua raccomandazione in 1. Poiché l'effettivo SE [vale a dire, SD / sqrt (n)] e l'ES stimato sono entrambi basati sul modello, ti consigliamo di utilizzare quello basato sul modello. Quindi quale? O vuoi dire: vai con il modello più complicato (qui: ANOVA) perché entrambi i modelli sono ragionevoli.
Henrik

concordare completamente con il punto 1
Giovanni,

Ciao Henrik, semplice esempio - confronta due gruppi (x1, x2) assunti ND. Presupposti e modelli: 1) Campionamento indipendente, varianza diversa. SE per x1, x2 stimati separatamente. Questo è implicitamente il presupposto in molte presentazioni grafiche. Gli SE stimati differiscono. 2) Indip., Stessa var. Normale supposizione ANOVA. Stimare le SE utilizzando l'RSS in pool. La stima è più solida Se i presupposti sono corretti. 3) Ogni x1 ha una coppia x2. SE stimati da x1-x2. Per tracciarli efficacemente devi tracciare la differenza x1-x2. Una volta che mescoli 1) e 2) hai un vero problema nel tracciare SE o EC significativi.
Thylacoleo,

Henrik, un commento sulla trama. Quante materie hai? Consiglio vivamente di tracciare i dati individualmente e utilizzare segmenti di linea per collegare le persone. (Il collegamento dei segmenti di linea è ingannevole.) Non è necessario tracciare gli SE. L'idea è di supportare visivamente la tua analisi statistica. A condizione che la trama non diventi troppo ingombra, un lettore dovrebbe vedere (per esempio) che la chiara maggioranza dei punteggi sale da MP-valid-implaus a AC-inval-plaus per il gruppo induttivo e in basso per il gruppo deduttivo. Vedi: jstor.org/stable/2685323?seq=1 Soprattutto i pannelli inferiori delle figure 1 e 9.
Thylacoleo,

3

Ultimamente sto usando l'analisi degli effetti misti e nel tentativo di sviluppare un approccio di analisi dei dati visivi di accompagnamento ho usato il bootstrap ( vedi la mia descrizione qui ), che produce intervalli di confidenza che non sono suscettibili ai problemi all'interno rispetto a tra i problemi di EC convenzionali.

Inoltre, eviterei di mappare più variabili sulla stessa estetica visiva, come hai fatto nel grafico sopra; hai 3 variabili (MP / AC, valide / non valide, plausibili / non plausibili) mappate sull'asse x, il che rende piuttosto difficile analizzare il design e i motivi. Suggerirei invece di mappare, diciamo, MP / AC sull'asse x, valido / non valido per le colonne di sfaccettature e plausibile / non plausibile per le sfaccettature. Controlla ggplot2 in R per ottenere facilmente questo risultato, ad esempio:

library(ggplot2)
ggplot(
    data = my_data
    , mapping = aes(
        y = mean_endorsement
        , x = mp_ac
        , linetype = deductive_inductive
        , shape = deductive_inductive
)+
geom_point()+
geom_line()+
facet_grid(
    plausible_implausible ~ valid_invalid
)

Mike, nel linguaggio del pacchetto R la funzione pvals.fnc fa un MCMC per valutare le ipotesi del modello lmer - tuttavia non gestisce i progetti con pendenze casuali - che mi porta a sospettare che ci fosse qualche motivo per cui MCMC con pendenze casuali era in in qualche modo problematico, sai definitivamente che non esiste un problema del genere?
Russellpierce,

Devo ammettere che non ho ancora capito come funziona MCMC, che è uno dei motivi per cui ho optato per il bootstrap. Mentre il bootstrap dovrebbe essere possibile con pendenze casuali, come hai detto, potrebbe essere che pvals.fnc non ti permetta di fare CI per modelli con pendenze casuali perché questo è per qualche motivo non valido, e inoltre potrebbe essere che questa invalidità si estenda a avvio di tali modelli. Non penso intuitivamente che ci sarebbe qualche problema con il bootstrap, ma potrebbe essere una funzione della mia competenza limitata.
Mike Lawrence,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.