Significato degli errori standard 2.04? Significativamente diversi mezzi quando gli intervalli di confidenza si sovrappongono ampiamente?


10

L'immagine seguente è tratta da questo articolo su Psychological Science . Un collega ha sottolineato due cose insolite al riguardo:

  1. Secondo la didascalia, le barre di errore mostrano "± 2,04 errori standard, l'intervallo di confidenza al 95%". Ho mai visto ± 1,96 SE usato per il 95% CI, e non riesco a trovare nulla su 2.04 SE usato per nessuno scopo. 2.04 SE ha qualche significato accettato ?
  2. Il testo afferma che i confronti pianificati a coppie hanno trovato differenze significative per la grandezza di startle media nell'errore rispetto a prove prevedibili corrette (t (30) = 2,51, p <.01) e errori rispetto a prove imprevedibili corrette (t (30) = 2.61, p <.01) (anche il test omnibus F era significativo a p <.05). Tuttavia, il grafico mostra le barre di errore per tutte e tre le condizioni che si sovrappongono sostanzialmente. Se gli intervalli ± 2.04 SE si sovrappongono, come possono i valori essere significativamente diversi a p <.05? La sovrapposizione è abbastanza grande da supporre che anche gli intervalli di ± 1,96 SE si sovrappongano.

grafico a barre che mostra le barre di errore 2.04 SE


1
Grandi risposte. Vorrei sottolineare che (come già sottolineato da whuber) il confronto degli intervalli di confidenza al 95% non è lo stesso dell'esecuzione di test statistici a livello di significatività 0,05. Ci sono ovviamente articoli che trattano di questo. Se gli intervalli di confidenza sono le uniche statistiche disponibili, Payton et al suggeriscono di utilizzare intervalli dell'85% per il livello di significatività 0,05 per i dati gaussiani. Seguono il loro lavoro qui .
Martin Berglund,

1
Grazie @ Martin. Per chiudere il ciclo: anche se non ho esaminato il documento Payton et al , la base per l'85% è chiara: il valore z corrispondente all'84%, quando al quadrato , è uguale a ; l'aggiunta di due di questi dà ; la sua radice quadrata è , che è praticamente il valore z corrispondente a un intervallo del 95%. Suppongo che Payton abbia arrotondato dall'84% all'85%. In altre parole, la loro raccomandazione (comunque sia stata derivata) può essere spiegata dalla stessa analisi che ho fornito. 4 2242
whuber

@MartinBerglund e whuber Sono arrivati ​​alle tue risposte quando mi chiedevo se il mio calcolo indipendente dell'83,4% degli intervalli di confidenza per l'esecuzione di test statistici a livello 0,05 fosse originale - evidentemente no! Grazie per il riferimento cartaceo, molto utile.
tristan,

Risposte:


11
  1. è il moltiplicatore da utilizzare con una distribuzione Student t con 31 gradi di libertà. Le citazioni suggeriscono chesono appropriati 30 gradi di libertà, nel qual caso il moltiplicatore corretto è 2,042272 2,04 .2.04302.0422722.04

  2. I mezzi vengono confrontati in termini di errori standard . L'errore standard è in genere volte la deviazione standard, doven(presumibilmente circa30+1=31qui) è la dimensione del campione. Se la didascalia è corretta nel chiamare queste barre "errori standard", allora le deviazioni standard devono essere almeno1/nn30+1=31volte maggiore dei valori di circa6come mostrato. Un set di dati di31valori positivi con una deviazione standard di6×5,5=33e una media compresa tra14e18dovrebbe avere la maggior parte dei valori vicini a0e un numero limitato di valori enormi, il che sembra abbastanza improbabile. (Se così fosse, l'intera analisi basata sulle statistiche di Student t non sarebbe comunque valida.) Dovremmo concludere che la figura mostra probabilmentedeviazioni standard,non errori standard.315.56316×5.5=3314180

  3. Il confronto dei mezzi non si basa sulla sovrapposizione (o sulla mancanza di essi) degli intervalli di confidenza. Due IC al 95% possono sovrapporsi, ma possono ancora indicare differenze molto significative. Il motivo è che l'errore standard della differenza nei mezzi ( indipendenti ) è, almeno approssimativamente, la radice quadrata della somma dei quadrati degli errori standard dei mezzi. Ad esempio, se l'errore standard di una media di uguale a 1 e l'errore standard di una media di 17 è uguale a 1 , l'IC della prima media (utilizzando un multiplo di 2,04 ) si estenderà da 11,92 a 16,08 e l'IC di il secondo si estenderà da 14.921411712.0411.9216.0814.92al , con sostanziali sovrapposizioni. Tuttavia la SE della differenza sarà 19.03. La differenza di medie,17-14=3, è maggiore di2,04volte questo valore: è significativa.12+121.411714=32.04

  4. (14,14.01)(15,15.01)(16,16.01)(17,17.01) 0.01


Grazie molto. L'articolo non afferma da nessuna parte che i test post-hoc erano confronti accoppiati tra le risposte di ciascun partecipante sui due tipi di prove, e quindi sono balzato alla conclusione che lo stavano trattando come un confronto tra soggetti (anche se sarebbe meno appropriato e meno potente). Penso che tu debba avere ragione, e stavano facendo il test più sensibile (e più difficile da tracciare). Per quanto riguarda il punto 3, la mia unica risposta è che ho chiaramente bisogno di riapprendere alcune statistiche ...
ottobre

Stavo raccogliendo una frase della tua domanda "confronti pianificati a coppie". Il resto dei risultati citati, tuttavia, suggerisce che non erano confronti a coppie, ma molto probabilmente provenivano da un calcolo simile a quello del punto 3 della mia risposta.
whuber

Quello che intendevo con questo era che stavano facendo test post-hoc confrontando due delle tre condizioni tra loro direttamente, piuttosto che fare un test omnibus che confrontava tutte e 3 le condizioni. Mi dispiace per la confusione. Ma ora che lo guardo, penso che tu abbia avuto comunque ragione. Il modo in cui riportano la statistica del test omnibus ( F(2,60)=5.64, p<.05) implica che si trattava di un test a misure ripetute, e quindi probabilmente lo erano anche i test post hoc.
ottobre

Grazie per l'ottima risposta. "La ragione è che l'errore standard della differenza nei mezzi (indipendenti) è, almeno approssimativamente, la radice quadrata della somma dei quadrati degli errori standard dei mezzi." Sto cercando riferimenti, che discutono di questo ma non sono riuscito a trovarne. Gradirei qualche consiglio a riguardo. Forse qualcuno potrebbe aiutarmi?
Johannes,

@Johannes Il quadrato di SE è proporzionale alla varianza della media campionaria. (La costante di proporzionalità dipende dalla propria definizione e può variare leggermente con la dimensione del campione.) L'indipendenza implica che la varianza della distribuzione campionaria della differenza di medie è la somma dei quadrati delle SE.
whuber

3

Parte della confusione qui è la rappresentazione confusa dei dati. Sembra essere un progetto di misure ripetute, ma le barre di errore sono intervalli di confidenza di quanto è stato stimato il valore medio reale. Uno scopo principale delle misure ripetute è quello di evitare la raccolta di dati sufficienti per ottenere una stima della qualità del valore medio grezzo. Pertanto barre di errore come quelle presentate non hanno praticamente alcuna relazione con la storia raccontata. Il valore dell'interesse critico è l'effetto. Con lo scopo dei grafici di evidenziare il punto principale della storia, rappresentare graficamente gli effetti e i loro intervalli di confidenza sarebbe stato più appropriato.


Grazie! Stavo lottando un po 'per esprimere il motivo per cui il grafico sembrava non rappresentare l'analisi.
ottobre
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.