Come calcolare l'intervallo di confidenza della media dei mezzi?


19

Immagina di ripetere tre volte un esperimento. In ogni esperimento, raccogli misurazioni triplicate. I triplicati tendono ad essere abbastanza vicini tra loro, rispetto alle differenze tra i tre mezzi sperimentali. Calcolare la media è piuttosto semplice. Ma come si può calcolare un intervallo di confidenza per il grande significato?

Dati di esempio:

Esperimento 1: 34, 41, 39

Esperimento 2: 45, 51, 52

Esperimento 3: 29, 31, 35

Supponiamo che i valori replicati all'interno di un esperimento seguano una distribuzione gaussiana, così come i valori medi di ciascun esperimento. La SD di variazione all'interno di un esperimento è più piccola della SD tra i mezzi sperimentali. Supponiamo anche che non vi sia alcun ordinamento dei tre valori in ciascun esperimento. L'ordine da sinistra a destra dei tre valori in ciascuna riga è del tutto arbitrario.

L'approccio semplice consiste nel calcolare prima la media di ciascun esperimento: 38.0, 49.3 e 31.7, quindi calcolare la media e il suo intervallo di confidenza al 95% di questi tre valori. Usando questo metodo, la media grande è 39.7 con l'intervallo di confidenza del 95% che va da 17,4 a 61,9.

Il problema con questo approccio è che ignora totalmente la variazione tra i triplicati. Mi chiedo se non ci sia un buon modo per giustificare quella variazione.


1
Non una risposta, solo un'osservazione intuitiva. L'IC per la media dei dati aggregati (tutti e nove gli obs) è , l'IC basato solo sulla media è ( 39,7 ± 12,83 ) . Non sono sicuro di cosa stia facendo il tuo CI (errore di battitura? 17 non 27 e 51 non 61?), Ottengo 2,98 per std err di tre mezzi e 4,30 come 0,975 quantile di T dist con 2 df. Penserei che l'IC che cerchi si collochi da qualche parte tra questi due - dato che hai un pool parziale. Potrebbe anche pensare in termini di varianza formula V ( Y ) = E [ V ( Y(39.7±2.13)(39.7±12.83)2.984.300.975 , ogni elemento della configurazione utilizza metà della formulaV(Y)=E[V(Y|Yg)]+V[E(Y|Yg)]
Probislogic

2
@probabilityislogic: il SEM dei tre mezzi dell'esperimento è 5.168 (non 2.98 come hai scritto) e l'intervallo di confidenza che ho dato nel post originale (da 17,4 a 61,9) è corretto. Il SEM viene calcolato dalla SD (8,95) dividendo per la radice quadrata di n (radice quadrata di 3). Hai diviso invece per n (3).
Harvey Motulsky,

il mio errore, dovrebbe anche sostituire con 6,40 nell'intervallo aggregato (stesso errore lì)2.136.40
Probislogic

il seguente link risponde 'questo? talkstats.com/showthread.php/11554-mean-of-means

@TST, sembra che non ci sia altro che un link a Wikipedia sulla varianza in pool . Ti interessa elaborare?
chl,

Risposte:


6

Esiste un intervallo di confidenza esatto naturale per la nonna nel modello ANOVA unidirezionale casuale bilanciato In effetti, è facile verificare che la distribuzione dei mezzi osservati ˉ y i sia ˉ y i iid N ( μ , τ 2 ) con τ 2 = σ 2 b + σ 2 w

(yioj|μio)~iidN(μio,σw2),j=1,...,J,μio~iidN(μ,σB2),io=1,...,io.
y¯ioy¯io~iidN(μ,τ2) , ed è noto che la somma tra i quadratiSSbha distribuzioneSSbJτ2χ 2 I - 1 ed è indipendente dalla media complessiva osservata ˉ yN(μ,τ2τ2=σB2+σw2JSSB
SSB~Jτ2χio-12
. Quindi ˉ y -μ
y¯~N(μ,τ2io)
ha unadistribuzionet diStudentconI-1gradi di libertà, da cui è facile ottenere un intervallo di confidenza esatto di circaμ.
y¯-μ1ioSSBJ(io-1)
tio-1μ

Si noti che questo intervallo di confidenza non è altro che l'intervallo classico per una media gaussiana considerando solo il gruppo significa come osservazioniy¯io . Quindi l'approccio semplice che menzioni:

L'approccio semplice consiste nel calcolare prima la media di ciascun esperimento: 38.0, 49.3 e 31.7, quindi calcolare la media e il suo intervallo di confidenza al 95% di questi tre valori. Usando questo metodo, la media grande è 39.7 con l'intervallo di confidenza del 95% che va da 17,4 a 61,9.

è giusto. E la tua intuizione sulla variazione ignorata:

Il problema con questo approccio è che ignora totalmente la variazione tra i triplicati. Mi chiedo se non ci sia un buon modo per giustificare quella variazione.

è sbagliato. Cito anche la correttezza di tale semplificazione in /stats//a/72578/8402

Aggiornamento 12/04/2014

Alcuni dettagli sono ora scritti sul mio blog: Ridurre un modello per ottenere intervalli di confidenza .


Qualche aiuto nell'implementazione di questa soluzione in Python? stackoverflow.com/questions/45682437/...
blehman

7

Questa è una domanda di stima all'interno di un modello lineare di effetti misti. Il problema è che la varianza della media generale è una somma ponderata di due componenti di varianza che devono essere stimati separatamente (tramite un ANOVA dei dati). Le stime hanno diversi gradi di libertà. Pertanto, sebbene si possa tentare di costruire un intervallo di confidenza per la media usando le solite formule di piccolo campione (Student t), è improbabile che raggiunga la sua copertura nominale perché le deviazioni dalla media non seguiranno esattamente una distribuzione t di Student.

Un recente articolo (2010) di Eva Jarosova, Stima con il modello lineare a effetti misti , tratta questo problema. (A partire dal 2015 non sembra più essere disponibile sul Web.) Nel contesto di un "piccolo" set di dati (anche così, circa tre volte più grande di questo), usa la simulazione per valutare due calcoli approssimativi di CI (il pozzo nota approssimazione di Satterthwaite e "metodo di Kenward-Roger"). Le sue conclusioni includono

Uno studio di simulazione ha rivelato che la qualità della stima dei parametri di covarianza e, di conseguenza, l'adeguamento degli intervalli di confidenza in piccoli campioni può essere piuttosto scadente ... Una scarsa stima può influenzare non solo il vero livello di confidenza degli intervalli convenzionali, ma può anche rendere impossibile l'adeguamento. È ovvio che anche per dati bilanciati tre tipi di intervalli [convenzionale, Satterthwaite, KR] possono differire sostanzialmente. Quando si osserva una notevole differenza tra gli intervalli convenzionali e quelli corretti, è necessario verificare gli errori standard delle stime dei parametri di covarianza. D'altra parte, quando le differenze tra [i tre] tipi di intervalli sono piccole, l'adeguamento sembra non essere necessario.

In breve, sembra essere un buon approccio

  1. Calcola un CI convenzionale usando le stime dei componenti di varianza e fingendo che si applichi una distribuzione t.

  2. Calcola anche almeno uno degli EC adattati.

  3. Se i calcoli sono "vicini", accetta l'IC convenzionale. In caso contrario, segnalare che non vi sono dati sufficienti per produrre un elemento della configurazione affidabile.


L'uso dei componenti di varianza porta allo stesso intervallo di confidenza che ho calcolato nel post originale. La tabella ANOVA ha una SS tra le colonne di 480.7 con 2 df, il che significa che la MS è 240.3. La SD è sqrt (MSbetween / n) = sqrt (240.3 / 3) = 8.95, che porta allo stesso CI I originariamente pubblicato (da 17,4 a 61,9). Ho trovato molto difficile seguire il documento Jarasova che hai citato, e non sono del tutto sicuro che sia rilevante qui (sembra riguardare progetti di misure ripetute). ???
Harvey Motulsky,

@Harvey La tua descrizione suona sicuramente come misure ripetute per me! Credo che il documento Jarasova sia perfetto.
whuber

1
Sto pensando alla situazione comune nei laboratori in cui i triplicati sono semplicemente tre diverse provette (o pozzi). L'ordine dei tre presentato nella tabella è arbitrario. Non esiste alcuna connessione o correlazione tra il replicato n. 2 nel primo esperimento con il replicato n. 2 nel secondo o terzo esperimento. Ogni esperimento ha solo tre misurazioni. Quindi non misure davvero ripetute. Giusto?
Harvey Motulsky,

whuber, c'è una distribuzione esatta degli studenti qui. Vedi la mia risposta
Stéphane Laurent,

@whuber il link che fornisci per l'articolo di Eva Jarasova è morto e una ricerca su Google non ha prodotto nulla. Puoi correggere il riferimento?
Placidia,

0

Non puoi avere un intervallo di confidenza che risolva entrambi i tuoi problemi. Devi sceglierne uno. Puoi derivarne uno da un termine di errore quadrato medio all'interno della varianza dell'esperimento che ti consente di dire qualcosa su quanto accuratamente puoi stimare i valori all'interno dell'esperimento o puoi farlo tra e sarà tra gli esperimenti. Se ho appena fatto il primo, tenderei a volerlo tracciare attorno a 0 anziché attorno alla media generale perché non ti dice nulla sul valore medio effettivo, ma solo su un effetto (in questo caso 0). Oppure potresti semplicemente tracciare entrambi e descrivere ciò che fanno.

Hai una maniglia tra l'uno e l'altro. Per l'interno è proprio come calcolare il termine di errore in un ANOVA per far funzionare un MSE e da lì il SE per l'IC è solo sqrt (MSE / n) (n = 3 in questo caso).


In realtà puoi avere un intervallo credibile per ogni media e per la media. Basta usare un modello multilivello bayesiano. A volte questo tipo di stima è chiamato pool parziale. Il problema è il piccolo campione, credo.
Manoel Galdino,

Potresti avere un intervallo di confidenza per ogni media e anche per la media ... ma sono cose diverse ... proprio come gli intervalli credibili. Ho interpretato la domanda come relativa agli IC rispetto alla varianza all'interno dello studio e al mezzo come aggregato. Tutto ti lascia ancora con diversi CI che significano cose diverse. (Anche io non ho preso la lettera alla lettera)
John,

1
Inoltre, il modo in cui intendevo dire non è realmente "impossibile". Potresti in qualche modo trovare una singola equazione che calcola un intervallo di confidenza per tutto. Non significherebbe nulla di sensato. Questo è ciò che intendevo dire impossibile.
John,

Pochi minuti dopo aver scritto il mio commento mi sono reso conto che non dovevamo prendere letteralmente n. Ma era troppo tardi per modificarlo =).
Manoel Galdino

0

Penso che l'IC per la media sia troppo ampio [17,62] anche per la gamma di dati originali.

Questi esperimenti sono MOLTO comuni in chimica. Ad esempio, nella certificazione di materiali di riferimento è necessario prelevare alcune bottiglie da un lotto intero in modo casuale e eseguire analisi replicate su ciascuna bottiglia. Come si calcola il valore di riferimento e la sua incertezza? Ci sono molti modi per farlo, ma il più sofisticato (e corretto, credo) sta applicando la meta-analisi o ML (Dersimonian-Laird, Vangel-Rukhin, ecc.)

Che dire delle stime bootstrap?


1
La simulazione (10.000 prove con effetti ed errori principali normalmente distribuiti) indica che [21, 58] è un IC simmetrico al 95% bilaterale per la media.
whuber

whuber: Sarei curioso di sapere come hai fatto quelle simulazioni. Bootstrap dai dati originali? O davvero simulazioni? Se quest'ultimo, quale valore di media e SD hai usato per simulare i dati ??
Harvey Motulsky,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.