Come verificare se la media del sottogruppo differisce dal gruppo complessivo che include il sottogruppo?


9

Come posso verificare se la media (ad esempio, la pressione sanguigna) di un sottogruppo (ad esempio, quelli che sono morti) differisce da tutto il gruppo (ad esempio, tutti coloro che hanno avuto la malattia, compresi quelli che sono morti)?

Chiaramente, il primo è un sottogruppo del secondo.

Quale test di ipotesi dovrei usare?


Stai testando una differenza di mezzi?
Macro,

Risposte:


9

Come osserva Michael, quando si confronta un sottogruppo con un gruppo complessivo, i ricercatori in genere confrontano il sottogruppo con il sottoinsieme del gruppo complessivo che non include il sottogruppo.

Pensaci in questo modo.

Se è la proporzione che è morta, e 1 - p è la proporzione che non è morta, ep1p

X¯.=pX¯d+(1p)X¯a

dove è la media complessiva, ˉ X d è la media di quelli che sono morti, e ˉ X a è la media di quelli che sono ancora vivi. PoiX¯.X¯dX¯a

se e solo se quando

X¯dX¯a

X¯dX¯.

Supponiamo che . Quindi ¯ X . p ¯ X d + ( 1 - p ) ¯ X d = ¯ X d .Xd¯Xa¯X.¯pXd¯+(1p)Xd¯=Xd¯

Supponiamo . Quindi ¯ X dp ¯ X d + ( 1 - p ) ¯ X a , quindi ( 1 - p ) ¯ X d( 1 - p ) ¯ X a e da ( 1 - p ) 0 , quindi ¯ X d¯X.¯Xd¯Xd¯pXd¯+(1p)Xun'¯(1-p)Xd¯(1-p)Xun'¯(1-p)0 .Xd¯Xun'¯

Lo stesso si può fare per le disuguaglianze.

Pertanto, i ricercatori in genere verificano la differenza tra il sottogruppo e il sottoinsieme del gruppo complessivo che non include il sottogruppo. Ciò ha l'effetto di mostrare che il sottogruppo differisce dal gruppo complessivo. Inoltre, consente di utilizzare metodi convenzionali come un test t di gruppi indipendenti.


1
Ri: "Dovresti confrontare il sottogruppo con il sottoinsieme del gruppo complessivo che non include il sottogruppo" - sì, questo è un modo per farlo ma pone una domanda leggermente diversa - testa morto contro non morto quando sembra che OP voglia testare la differenza di mezzi tra morti e qualcuno il cui stato di mortalità è sconosciuto, quindi non sono sicuro che dovrebbe essere la parola giusta. È possibile verificare la differenza di mezzi tra il sottoinsieme e il gruppo nel complesso il tempo che conto per la covarianza tra e ¯ X . nel calcolo dell'errore standard. X¯dX¯.
Macro,

@Macro buon punto. Grazie. Ho cambiato un po 'la formulazione in "ricercatori in genere ..."
Jeromy Anglim,

@Marco. Grazie per il commento. Ma come viene calcolata la covarianza di e ˉ X di gruppi non associati (sottogruppo e gruppo)? X¯dX¯
giordano,

@JeromyAnglim non penso che tu abbia bisogno del "tipico". Se scriviamo ciò che hai scritto nella notazione della popolazione (ad esempio mu invece di x-bar) ed esaminiamo le ipotesi null e alternative, con lo stesso argomento che hai fatto, testare che mu è diverso da mu_d è identico a test mu_a è diverso da mu_d. Quindi fare il test t a due campioni è sempre corretto. Quindi invece di solito direi "equivale a condurre questo test con un test t a due campioni"
Richard DiSalvo

2

Il modo per testare qui è confrontare quelli che avevano la malattia e sono morti con quelli che avevano la malattia e non sono morti. È possibile applicare il test t di due campioni o il test somma di rango di Wilcoxon se non si può ipotizzare la normalità.


Può essere più preciso? che tipo di test t due campioni? test t spaiato? Ho pensato per il test t, supponi INDIPENDENZA e NORMALITÀ.
user1061210

1
Quando i gruppi sono separati, come abbiamo suggerito, i campioni sono indipendenti. Il test t sarebbe spaiato perché i sottogruppi non devono essere uguali e non esiste un modo naturale per accoppiare i campioni anche se le dimensioni del campione fossero uguali. Ho citato il test di Wilcoxon perché l'assunzione della normalità potrebbe non essere valida e il test di Wilcoxon non richiede la normalità.
Michael R. Chernick,

0

Quello che devi fare è testare le proporzioni della popolazione (grandi dimensioni del campione). Le statistiche che coinvolgono la proporzione della popolazione hanno spesso dimensioni del campione grandi (n => 30), quindi la normale distribuzione di approssimazione e le statistiche associate sono utilizzate per determinare se la proporzione del campione (pressione sanguigna di coloro che sono morti) = percentuale della popolazione (tutti che ha avuto la malattia, compresi quelli che sono morti).

Cioè, quando la dimensione del campione è maggiore o uguale a 30, possiamo usare le statistiche del punteggio z per confrontare la proporzione del campione con la proporzione della popolazione usando il valore della p-hat di deviazione standard del campione, per stimare la deviazione standard del campione, p se non è noto.

La distribuzione del campione di P (proporzione) è approssimativamente normale con un valore medio o atteso, E (P) = p-hat ed errore standard, sigma (r) = sqrt (p * q / n).

Di seguito sono riportate le probabili domande di ipotesi di test che si possono porre confrontando due proporzioni:

  1. (Test a due code)

H0: p-hat = p vs H1: p-hat non uguale a p

  1. (Test dalla coda destra)

H0: p-hat = p vs H1: p-hat> p

  1. (Test dalla coda sinistra)

H0: p-hat = p vs H1: p-hat <p

Le statistiche utilizzate per testare campioni di grandi dimensioni sono;

Le statistiche del test sono correlate alla distribuzione normale standard:

Le statistiche del punteggio z per le proporzioni

p-hat-p / sqrt (pq / n)

, dove p = stima proporzionale, q = 1-p ed è la proporzione della popolazione.

La media proporzionale è:

np / n = p-hat = x / n

Deviazione standard:

= sqrt (npq / n) = sqrt (pq / n)

Regole di decisione:

Test coda superiore (): (H0: cappello a P> = P)

Accetta H0 se Z <= Z (1-alfa)

Rifiuta H0 se Z> Z (1-alfa)

Test della coda inferiore (Ha: P-hat <= P):

Accetta H0 se Z> = Z (1-alfa)

Rifiuta H0 se Z

Test a due code (Ha: cappello a P non uguale a P):

Accetta H0 se Z (alfa / 2) <= Z <= Z (1-alfa / 2)

Rifiuta H0 se Z <Z (alpha / 2) o se Z> Z (1-alpha / 2)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.