Dimensioni del campione piccole e sbilanciate per due gruppi: cosa fare?


10

Ho dei dati per due gruppi (cioè campioni) che vorrei confrontare ma la dimensione totale del campione è piccola (n = 29) e fortemente sbilanciata (n = 22 vs n = 7).

Questi dati sono logisticamente difficili e costosi da raccogliere, quindi mentre "raccogliere più dati" come soluzione ovvia non è utile in questo caso.

Sono state misurate una serie di variabili diverse (data di partenza, data di arrivo, durata della migrazione, ecc.), Quindi esistono più test, alcuni dei quali le varianze sono molto diverse (il campione più piccolo ha una varianza più elevata).

Inizialmente un collega ha eseguito i test t su questi dati e alcuni erano statisticamente significativi con P <0,001, un altro non era significativo con P = 0,069. Alcuni campioni erano normalmente distribuiti, altri no. Alcuni test hanno comportato grandi deviazioni da varianze "uguali".

Ho diverse domande:

  1. i t-test sono appropriati qui? Se no, perché? Questo si applica solo ai test in cui sono soddisfatte le ipotesi di normalità e uguaglianza delle varianze?
  2. quali sono le alternative adatte? Forse un test di permutazione?
  3. varianza ineguale gonfia l'errore di tipo I, ma come? e quale effetto ha la dimensione ridotta e sbilanciata del campione sull'errore di tipo I?

Risposte:


11

I T-test che assumono varianze uguali tra le due popolazioni non sono validi quando le due popolazioni hanno varianze diverse, ed è peggio per dimensioni del campione disuguali. Se la dimensione del campione più piccola è quella con la varianza più elevata, il test avrà un errore di tipo I gonfiato). La versione Welch-Satterthwaite del test t, d'altra parte, non assume varianze uguali. Se stai pensando al test di permutazione di Fisher-Pitman, anche esso assume varianze uguali (se vuoi inferire medie disuguali da un basso valore p).

Ci sono molte altre cose a cui potresti pensare:

(1) Se le variazioni sono chiaramente disuguali, sei ancora così interessato a una differenza tra i mezzi?

(2) Le stime degli effetti potrebbero esserti più utili dei valori p?

(3) Vuoi considerare la natura multivariata dei tuoi dati, piuttosto che fare semplicemente una serie di confronti univariati?


Ciao Scortchi, grazie per la tua risposta. Ho considerato le domande che hai posto:
Decano il

2
(1) Sia la varianza che la media possono essere informative per il nostro studio (ad esempio, le date di partenza della migrazione possono essere significativamente successive per una popolazione E l'intervallo nelle date di partenza è più variabile).
Decano il

3
(1) L'ho appena menzionato perché le persone spesso vedono le disparità di disparità esclusivamente come un problema tecnico e dimenticano che è un fatto interessante a sé stante.
Scortchi - Ripristina Monica

2
(2) Il mio punto era più che un elenco di valori p è generalmente meno utile di un elenco di stime della dimensione dell'effetto (che potrebbero essere medie, mediane, varianze o altro) con intervalli di confidenza. Soprattutto con piccoli campioni, gli intervalli di confidenza possono mostrare se le dimensioni dell'effetto di importanza pratica sono ancora in accordo con i dati anche quando il valore p è alto.
Scortchi - Ripristina Monica

2
(3) Stavo pensando a una variabile indipendente (gruppo) e diverse variabili dipendenti (tempo di migrazione ecc.): Una differenza interessante tra i gruppi potrebbe essere un cambiamento nella relazione tra variabili dipendenti. Un primo passo sarebbe una bella matrice con diagrammi a riquadri o dotplot che confrontano ogni DV tra i gruppi lungo la diagonale e diagrammi a dispersione per ogni coppia di DV (ancora distinguendo i gruppi) nelle altre celle. E a dire il vero, per un'analisi esplorativa con campioni di piccole dimensioni, potrebbe essere l'ultimo passo.
Scortchi - Ripristina Monica

1

In primo luogo, come già sottolineato da Scortchi, il test T non si adatta molto bene ai tuoi dati, a causa dei suoi presupposti sulla distribuzione dei dati.

Al tuo secondo punto, proporrei un'alternativa al T-test. Se il tuo interesse riguarda solo il fatto, se le distribuzioni dei tuoi due campioni sono uguali o meno, puoi anche provare a utilizzare la versione a due facciate del test di somma dei ranghi di Wilcoxon. Il test di somma dei ranghi di Wilcoxon è un test non parametrico. Questo tipo di test è particolarmente utile, se non si è sicuri della distribuzione sottostante dei dati.

Esiste una soluzione esatta del test per campioni di piccole dimensioni e per grandi coorti. Inoltre, esiste anche un pacchetto R che realizza il test di somma dei ranghi di Wilcoxon.

Poiché si tratta di un test privo di parametri e gestisce anche campioni di piccole dimensioni, il test dovrebbe adattarsi bene al tuo caso di test.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.