È necessaria una dimensione minima del campione affinché il test t sia valido?


71

Attualmente sto lavorando a un documento di ricerca quasi sperimentale. Ho solo una dimensione del campione di 15 a causa della scarsa popolazione all'interno dell'area scelta e che solo 15 soddisfano i miei criteri. 15 è la dimensione minima del campione da calcolare per il test t e il test F? In tal caso, dove posso ottenere un articolo o un libro per supportare questo piccolo campione?

Questo documento è stato già difeso lo scorso lunedì e uno dei membri del panel ha chiesto di avere un riferimento a sostegno perché la mia dimensione del campione è troppo bassa. Ha detto che avrebbero dovuto essere almeno 40 gli intervistati.


4
Una dimensione del campione può essere sostanzialmente inferiore a 15 se le ipotesi valgono. La validità della distribuzione t era l'unica ragione per cui ha suggerito un campione più ampio?
Glen_b,

Giusto per chiarire, che tipo di test t stai eseguendo: un campione, campione accoppiato o due campioni.
Jeromy Anglim,

26
Storicamente, la prima dimostrazione del test t (nel documento di "Student" del 1908) era in una domanda per campionare dimensioni di quattro dimensioni . In effetti, ottenere risultati migliori per piccoli campioni è la richiesta del test di fama: una volta che la dimensione del campione raggiunge circa 40, il test t non è sostanzialmente diverso da quello che i ricercatori hanno applicato nel corso del XIX secolo. È possibile condividere una versione moderna di questo documento con il membro del panel: york.ac.uk/depts/maths/histstat/student.pdf . Indicare l'inchiesta nella sezione VI, pagg. 14-18.
whuber

10
Ma dovresti ponderare sul fatto che campioni di piccole dimensioni come 4 funzionano perché lo studente aveva dati di alta qualità: dati di laboratorio chimico, esperimenti, non quasi esperimenti. Il tuo problema principale non riguarda le dimensioni del campione ma la rappresentatività: come fai a sapere che i tuoi dati sono rappresentativi di qualcosa?
kjetil b halvorsen,

10
@CzarinaFrancoise Perché dovremmo limitarci alla scienza <10 anni?
RioRaider,

Risposte:


56

Non esiste una dimensione minima del campione affinché il test t sia valido. La validità richiede che le ipotesi per la statistica del test rimangano approssimativamente. Tali ipotesi sono nel caso di un campione che i dati sono normali (o approssimativamente normali) con media 0 sotto l'ipotesi nulla e una varianza sconosciuta ma stimata dal campione. Nel caso di due campioni è che entrambi i campioni sono indipendenti l'uno dall'altro e ogni campione è costituito da variabili normali iid con i due campioni aventi la stessa media e una varianza sconosciuta comune sotto l'ipotesi nulla. Per la statistica viene utilizzata una stima aggregata della varianza.

Nel caso di un esempio, la distribuzione secondo l'ipotesi nulla è una t centrale con n-1 gradi di libertà. Nei due casi campione con dimensioni del campione n e m non necessariamente uguali, la distribuzione nulla delle statistiche del test è t con n + m-2 gradi di libertà. L'aumentata variabilità dovuta alla bassa dimensione del campione è spiegata nella distribuzione che ha code più pesanti quando i gradi di libertà sono bassi che corrispondono a una dimensione ridotta del campione. Pertanto, è possibile trovare valori critici per la statistica del test con un determinato livello di significatività per qualsiasi dimensione del campione (beh, almeno di dimensione 2 o superiore).

Il problema con le dimensioni ridotte del campione riguarda la potenza del test. Il revisore può aver ritenuto che il 15 per gruppo non fosse sufficientemente grande per avere una potenza elevata nel rilevare una differenza significativa, ad esempio delta tra i due mezzi o una media maggiore del delta in valore assoluto per un problema di un campione. Il bisogno di 40 richiederebbe una specifica di una certa potenza in un particolare delta che sarebbe raggiunta con n uguale a 40 ma non inferiore a 40.

Vorrei aggiungere che per eseguire il test t il campione deve essere abbastanza grande da stimare la varianza o le varianze.


2
Ma una nota importante è che il test è valido, anche se i dati non sono approssimativamente normali, se la dimensione del campione è abbastanza grande. La giustificazione è un po 'rotonda (il teorema di Slutsky + la distribuzione t si avvicina alla normalità) e la giustificazione per l'uso su un test z è semplicemente che è più conservativa in campioni più piccoli. Ma è una nota importante che se si sospetta la non normalità, campioni di grandi dimensioni possono salvarci!
Cliff AB,

1
@CliffAB Per "valido" presumo che intendi "ha approssimativamente il giusto livello di significatività, nel limite da n \ a \ infty". Ma generalmente le persone si preoccupano di più del tasso di errore di tipo I (specialmente quando potrebbe essere ragionevolmente vicino a campioni che potrebbero essere più grandi di qualsiasi dimensione del campione a portata di mano). L'efficienza relativa asintotica può essere davvero molto scarsa, quindi la potenza contro piccoli effetti in campioni di grandi dimensioni può essere molto negativa rispetto alle scelte alternative, anche se il tasso di errore di tipo I diventa quello che dovrebbe essere ..
Glen_b

33

Con tutto il rispetto per lui, non sa di cosa sta parlando. Il test t è stato progettato per lavorare con piccoli campioni. Non c'è davvero un minimo (forse potresti dire un minimo di 3 per un test t di un campione, IDK), ma hai una preoccupazione per quanto riguarda la potenza adeguata con piccoli campioni. Potresti essere interessato a leggere le idee alla base dell'analisi della potenza di compromesso quando la possibile dimensione del campione è fortemente limitata, come nel tuo caso.

Per quanto riguarda un riferimento che dimostra che è possibile utilizzare il test t con piccoli campioni, non ne conosco uno e dubito che esista. Perché qualcuno dovrebbe provare a dimostrarlo? L'idea è sciocca.


6
+1 (a te e Michael). Di interesse, non hai nemmeno bisogno di due osservazioni per fare inferenze se sei disposto a fare una serie di ipotesi!
Andy W,

4
Il motivo del test t in un piccolo campione è che anche quando i campioni sono normali se la deviazione standard è sconosciuta, la cosa comune da fare è normalizzare dividendo per una stima del campione della deviazione standard. In grandi campioni tale stima sarà abbastanza vicina alla deviazione standard della popolazione che la statistica del test sarà approssimativamente normale normale, ma in un campione piccolo avrà code più pesanti rispetto alla normale.
Michael Chernick,

5
La distribuzione t con n-1 gradi di libertà è la distribuzione esatta per qualsiasi dimensione del campione n sotto l'ipotesi nulla e in piccoli campioni deve essere usato al posto del normale che non si avvicina bene. Il vero problema con la dimensione del campione, come ho affermato sia il gung, sia il potere. Se vuoi discutere con l'arbitro che 15 è sufficiente, devi identificare la differenza necessaria per essere definito significativo (il delta di cui ho parlato) e quindi per quel delta devi dimostrare che il potere è adeguato, ad esempio 0.80 o superiore .
Michael Chernick,

2
@CzarinaFrancoise Informazioni su n> = 30, vedi stats.stackexchange.com/questions/2541/…
Stéphane Laurent,

2
Il documento originale di @gung Student (1908!) dimostra che è possibile utilizzare il test t con piccoli campioni. (Per ulteriori informazioni a riguardo, si prega di fare riferimento al mio commento esteso alla domanda originale.)
whuber

30

Come menzionato nelle risposte esistenti, il problema principale con una piccola dimensione del campione è il basso potere statistico. Esistono varie regole empiriche per quanto riguarda il potere statistico accettabile. Alcune persone dicono che l'80% del potere statistico è ragionevole, ma alla fine è meglio di più. Esiste anche generalmente un compromesso tra il costo di ottenere più partecipanti e il vantaggio di ottenere più potere statistico.

È possibile valutare il potere di statistica di a test utilizzando una semplice funzione di R, power.t.test.

α=.05

p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')

round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)  

    [,1]
p.2 0.11
p.5 0.44
p.8 0.82

Quindi, possiamo vedere che se la dimensione dell'effetto della popolazione fosse "piccola" o "media", avresti un basso potere statistico (rispettivamente 11% e 44%). Tuttavia, se la dimensione dell'effetto è grande nella popolazione, avresti quello che alcuni definiscono un potere "ragionevole" (cioè l'82%).

Il sito web Quick-R fornisce ulteriori informazioni sulle analisi di potenza usando R .


Bella risposta! Inoltre esiste un buon software per il calcolo della potenza statistica chiamato G * Power .
Enrique,

7

Il test t a due campioni è valido se i due campioni sono campioni casuali semplici indipendenti da distribuzioni normali con la stessa varianza e ciascuna delle dimensioni del campione è almeno due (in modo che la varianza della popolazione possa essere stimata.) Le considerazioni sulla potenza sono irrilevante per la questione della validità del test. A seconda della dimensione dell'effetto che si desidera rilevare, una piccola dimensione del campione può essere imprudente, ma una piccola dimensione del campione non invalida il test. Si noti inoltre che per qualsiasi dimensione del campione, la distribuzione campionaria della media è Normale se la distribuzione padre è Normale. Ovviamente, campioni di dimensioni maggiori sono sempre migliori perché forniscono stime più precise dei parametri. Il Teorema del limite centrale ci dice che le medie campionarie sono normalmente più distribuite dei singoli valori, ma come sottolineato da Casella e Berger, è di utilità limitata poiché il tasso di approccio alla Normalità deve essere verificato per ogni caso particolare. Affidarsi alle regole empiriche non è saggio. Vedi i risultati riportati dai libri di Rand Wilcox.


5

Mentre è vero che la distribuzione t tiene conto della piccola dimensione del campione, suppongo che il tuo arbitro stesse pensando alla difficoltà di stabilire che la popolazione è normalmente distribuita, quando l'unica informazione che hai è un campione relativamente piccolo? Questo potrebbe non essere un grosso problema con un campione di dimensione 15, dal momento che il campione si spera sia abbastanza grande da mostrare alcuni segni di una distribuzione vagamente normale? Se questo è vero, si spera che anche la popolazione sia in qualche modo quasi normale e, in combinazione con il Teorema del limite centrale, che dovrebbe darti un esempio significa che si sono comportati abbastanza bene.

Ma sono dubbioso sulle raccomandazioni per usare i test t per piccoli campioni (come la dimensione quattro) a meno che la normalità della popolazione non possa essere stabilita da alcune informazioni esterne o comprensione meccanica? Non può sicuramente esserci un numero di informazioni abbastanza vicino in un campione di dimensioni quattro per avere qualche indizio sulla forma della distribuzione della popolazione.


5

Considera quanto segue dalle pagg. 254-256 di Sauro, J., & Lewis, JR (2016). Quantificazione dell'esperienza utente: statistiche pratiche per la ricerca dell'utente, 2a edizione. Cambridge, MA: Morgan-Kaufmann (puoi dare un'occhiata all'interno di https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).


AVETE BISOGNO DI TESTARE ALMENO 30 UTENTI?

DA UNA PARTE

Probabilmente la maggior parte di noi che ha frequentato una lezione di statistica introduttiva (o conosce qualcuno che ha preso una tale lezione) ha sentito la regola empirica che per stimare o confrontare i mezzi, la dimensione del campione dovrebbe essere almeno 30. Secondo il teorema del limite centrale, all'aumentare della dimensione del campione, la distribuzione della media diventa sempre più normale, indipendentemente dalla normalità della distribuzione sottostante. Alcuni studi di simulazione hanno dimostrato che per un'ampia varietà di distribuzioni (ma non tutte — vedi Bradley, 1978), la distribuzione della media diventa quasi normale quando n = 30.

Un'altra considerazione è che è leggermente più semplice usare i punteggi z anziché i punteggi t poiché i punteggi z non richiedono l'uso di gradi di libertà. Come mostrato nella Tabella 9.1 e nella Figura 9.2, quando hai circa 30 gradi di libertà il valore di t si avvicina al valore di z. Di conseguenza, si può avere la sensazione che non si debba trattare di piccoli campioni che richiedono statistiche su piccoli campioni (Cohen, 1990). ...

D'ALTRO CANTO

Quando il costo di un campione è costoso, come avviene di solito in molti tipi di ricerche sugli utenti (ad esempio, test di usabilità moderati), è importante stimare le dimensioni del campione necessarie nel modo più accurato possibile, con la consapevolezza che si tratta di una stima. La probabilità che 30 sia esattamente il campione giusto per una determinata serie di circostanze è molto bassa. Come mostrato nei nostri capitoli sulla stima della dimensione del campione, un approccio più appropriato è quello di prendere le formule per calcolare i livelli di significatività di un test statistico e, usando l'algebra per risolvere n, convertirle in formule di stima della dimensione del campione. Tali formule forniscono quindi una guida specifica su ciò che devi sapere o stimare per una determinata situazione per stimare la dimensione del campione richiesta.

L'idea che anche con la distribuzione t (al contrario della distribuzione z) sia necessario avere una dimensione del campione di almeno 30 non è coerente con la storia dello sviluppo della distribuzione. Nel 1899, William S. Gossett, un neolaureato del New College di Oxford con una laurea in chimica e matematica, divenne uno dei primi scienziati a unirsi al birrificio Guinness. “Rispetto ai giganti del suo tempo, ha pubblicato pochissimo, ma il suo contributo è di fondamentale importanza. ... La natura del processo di fermentazione, con la sua variabilità di temperatura e ingredienti, significa che non è possibile prelevare campioni di grandi dimensioni a lungo termine ”(Cowles, 1989, pagg. 108-109).

Ciò significava che Gossett non poteva usare gli z-score nel suo lavoro: semplicemente non funzionano bene con piccoli campioni. Dopo aver analizzato le carenze della distribuzione z per i test statistici con piccoli campioni, ha elaborato gli adattamenti necessari in funzione dei gradi di libertà per produrre le sue tabelle t, pubblicati sotto lo pseudonimo di "Studente" a causa delle politiche di Guinness che vietano la pubblicazione dai dipendenti (Salsburg, 2001). Nel lavoro che ha portato alla pubblicazione dei tavoli, Gossett ha eseguito una prima versione delle simulazioni Monte Carlo (Stigler, 1999). Ha preparato 3000 carte etichettate con misure fisiche prese su criminali, le ha mescolate, poi le ha distribuite in 750 gruppi di dimensioni 4, una dimensione del campione molto più piccola di 30.

LA NOSTRA RACCOMANDAZIONE

Questa controversia è simile all'argomento "cinque è abbastanza" contro "otto non è abbastanza" trattato nel capitolo 6, ma applicato alla ricerca sommativa piuttosto che a quella formativa. Per qualsiasi ricerca, il numero di utenti da testare dipende dallo scopo del test e dal tipo di dati che prevedi di raccogliere. Il "numero magico" 30 ha una logica empirica, ma a nostro avviso è molto debole. Come puoi vedere dai numerosi esempi in questo libro che hanno dimensioni del campione non uguali a 30 (a volte meno, a volte più), non teniamo questa regola empirica in grande considerazione. Come descritto nel nostro capitolo sulla dimensione del campione per la ricerca sommativa, la dimensione del campione appropriata per uno studio dipende dal tipo di distribuzione, dalla variabilità attesa dei dati, dai livelli desiderati di sicurezza e potenza,

Come illustrato nella figura 9.2, quando si utilizza la distribuzione t con campioni molto piccoli (ad esempio, con gradi di libertà inferiori a 5), ​​i valori molto grandi di t compensano le piccole dimensioni del campione per quanto riguarda il controllo degli errori di tipo I ( rivendicare una differenza è significativo quando in realtà non lo è). Con dimensioni dei campioni così piccole, gli intervalli di confidenza saranno molto più ampi di quelli che otterresti con campioni più grandi. Ma una volta che hai a che fare con più di 5 gradi di libertà, c'è davvero poca differenza assoluta tra il valore di z e il valore di t. Dal punto di vista dell'approccio da t a z, c'è molto poco guadagno oltre i 10 gradi di libertà.

Usare la distribuzione t non è molto più complicato della distribuzione z (devi solo essere sicuro di usare il giusto valore per i gradi di libertà), e il motivo per lo sviluppo della distribuzione t era abilitare l'analisi di piccoli campioni. Questo è solo uno dei modi meno ovvi in ​​cui i professionisti dell'usabilità beneficiano della scienza e della pratica della produzione della birra. Gli storici della statistica considerano ampiamente la pubblicazione da parte di Gossett del test t di Student come un evento di riferimento (Box, 1984; Cowles, 1989; Stigler, 1999). In una lettera a Ronald A. Fisher (uno dei padri delle statistiche moderne) contenente una prima copia delle tabelle t, Gossett scrisse: "Probabilmente sei l'unico uomo che le userà mai" (Box, 1978). Gossett ha fatto un sacco di cose giuste, ma sicuramente ha sbagliato.

RIFERIMENTI

Box, GEP (1984). L'importanza della pratica nello sviluppo delle statistiche. Technometrics, 26 (1), 1-8.

Box, JF (1978). Fisher, la vita di uno scienziato. New York, NY: John Wiley.

Bradley, JV (1978). Robustezza? British Journal of Mathematical and Statistical Psychology, 31, 144-152.

Cohen, J. (1990). Cose che ho imparato (finora). Psicologo americano, 45 (12), 1304-1312.

Cowles, M. (1989). Statistica in psicologia: una prospettiva storica. Hillsdale, New Jersey: Lawrence Erlbaum.

Salsburg, D. (2001). La signora che assaggia il tè: come le statistiche hanno rivoluzionato la scienza nel ventesimo secolo. New York, NY: WH Freeman.

Stigler, SM (1999). Statistiche sul tavolo: la storia di concetti e metodi statistici. Cambridge, MA: Harvard University Press.


3

Czarina potrebbe trovare interessante confrontare i risultati del suo test t parametrico con i risultati ottenuti da un test t bootstrap. Il seguente codice per Stata 13/1 imita un esempio fittizio riguardante un test t a due campioni con varianze ineguali (test t parametrico: valore p = 0,1493; test t bootstrap: valore p = 0,1543).

set obs 15
g A=2*runiform()
g B=2.5*runiform()
ttest A == B, unpaired unequal
scalar t =r(t)
sum A, meanonly
replace A=A-r(mean) + 1.110498 ///1.110498=combined mean of A and B
sum B, meanonly
replace B=B-r(mean) + 1.110498
bootstrap r(t), reps(10000) nodots///
saving(C:\Users\user\Desktop\Czarina.dta, every(1) double replace) : ///
ttest A == B, unpairedunequal
use "C:\Users\user\Desktop\Czarina.dta", clear
count if _bs_1<=-1.4857///-1.4857=t-value from parametric ttest
count if _bs_1>=1.4857
display (811+732)/10000///this chunk of code calculates a bootstrap p-value///
to be compared with the parametric ttest p-value

3

Esistono due modi diversi per giustificare l'uso del test t.

  • I tuoi dati sono normalmente distribuiti e hai almeno due campioni per gruppo
  • Hai campioni di grandi dimensioni in ciascun gruppo

Se uno di questi casi è valido, il test t è considerato un test valido. Quindi, se sei disposto a dare per scontato che i tuoi dati siano normalmente distribuiti (come lo sono molti ricercatori che raccolgono piccoli campioni), allora non hai nulla di cui preoccuparti.

Tuttavia, qualcuno potrebbe ragionevolmente obiettare che si sta basando su questo presupposto per ottenere i risultati, soprattutto se si sa che i dati sono distorti. Quindi la questione della dimensione del campione richiesta per un'inferenza valida è molto ragionevole.

Quanto a quanto è richiesta una dimensione del campione, sfortunatamente non c'è una vera risposta solida per questo; più i dati sono distorti, maggiore è la dimensione del campione richiesta per rendere ragionevole l'approssimazione. 15-20 per gruppo sono generalmente considerati abbastanza grandi, ma come per la maggior parte delle regole empiriche, esistono esempi contrari: ad esempio, nei ritorni dei biglietti della lotteria (dove 1 in, diciamo, 10.000.000 di osservazioni è un valore ESTREMO), avresti letteralmente bisogno da qualche parte sarebbero appropriate circa 100.000.000 di osservazioni prima di questi test.


1

Concordo sull'utilità di un t-test manifestato. Vorrei anche raccomandare, come confronto, uno sguardo al metodo bayesiano offerto da Kruschke su http://www.indiana.edu/~kruschke/BEST/BEST.pdf . In generale, domande su "Quanti argomenti?" non è possibile rispondere a meno che non si abbia in mano un'idea di una dimensione significativa dell'effetto in termini di risoluzione del problema. Cioè, e per esempio, se il test fosse uno studio ipotetico sull'efficacia di un nuovo farmaco, la dimensione dell'effetto potrebbe essere la dimensione minima necessaria per giustificare il nuovo farmaco rispetto al vecchio per la Food and Drug Administration statunitense.

Ciò che è strano in questa e in molte altre discussioni è la volontà generale di affermare che alcuni dati hanno solo una distribuzione teorica, come essere gaussiani. In primo luogo, non abbiamo bisogno di posare, possiamo controllare, anche con piccoli campioni. In secondo luogo, perché collocare una specifica distribuzione teorica? Perché non prendere semplicemente i dati come una distribuzione empirica a sé?

Certo, nel caso di campioni di piccole dimensioni, ipotizzare che i dati provengano da una certa distribuzione è molto utile per l'analisi. Ma, per parafrasare Bradley Efron, nel fare ciò hai appena raccolto una quantità infinita di dati. A volte può andare bene se il tuo problema è appropriato. Alcune volte non lo è.


1

Per quanto riguarda le ipotesi, valgono i due casi campione; è che entrambi i campioni sono indipendenti l'uno dall'altro e ogni campione è costituito da variabili normali con i due campioni aventi la stessa media e una varianza sconosciuta comune sotto l'ipotesi nulla.

Esiste anche il test t Welch che utilizza l'approssimazione Satterwaite per l'errore standard. Questo è un test t a 2 campioni che assume varianze disuguali.

T-test di Welch

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.