Posso fidarmi di un risultato significativo di un test t se la dimensione del campione è piccola?


17

Se il risultato del test t unilaterale è significativo ma la dimensione del campione è piccola (ad esempio inferiore a circa 20), posso ancora fidarmi di questo risultato? In caso contrario, come devo trattare e / o interpretare questo risultato?



8
Solo un commento, non voglio aggiungere ai meravigliosi commenti qui sotto; non ti fidi del risultato di un test t, ti fidi della procedura stessa. Un risultato individuale è corretto o errato, ma senza ulteriori indagini, non saprai mai quale. Un test t nella metodologia di Fisher o nella metodologia di Pearson e Neyman è attendibile se le ipotesi sono soddisfatte. Se imposti allora ti ingannerà, a ripetizione infinita, non più del 5% delle volte, forse un po 'meno. La domanda che dovresti porre è "sono soddisfatte le ipotesi?" α<.05
Dave Harris,

Risposte:


15

In teoria, se tutti i presupposti del test t sono veri, allora non ci sono problemi con una piccola dimensione del campione.

In pratica ci sono alcune ipotesi non del tutto vere che possiamo cavartela per campioni di grandi dimensioni ma che possono causare problemi per campioni di piccole dimensioni. Sai se la distribuzione sottostante è normalmente distribuita? Tutti i campioni sono indipendenti e distribuiti in modo identico?

Se dubiti della validità del test, un'alternativa che puoi utilizzare è il bootstrap. Il bootstrap comporta il ricampionamento dal tuo campione per vedere quanto spesso l'ipotesi nulla è vera o falsa. Forse la tua ipotesi nulla è e il tuo valore p è 0,05 ma il bootstrap mostra che la media del campione è inferiore a zero il 10% delle volte. Ciò indicherebbe che si è trattato di un colpo di fortuna che ha causato un valore p di 0,05 e dovresti essere meno sicuro che l'ipotesi nulla sia falsa.μ<0


1
Ad esempio, se sai che la distribuzione sottostante è approssimativamente una distribuzione normale e tutti e 10 i tuoi campioni sono inferiori a un determinato valore, allora chiaramente le probabilità che la popolazione significhi essere più di quel valore sono al massimo una su 2 ^ 10, o uno su mille. È chiaramente una probabilità 1 su 2 ^ 10 che tutti e dieci i campioni di una popolazione normalmente distribuita si trovino dalla stessa parte della media. Il problema sarà che otterrai risultati affidabili, ma saranno molto deboli, come "l'altezza media del maschio adulto è quasi sicuramente compresa tra 5 e 7 piedi".
David Schwartz

Grazie mille per la spiegazione e l'approccio alternativo. Li apprezzo davvero! Grazie molto!
Eric

Non ricevo il tuo suggerimento di bootstrap. Se esegui il ricampionamento dal campione (che ha p <0,05), ti aspetteresti che la maggior parte dei campioni bootstrap abbia un risultato significativo, forse circa il 95%, non il 5 o il 10%. Puoi per favore elaborare? Cc a @Eric.
ameba dice di ripristinare Monica

3
Come osservazione più generale, bootstrap funziona bene in campioni di grandi dimensioni, ma con campioni piccoli la copertura potrebbe differire un po 'dal nominale. Inoltre, con dimensioni del campione molto basse, la potenza è bassa. Quindi non è necessariamente vero che un "test bootstrap" sia sempre superiore al test t.
ameba dice di ripristinare Monica

3
@amoeba Mi piace molto il tuo stile di correzione. Non mi hai semplicemente detto cosa era giusto / sbagliato, hai sottolineato una strana conseguenza delle mie idee e mi hai fatto ripensare la mia risposta e capire la fonte del mio errore. Quindi grazie! In passato Whuber lo ha fatto anche a me
Hugh

21

Raramente dovresti fidarti di ogni singolo risultato significativo. Non hai detto perché stavi usando un test a una coda anziché a due code, quindi spero che tu abbia una buona ragione per farlo oltre a lottare per essere in grado di rivendicare un risultato statisticamente significativo!

A parte questo, considerare quanto segue da p. 261 di Sauro, J., & Lewis, JR (2016). Quantificazione dell'esperienza utente: statistiche pratiche per la ricerca dell'utente, 2a edizione. Cambridge, MA: Morgan-Kaufmann.


Come Ronald Fisher ha raccomandato di usare i valori p

Quando Karl Pearson era il grande vecchio statistico e Ronald Fisher era un nuovo arrivato, Pearson, apparentemente minacciato dalle idee e dall'abilità matematica di Fisher, usò la sua influenza per impedire a Fisher di pubblicare nelle principali riviste statistiche dell'epoca, Biometrika e il Journal della Royal Statistical Society. Di conseguenza, Fisher ha pubblicato le sue idee in una varietà di altri luoghi come riviste agricole e meteorologiche, tra cui diversi articoli per gli Atti della Society for Psychical Research. È stato in uno degli articoli per quest'ultima rivista che ha menzionato la convenzione di impostare quello che ora chiamiamo l'errore accettabile di tipo I (alfa) su 0,05 e, criticamente, ha anche menzionato l'importanza della riproducibilità quando si incontra un risultato significativo inaspettato:

Un'osservazione è giudicata significativa, se raramente sarebbe stata prodotta, in assenza di una vera causa del tipo che stiamo cercando. È una pratica comune giudicare un risultato significativo, se è così grande che sarebbe stato prodotto per caso non più frequentemente di una volta in venti prove. Questo è un livello arbitrario, ma conveniente, di significato per l'investigatore pratico, ma non significa che si lasci ingannare una volta ogni venti esperimenti. Il test di significatività gli dice solo cosa ignorare, vale a dire tutti gli esperimenti in cui non si ottengono risultati significativi. Dovrebbe affermare che un fenomeno è sperimentalmente dimostrabile quando sa come progettare un esperimento in modo che raramente non riesca a dare un risultato significativo. Di conseguenza, isolati risultati significativi che non sa riprodurre sono lasciati in sospeso in attesa di ulteriori indagini. (Fisher, 1929, p. 191)

Riferimento

Fisher, RA (1929). Il metodo statistico nella ricerca psichica. Atti della Society for Psychical Research, 39, 189-192.


2
Fisher ha anche pubblicato diversi importanti articoli che regolano la stima della massima verosimiglianza in The Annals of Eugenics. Il suo metodo era spesso migliore del metodo dei momenti usato da Karl Pearson. Fisher chiamò il suo metodo inferenza fiduciaria. In seguito fu formalizzato da Jerzy Neyman e Egon Pearson (figlio di Karl Pearson).
Michael R. Chernick,

3
Neyman e Pearson non formalizzarono l'inferenza fiduciosa di Fisher. Hanno sviluppato un metodo alternativo.
Michael Lew - ripristina Monica

5
Ai tempi di Fisher, "significativo" significava che significa qualcosa, non che è importante.
David Lane,

1
Grazie mille per le informazioni altamente dettagliate! Mi aiuta davvero molto!
Eric

16

Immagina di essere in una situazione in cui stai facendo molti test simili, in una serie di circostanze in cui una parte dei nulli è vera.

Effettivamente, modelliamolo usando un modello di urna semplicissimo; nell'urna, ci sono palline numerate, ognuna corrispondente a un esperimento che potresti scegliere di fare, alcune delle quali hanno il null vero e altre il null falso. Chiama la proporzione di veri null nell'urnat.

Per semplificare ulteriormente l'idea, supponiamo che il potere per quei falsi null sia costante (a (1-β), da β è il solito simbolo per il tasso di errore di tipo II).

Scegli alcuni esperimenti dalla nostra urna (ndi loro, diciamo) "a caso", eseguili e respingi o non riesci a respingere le loro ipotesi. Possiamo presumere che il numero totale di esperimenti nell'urna (M, diciamo) è abbastanza grande da non fare alcuna differenza se si tratta di campionamento senza sostituzione (cioè saremmo felici di approssimarlo come binomiale se necessario), ed entrambi n e M sono abbastanza grandi da poter discutere di ciò che accade in media come se fossero ciò che sperimentiamo.

Quale percentuale dei tuoi rifiuti sarà "corretta"?

Numero totale previsto di rifiuti: ntα+n(1-t)(1-β)
Numero totale previsto di rigetti corretti: n(1-t)(1-β)

La percentuale complessiva di volte in cui un rifiuto è stata effettivamente la decisione giusta: (1t)(1β)tα+(1t)(1β)

Overall proportion of times a rejection was an error: tαtα+(1t)(1β)

For the proportion of correct rejections to be more than a small number you need to avoid the situation where (1t)(1β)tα

Since in our setup a substantial fraction of nulls are true, if 1β is not substantially larger than α (i.e. if you don't have fairly high power), a lot of our rejections are mistakes!

So when your sample size is small (and hence power is low), if a reasonable fraction of our nulls were true, we'd often be making an error when we reject.

The situation isn't much better if almost all our nulls are strictly false -- while most of our rejections will be correct (trivially, since tiny effects are still strictly false), if the power isn't high, a substantial fraction of those rejections will be "in the wrong direction" - we'll conclude the null is false quite often because by chance the sample turned out to be on the wrong side (this may be one argument to use one sided tests - when one sided tests make sense - to at least avoid rejections that make no sense if large sample sizes are hard to get).

We can see that small sample sizes can certainly be a problem.

[This proportion of incorrect rejections is called the false discovery rate]


If you have a notion of likely effect size you're in a better position to judge what an adequate sample size might be. With large anticipated effects, a rejection with a small sample size would not necessarily be a major concern.


Thanks a lot! That's a point that I can miss very easily. Many thanks for pin pointing that!
Eric

1
Great work. This could be the accepted answer.
Richard Hardy

@Eric the original answer got a bit muddled up in the middle; I have corrected it.
Glen_b -Reinstate Monica

9

Some of Gosset's original work (aka Student), for which he developed the t test, involved yeast samples of n=4 and 5. The test was specifically designed for very small samples. Otherwise, the normal approximation would be fine. That said, Gosset was doing very careful, controlled experiments on data that he understood very well. There's a limit to the number of things a brewery has to test, and Gosset spent his working life at Guinness. He knew his data.

I'm a bit suspicious of your emphasis on one-sided testing. The logic of testing is the same whatever the hypothesis, but I've seen people go with a significant one-sided test when the two-sided was non-significant.

This is what a (upper) one-sided test implies. You are testing that a mean is 0. You do the math and are prepared to reject when T > 2.5. You run your experiment and observe that T=-50,000. You say, "phhhhht", and life goes on. Unless it is physically impossible for the test statistic to sink way below the hypothesized parameter value, and unless you would never take any decision if the test statistic goes in the opposite direction than you expect, you should be using a two-sided test.


6

The main thing you need to worry about is the power of your test. In particular, you might want to do a post-hoc power analysis to determine how likely you are, given your sample size, to identify a true significant effect of a reasonable size. If typical effects are very large, an n of 8 could be totally adequate (as with many experiments in molecular biology). If the effects you are interested in are typically subtle, however (as in many social psychology experiments), an n of thousands might still be underpowered.

This is important because underpowered tests can give very misleading results. For example, if your test is underpowered, even if you find a significant result, you have a relatively high probability of making what Andrew Gelman calls a "Type S" error, i.e., there is a real effect but in the opposite direction, or a "Type M" error, i.e., there is a real effect but the true magnitude is much weaker than what is estimated from the data.

Gelman and Carlin wrote a useful paper about doing post-hoc power analysis that I think applies in your case. Importantly, they recommend using independent data (i.e., not the data you tested, but reviews, modeling, the results of similar experiments, etc.) to estimate a plausible true effect size. By performing power analysis using that plausible estimated true effect size and comparing to your results, you can determine the probability of making a Type S error and the typical "exaggeration ratio," and thus get a better sense for how strong your evidence really is.


4

One could say that the whole point of statistical significance is to answer the question "can I trust this result, given the sample size?". In other words, the whole point is to control for the fact that with small sample sizes, you can get flukes, when no real effect exists. The statistical significance, that is to say the p-value, is precisely the answer to the question, "if no real effect existed, how likely would I be to get a fluke as big as this?". If it's very unlikely, that indicates that it's not a fluke.

So the answer is "yes", if the p-value is low, and if you have followed the correct statistical procedures and are satisfying the relevant assumptions, then yes, it is good evidence, and has the same weight as if you'd gotten the same p-value with a very large sample size.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.