Considera quanto segue dalle pagg. 254-256 di Sauro, J., & Lewis, JR (2016). Quantificazione dell'esperienza utente: statistiche pratiche per la ricerca dell'utente, 2a edizione. Cambridge, MA: Morgan-Kaufmann (puoi dare un'occhiata all'interno di https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).
AVETE BISOGNO DI TESTARE ALMENO 30 UTENTI?
DA UNA PARTE
Probabilmente la maggior parte di noi che ha frequentato una lezione di statistica introduttiva (o conosce qualcuno che ha preso una tale lezione) ha sentito la regola empirica che per stimare o confrontare i mezzi, la dimensione del campione dovrebbe essere almeno 30. Secondo il teorema del limite centrale, all'aumentare della dimensione del campione, la distribuzione della media diventa sempre più normale, indipendentemente dalla normalità della distribuzione sottostante. Alcuni studi di simulazione hanno dimostrato che per un'ampia varietà di distribuzioni (ma non tutte — vedi Bradley, 1978), la distribuzione della media diventa quasi normale quando n = 30.
Un'altra considerazione è che è leggermente più semplice usare i punteggi z anziché i punteggi t poiché i punteggi z non richiedono l'uso di gradi di libertà. Come mostrato nella Tabella 9.1 e nella Figura 9.2, quando hai circa 30 gradi di libertà il valore di t si avvicina al valore di z. Di conseguenza, si può avere la sensazione che non si debba trattare di piccoli campioni che richiedono statistiche su piccoli campioni (Cohen, 1990). ...
D'ALTRO CANTO
Quando il costo di un campione è costoso, come avviene di solito in molti tipi di ricerche sugli utenti (ad esempio, test di usabilità moderati), è importante stimare le dimensioni del campione necessarie nel modo più accurato possibile, con la consapevolezza che si tratta di una stima. La probabilità che 30 sia esattamente il campione giusto per una determinata serie di circostanze è molto bassa. Come mostrato nei nostri capitoli sulla stima della dimensione del campione, un approccio più appropriato è quello di prendere le formule per calcolare i livelli di significatività di un test statistico e, usando l'algebra per risolvere n, convertirle in formule di stima della dimensione del campione. Tali formule forniscono quindi una guida specifica su ciò che devi sapere o stimare per una determinata situazione per stimare la dimensione del campione richiesta.
L'idea che anche con la distribuzione t (al contrario della distribuzione z) sia necessario avere una dimensione del campione di almeno 30 non è coerente con la storia dello sviluppo della distribuzione. Nel 1899, William S. Gossett, un neolaureato del New College di Oxford con una laurea in chimica e matematica, divenne uno dei primi scienziati a unirsi al birrificio Guinness. “Rispetto ai giganti del suo tempo, ha pubblicato pochissimo, ma il suo contributo è di fondamentale importanza. ... La natura del processo di fermentazione, con la sua variabilità di temperatura e ingredienti, significa che non è possibile prelevare campioni di grandi dimensioni a lungo termine ”(Cowles, 1989, pagg. 108-109).
Ciò significava che Gossett non poteva usare gli z-score nel suo lavoro: semplicemente non funzionano bene con piccoli campioni. Dopo aver analizzato le carenze della distribuzione z per i test statistici con piccoli campioni, ha elaborato gli adattamenti necessari in funzione dei gradi di libertà per produrre le sue tabelle t, pubblicati sotto lo pseudonimo di "Studente" a causa delle politiche di Guinness che vietano la pubblicazione dai dipendenti (Salsburg, 2001). Nel lavoro che ha portato alla pubblicazione dei tavoli, Gossett ha eseguito una prima versione delle simulazioni Monte Carlo (Stigler, 1999). Ha preparato 3000 carte etichettate con misure fisiche prese su criminali, le ha mescolate, poi le ha distribuite in 750 gruppi di dimensioni 4, una dimensione del campione molto più piccola di 30.
LA NOSTRA RACCOMANDAZIONE
Questa controversia è simile all'argomento "cinque è abbastanza" contro "otto non è abbastanza" trattato nel capitolo 6, ma applicato alla ricerca sommativa piuttosto che a quella formativa. Per qualsiasi ricerca, il numero di utenti da testare dipende dallo scopo del test e dal tipo di dati che prevedi di raccogliere. Il "numero magico" 30 ha una logica empirica, ma a nostro avviso è molto debole. Come puoi vedere dai numerosi esempi in questo libro che hanno dimensioni del campione non uguali a 30 (a volte meno, a volte più), non teniamo questa regola empirica in grande considerazione. Come descritto nel nostro capitolo sulla dimensione del campione per la ricerca sommativa, la dimensione del campione appropriata per uno studio dipende dal tipo di distribuzione, dalla variabilità attesa dei dati, dai livelli desiderati di sicurezza e potenza,
Come illustrato nella figura 9.2, quando si utilizza la distribuzione t con campioni molto piccoli (ad esempio, con gradi di libertà inferiori a 5), i valori molto grandi di t compensano le piccole dimensioni del campione per quanto riguarda il controllo degli errori di tipo I ( rivendicare una differenza è significativo quando in realtà non lo è). Con dimensioni dei campioni così piccole, gli intervalli di confidenza saranno molto più ampi di quelli che otterresti con campioni più grandi. Ma una volta che hai a che fare con più di 5 gradi di libertà, c'è davvero poca differenza assoluta tra il valore di z e il valore di t. Dal punto di vista dell'approccio da t a z, c'è molto poco guadagno oltre i 10 gradi di libertà.
Usare la distribuzione t non è molto più complicato della distribuzione z (devi solo essere sicuro di usare il giusto valore per i gradi di libertà), e il motivo per lo sviluppo della distribuzione t era abilitare l'analisi di piccoli campioni. Questo è solo uno dei modi meno ovvi in cui i professionisti dell'usabilità beneficiano della scienza e della pratica della produzione della birra. Gli storici della statistica considerano ampiamente la pubblicazione da parte di Gossett del test t di Student come un evento di riferimento (Box, 1984; Cowles, 1989; Stigler, 1999). In una lettera a Ronald A. Fisher (uno dei padri delle statistiche moderne) contenente una prima copia delle tabelle t, Gossett scrisse: "Probabilmente sei l'unico uomo che le userà mai" (Box, 1978). Gossett ha fatto un sacco di cose giuste, ma sicuramente ha sbagliato.
RIFERIMENTI
Box, GEP (1984). L'importanza della pratica nello sviluppo delle statistiche. Technometrics, 26 (1), 1-8.
Box, JF (1978). Fisher, la vita di uno scienziato. New York, NY: John Wiley.
Bradley, JV (1978). Robustezza? British Journal of Mathematical and Statistical Psychology, 31, 144-152.
Cohen, J. (1990). Cose che ho imparato (finora). Psicologo americano, 45 (12), 1304-1312.
Cowles, M. (1989). Statistica in psicologia: una prospettiva storica. Hillsdale, New Jersey: Lawrence Erlbaum.
Salsburg, D. (2001). La signora che assaggia il tè: come le statistiche hanno rivoluzionato la scienza nel ventesimo secolo. New York, NY: WH Freeman.
Stigler, SM (1999). Statistiche sul tavolo: la storia di concetti e metodi statistici. Cambridge, MA: Harvard University Press.