Quando si esegue un test t perché preferirebbe assumere (o testare) varianze uguali piuttosto che usare sempre un'approssimazione di Welch del df?

47

Sembra che, quando si assume l'omogeneità della varianza, i risultati di un test t aggiustato Welch e di un test t standard siano approssimativamente gli stessi. Perché non usare semplicemente la Welch regolata t?

variance t-test heteroscedasticity

— russellpierce
fonte

33

Vorrei oppormi alle altre due risposte basate su un articolo (in tedesco) di Kubinger, Rasch e Moder (2009) .

Sostengono, sulla base di simulazioni "estese" da distribuzioni che soddisfano o meno le assunzioni imposte da un t-test, (normalità e omogeneità della varianza) che i test di welch si comportano ugualmente bene quando le assunzioni sono soddisfatte (cioè sostanzialmente lo stesso probabilità di commettere errori alfa e beta) ma supera il test t se le ipotesi non sono soddisfatte, soprattutto in termini di potenza. Pertanto, si consiglia di utilizzare sempre il test welch se la dimensione del campione supera 30.

Come meta-commento: per le persone interessate alle statistiche (come me e probabilmente la maggior parte degli altri qui) un argomento basato sui dati (come il mio) dovrebbe almeno contare allo stesso modo come argomenti basati esclusivamente su basi teoriche (come gli altri qui).

Aggiornamento:
dopo aver ripensato a questo argomento, ho trovato altre due raccomandazioni di cui la più recente supporta il mio punto. Guarda i documenti originali (che sono entrambi, almeno per me, liberamente disponibili) per le argomentazioni che portano a queste raccomandazioni.

La prima raccomandazione viene da Graeme D. Ruxton nel 2006: " Se si desidera confrontare la tendenza centrale di 2 popolazioni sulla base di campioni di dati non correlati, il test t di varianza disuguale dovrebbe essere sempre usato in preferenza al test t di Student o test Mann – Whitney U. "
In:
Ruxton, GD, 2006. Il test t di varianza disuguale è un'alternativa sottoutilizzata al test t di Student e al test U di Mann-Whitney . Behav. Ecol . 17, 688–690.

La seconda (più vecchia) raccomandazione è di Coombs et al. (1996, p 148). " In sintesi, il test t per campioni indipendenti è generalmente accettabile in termini di controllo tassi di errore di tipo I, purché non sono sufficientemente grandi campioni di uguali dimensioni, anche quando la parità assunzione varianza della popolazione è violata. Per disuguale campioni di dimensioni ridotte, tuttavia, è preferibile un'alternativa che non presuppone varianze di popolazione uguali. Utilizzare il test di secondo ordine di James quando le distribuzioni sono simmetriche o normali a coda corta. Tra le alternative promettenti vi sono i test sui mezzi tagliati Wilcox H e Yuen, che forniscono un controllo più ampio dei tassi di errore di tipo I rispetto al test Welch o al test James e hanno una potenza maggiore quando i dati sono a coda lunga. " (enfasi aggiunta)
In:
Coombs WT, Algina J, Oltman D. 1996. Test di ipotesi omnibus univariati e multivariati selezionati per controllare i tassi di errore di tipo I quando le varianze della popolazione non sono necessariamente uguali . Rev Educ Res 66: 137–79.

— Henrik
fonte

3

Meta-risposta: buon punto. Ma i tuoi dati potrebbero non comportarsi come i miei! :-)

— whuber

Henrik, ti dispiacerebbe se modifico la risposta per: (1) cambiare la terminologia chiamando i test t-test di Student e t-test di Welch (come ho trovato nella maggior parte della letteratura); (2) include un altro documento che lo suggerisce nella discussione: rips-irsp.com/article/10.5334/irsp.82 (sottolinea il pregiudizio che si verifica quando si scelgono i test basati sul test di omogeneità di Levene).

— Bruno,

13

ovviamente, si potrebbero abbandonare entrambi i test e iniziare a utilizzare un t-test bayesiano (test del rapporto Savage-Dickey), che può spiegare varianze disuguali e disuguali e, soprattutto, consente una quantificazione delle prove a favore del ipotesi nulla (il che significa, non più di vecchi discorsi "incapacità di respingere")

Questo test è molto semplice (e veloce) da implementare, e c'è un documento che spiega chiaramente ai lettori che non hanno familiarità con le statistiche bayesiane su come usarlo, insieme a uno script R. in pratica puoi semplicemente inserire i tuoi dati e inviare i comandi alla R console:

Wetzels, R., Raaijmakers, JGW, Jakab, E., & Wagenmakers, E.-J. (2009). Come quantificare il supporto pro e contro l'ipotesi nulla: un'implementazione flessibile di WinBUGS di un t-test bayesiano predefinito.

c'è anche un tutorial per tutto questo, con dati di esempio:

http://www.ruudwetzels.com/index.php?src=SDtest

So che questa non è una risposta diretta a ciò che è stato chiesto, ma ho pensato che ai lettori potesse piacere avere questa bella alternativa

Saluti

— Dave Kellen
fonte

8

sempre questi ragazzi bayesiani ...

— Henrik,

3

Un'altra alternativa bayesiana al test t è la routine BEST (la stima bayesiana sostituisce il test t) di Kruschke. Maggiori informazioni qui: indiana.edu/~kruschke/BEST . Una versione online qui: sumsar.net/best_online .

— Rasmus Bååth,

7

Perché i risultati esatti sono preferibili alle approssimazioni ed evitano i casi dispari di margine in cui l'approssimazione può portare a un risultato diverso rispetto al metodo esatto.

Il metodo Welch non è un modo più rapido per eseguire qualsiasi vecchio test t, è un'approssimazione trattabile di un problema altrimenti molto difficile: come costruire un test t con varianze ineguali. Il caso della varianza uguale è ben compreso, semplice ed esatto e pertanto dovrebbe essere sempre usato quando possibile.

— Ricco
fonte

6

Penso di essere più d'accordo con John Tukey - " Molto meglio una risposta approssimativa alla domanda giusta, che è spesso vaga, piuttosto che una risposta esatta alla domanda sbagliata, che può essere sempre resa precisa. "

— Glen_b

4

Lo stesso t-test sulla varianza (Student) è semplicemente un'approssimazione (mal compresa) quando le varianze del campione di popolazione sono disuguali. Pertanto, a meno che non si sappia che le varianze della popolazione sono uguali, è meglio utilizzare un'approssimazione alla corretta distribuzione del campionamento (Welch-Satterthwaite) piuttosto che utilizzare una distribuzione perfettamente accurata che non si applica al modello di dati.

— whuber

4

Due motivi a cui posso pensare:

La T di Student normale è abbastanza robusta per l'eteroscedasticità se le dimensioni del campione sono uguali.
Se credi fortemente a priori che i dati siano omoscedastici, allora non perdi nulla e potresti guadagnare una piccola quantità di potere usando T di Studen invece di T. di Welch.

Una ragione che vorrei non dare è che di Student T è esatto e di Welch T non è. IMHO l'esattezza di Student's T è accademica perché è esatta solo per i dati normalmente distribuiti e nessun dato reale è esattamente distribuito normalmente. Non riesco a pensare a una singola quantità che le persone effettivamente misurano e analizzano statisticamente dove la distribuzione potrebbe plausibilmente avere un supporto di tutti i numeri reali. Ad esempio, ci sono solo così tanti atomi nell'universo e alcune quantità non possono essere negative. Pertanto, quando si utilizza qualsiasi tipo di test T su dati reali, si sta facendo comunque un'approssimazione.

— dsimcha
fonte

2

(1) non è corretto quando le variazioni di popolazione sottostanti sono molto diverse. Come caso estremo - per capire perché è così - considera cosa succede quando una popolazione non ha alcuna variazione. In effetti, lo studente starebbe confrontando i dati dell'altra popolazione con una costante, ma penserebbe di avere il doppio dei gradi di libertà. L'errore commesso sarebbe paragonabile al semplice utilizzo di un test Z.

— whuber

Mentre questo è vero, @whuber è solo per casi molto estremi. Stavo solo osservando una differenza di varianza 1e6: 1 e p ≈ .053. Quindi può succedere, ma direi che è abbastanza robusto con uguale N.

— John,

@John Un rapporto di varianza 1e6: 1 è enorme , indipendentemente da ciò che potrebbe essere . È probabile che lo studente t sia fuorviante in quel caso.

n_{i}

$n_i$

— whuber

@whuber, sto solo suggerendo che mentre il tuo commento sopra è tecnicamente vero, la correzione di Welch non è la soluzione al problema che poni come esempio e non è nemmeno molto critica per la solidità del test in termini di tassi alfa (che di solito significa (1)). Come suggerisci, quando la varianza (estrema) ineguale è un problema hai altri problemi, ma questo è davvero un argomento diverso.

— Giovanni

3

Il fatto che qualcosa di più complesso si riduca a qualcosa di meno complesso quando viene verificato un presupposto non è sufficiente per buttare via il metodo più semplice.

4

Soprattutto per quanto riguarda gli studenti.

— Matt Parker,

2

Prenderei la posizione opposta qui. Perché preoccuparsi del test Welch quando il test t studente standard non accoppiato ti dà risultati quasi identici. Ho studiato questo problema qualche tempo fa e ho esplorato una serie di scenari nel tentativo di abbattere il test t e favorire il test Welch. Per fare ciò ho usato campioni di dimensioni fino a 5 volte superiori per un gruppo rispetto all'altro. E ho esplorato varianze fino a 25 volte maggiori per un gruppo rispetto all'altro. E in realtà non ha fatto alcuna differenza materiale. Il test t spaiato ha comunque generato un intervallo di valori p quasi identici al test Welch.

Puoi vedere il mio lavoro al seguente link e concentrarmi soprattutto sulle diapositive 5 e 6.

http://www.slideshare.net/gaetanlion/unpaired-t-test-family

— sympa
fonte

Mi dispiace, che distinzione stai facendo tra la formula del campione grande e la formula del campione piccolo? Stai calcolando le varianze usando una formula di popolazione in campioni di grandi dimensioni anziché utilizzare una stima campionaria della varianza di popolazione?

— Russellpierce,

Il test t per studenti spaiati ha due formule. La formula di grandi campioni viene applicata ai campioni con più di 30 osservazioni. La formula del piccolo campione viene applicata ai campioni con meno di 30 osservazioni. La differenza principale in queste formule è il modo in cui calcolano l'errore standard aggregato. La formula del piccolo campione è molto più complicata e controintuitiva. E, in realtà, fa davvero poca differenza. L'ho provato più volte. Ecco perché penso che molte persone abbiano dimenticato questa distinzione. E usano la maggior parte delle volte la formula del grande campione.

— Sympa,

0

È vero che le proprietà frequentiste del test corretto di Welch sono migliori della normale T di Student, almeno per gli errori. Concordo sul fatto che solo questo è un argomento piuttosto valido per il test di Welch. Tuttavia, di solito sono riluttante a raccomandare la correzione di Welch perché il suo uso è spesso ingannevole. Il che non è, certamente, una critica del test stesso.

Il motivo per cui non consiglio la correzione Welch è che non cambia solo i gradi di libertà e la successiva distribuzione teorica da cui viene tratto il valore p. Rende il test non parametrico. Per eseguire un test t corretto da Welch, si tiene comunque conto della varianza come se si potesse ipotizzare una varianza uguale, ma poi si modifica la procedura di test finale implicando che non è possibile assumere la varianza uguale o che ci si preoccupa solo delle varianze del campione. Questo lo rende un test non parametrico perché la varianza raggruppata è considerata non rappresentativa della popolazione e hai ammesso che stai solo testando i tuoi valori osservati.

Di per sé non c'è nulla di particolarmente sbagliato in questo. Tuttavia, lo trovo ingannevole perché a) in genere non è segnalato con sufficiente specificità; e b) le persone che lo usano tendono a pensarci in modo intercambiabile con un t-test. L'unico modo in cui ho mai saputo che è stato fatto in articoli pubblicati è quando vedo uno strano DF per la distribuzione t. Questo era anche l'unico modo in cui Rexton (indicato nella risposta di Henrik) poteva dirlo in revisione. Sfortunatamente, la natura non parametrica del test corretto di Welch si verifica se i gradi di libertà sono cambiati o meno (cioè anche se le varianze del campione sono uguali). Ma questo problema di segnalazione è sintomatico del fatto che la maggior parte delle persone che utilizzano la correzione Welch non riconosce questa modifica al test.

Pertanto, per questo motivo, credo che se hai intenzione di raccomandare un test non parametrico non usarne uno che spesso appare parametrico o almeno essere molto chiaro su ciò che stai facendo. Il nome ufficiale del test deve essere T-test Welch non parametrico corretto. Se la gente lo segnalasse in questo modo sarei molto più felice con la raccomandazione di Henrik.

— John
fonte

Non ho trovato alcun supporto nella tua risposta sul perché il test Welch potrebbe essere "ingannevole". Potresti spiegare le basi per quello?

— whuber

Forse le mie modifiche hanno chiarito le cose @whuber. Avrei dovuto essere chiaro che non è garantito che sia ingannevole, ma spesso è sia per l'utente del test che per il lettore dei risultati del test.

— Giovanni

1

Grazie. A parte il problema relativo alla segnalazione - che sarebbe ingiusto definire come un difetto del test! - questo sembra derivare da una sorta di obiezione da parte vostra che il test Welch non è parametrico. Quale potrebbe essere il problema con quello? Ceteris paribus , che deve essere considerato un vantaggio, non un problema.

— whuber

1

È una distinzione che generalmente non è chiarita. Ammetto nella risposta che non è di per sé un problema, ma la maggior parte delle persone tende a trattarlo in modo parametrico, il che è un errore. Non credo che qui sia il luogo per discutere dei benefici o dei costi dei test non parametrici. Inoltre, non è stato menzionato nel thread e potrebbe essere un problema per molte persone. A parte questo, due della nostra classe di statistiche introduttive lo insegnano parallelamente al test t di Student e lo promuovono, ma hanno una sezione completamente separata sui test non parametrici.

— Giovanni,

Puoi chiarire cosa intendi con "rende il test non parametrico"?

— Glen_b,