Sembra che, quando si assume l'omogeneità della varianza, i risultati di un test t aggiustato Welch e di un test t standard siano approssimativamente gli stessi. Perché non usare semplicemente la Welch regolata t?
Sembra che, quando si assume l'omogeneità della varianza, i risultati di un test t aggiustato Welch e di un test t standard siano approssimativamente gli stessi. Perché non usare semplicemente la Welch regolata t?
Risposte:
Vorrei oppormi alle altre due risposte basate su un articolo (in tedesco) di Kubinger, Rasch e Moder (2009) .
Sostengono, sulla base di simulazioni "estese" da distribuzioni che soddisfano o meno le assunzioni imposte da un t-test, (normalità e omogeneità della varianza) che i test di welch si comportano ugualmente bene quando le assunzioni sono soddisfatte (cioè sostanzialmente lo stesso probabilità di commettere errori alfa e beta) ma supera il test t se le ipotesi non sono soddisfatte, soprattutto in termini di potenza. Pertanto, si consiglia di utilizzare sempre il test welch se la dimensione del campione supera 30.
Come meta-commento: per le persone interessate alle statistiche (come me e probabilmente la maggior parte degli altri qui) un argomento basato sui dati (come il mio) dovrebbe almeno contare allo stesso modo come argomenti basati esclusivamente su basi teoriche (come gli altri qui).
Aggiornamento:
dopo aver ripensato a questo argomento, ho trovato altre due raccomandazioni di cui la più recente supporta il mio punto. Guarda i documenti originali (che sono entrambi, almeno per me, liberamente disponibili) per le argomentazioni che portano a queste raccomandazioni.
La prima raccomandazione viene da Graeme D. Ruxton nel 2006: " Se si desidera confrontare la tendenza centrale di 2 popolazioni sulla base di campioni di dati non correlati, il test t di varianza disuguale dovrebbe essere sempre usato in preferenza al test t di Student o test Mann – Whitney U. "
In:
Ruxton, GD, 2006. Il test t di varianza disuguale è un'alternativa sottoutilizzata al test t di Student e al test U di Mann-Whitney .
Behav. Ecol . 17, 688–690.
La seconda (più vecchia) raccomandazione è di Coombs et al. (1996, p 148). " In sintesi, il test t per campioni indipendenti è generalmente accettabile in termini di controllo tassi di errore di tipo I, purché non sono sufficientemente grandi campioni di uguali dimensioni, anche quando la parità assunzione varianza della popolazione è violata. Per disuguale campioni di dimensioni ridotte, tuttavia, è preferibile un'alternativa che non presuppone varianze di popolazione uguali. Utilizzare il test di secondo ordine di James quando le distribuzioni sono simmetriche o normali a coda corta. Tra le alternative promettenti vi sono i test sui mezzi tagliati Wilcox H e Yuen, che forniscono un controllo più ampio dei tassi di errore di tipo I rispetto al test Welch o al test James e hanno una potenza maggiore quando i dati sono a coda lunga. " (enfasi aggiunta)
In:
Coombs WT, Algina J, Oltman D. 1996. Test di ipotesi omnibus univariati e multivariati selezionati per controllare i tassi di errore di tipo I quando le varianze della popolazione non sono necessariamente uguali . Rev Educ Res 66: 137–79.
ovviamente, si potrebbero abbandonare entrambi i test e iniziare a utilizzare un t-test bayesiano (test del rapporto Savage-Dickey), che può spiegare varianze disuguali e disuguali e, soprattutto, consente una quantificazione delle prove a favore del ipotesi nulla (il che significa, non più di vecchi discorsi "incapacità di respingere")
Questo test è molto semplice (e veloce) da implementare, e c'è un documento che spiega chiaramente ai lettori che non hanno familiarità con le statistiche bayesiane su come usarlo, insieme a uno script R. in pratica puoi semplicemente inserire i tuoi dati e inviare i comandi alla R console:
c'è anche un tutorial per tutto questo, con dati di esempio:
http://www.ruudwetzels.com/index.php?src=SDtest
So che questa non è una risposta diretta a ciò che è stato chiesto, ma ho pensato che ai lettori potesse piacere avere questa bella alternativa
Saluti
Perché i risultati esatti sono preferibili alle approssimazioni ed evitano i casi dispari di margine in cui l'approssimazione può portare a un risultato diverso rispetto al metodo esatto.
Il metodo Welch non è un modo più rapido per eseguire qualsiasi vecchio test t, è un'approssimazione trattabile di un problema altrimenti molto difficile: come costruire un test t con varianze ineguali. Il caso della varianza uguale è ben compreso, semplice ed esatto e pertanto dovrebbe essere sempre usato quando possibile.
Due motivi a cui posso pensare:
La T di Student normale è abbastanza robusta per l'eteroscedasticità se le dimensioni del campione sono uguali.
Se credi fortemente a priori che i dati siano omoscedastici, allora non perdi nulla e potresti guadagnare una piccola quantità di potere usando T di Studen invece di T. di Welch.
Una ragione che vorrei non dare è che di Student T è esatto e di Welch T non è. IMHO l'esattezza di Student's T è accademica perché è esatta solo per i dati normalmente distribuiti e nessun dato reale è esattamente distribuito normalmente. Non riesco a pensare a una singola quantità che le persone effettivamente misurano e analizzano statisticamente dove la distribuzione potrebbe plausibilmente avere un supporto di tutti i numeri reali. Ad esempio, ci sono solo così tanti atomi nell'universo e alcune quantità non possono essere negative. Pertanto, quando si utilizza qualsiasi tipo di test T su dati reali, si sta facendo comunque un'approssimazione.
Il fatto che qualcosa di più complesso si riduca a qualcosa di meno complesso quando viene verificato un presupposto non è sufficiente per buttare via il metodo più semplice.
Prenderei la posizione opposta qui. Perché preoccuparsi del test Welch quando il test t studente standard non accoppiato ti dà risultati quasi identici. Ho studiato questo problema qualche tempo fa e ho esplorato una serie di scenari nel tentativo di abbattere il test t e favorire il test Welch. Per fare ciò ho usato campioni di dimensioni fino a 5 volte superiori per un gruppo rispetto all'altro. E ho esplorato varianze fino a 25 volte maggiori per un gruppo rispetto all'altro. E in realtà non ha fatto alcuna differenza materiale. Il test t spaiato ha comunque generato un intervallo di valori p quasi identici al test Welch.
Puoi vedere il mio lavoro al seguente link e concentrarmi soprattutto sulle diapositive 5 e 6.
È vero che le proprietà frequentiste del test corretto di Welch sono migliori della normale T di Student, almeno per gli errori. Concordo sul fatto che solo questo è un argomento piuttosto valido per il test di Welch. Tuttavia, di solito sono riluttante a raccomandare la correzione di Welch perché il suo uso è spesso ingannevole. Il che non è, certamente, una critica del test stesso.
Il motivo per cui non consiglio la correzione Welch è che non cambia solo i gradi di libertà e la successiva distribuzione teorica da cui viene tratto il valore p. Rende il test non parametrico. Per eseguire un test t corretto da Welch, si tiene comunque conto della varianza come se si potesse ipotizzare una varianza uguale, ma poi si modifica la procedura di test finale implicando che non è possibile assumere la varianza uguale o che ci si preoccupa solo delle varianze del campione. Questo lo rende un test non parametrico perché la varianza raggruppata è considerata non rappresentativa della popolazione e hai ammesso che stai solo testando i tuoi valori osservati.
Di per sé non c'è nulla di particolarmente sbagliato in questo. Tuttavia, lo trovo ingannevole perché a) in genere non è segnalato con sufficiente specificità; e b) le persone che lo usano tendono a pensarci in modo intercambiabile con un t-test. L'unico modo in cui ho mai saputo che è stato fatto in articoli pubblicati è quando vedo uno strano DF per la distribuzione t. Questo era anche l'unico modo in cui Rexton (indicato nella risposta di Henrik) poteva dirlo in revisione. Sfortunatamente, la natura non parametrica del test corretto di Welch si verifica se i gradi di libertà sono cambiati o meno (cioè anche se le varianze del campione sono uguali). Ma questo problema di segnalazione è sintomatico del fatto che la maggior parte delle persone che utilizzano la correzione Welch non riconosce questa modifica al test.
Pertanto, per questo motivo, credo che se hai intenzione di raccomandare un test non parametrico non usarne uno che spesso appare parametrico o almeno essere molto chiaro su ciò che stai facendo. Il nome ufficiale del test deve essere T-test Welch non parametrico corretto. Se la gente lo segnalasse in questo modo sarei molto più felice con la raccomandazione di Henrik.