Test t per campioni indipendenti: i dati devono davvero essere normalmente distribuiti per campioni di grandi dimensioni?


13

Diciamo che voglio testare se due campioni indipendenti hanno mezzi diversi. So che la distribuzione sottostante non è normale .

Se capisco correttamente, la mia statistica di test è la media e, per dimensioni del campione sufficientemente grandi, la media dovrebbe essere normalmente distribuita anche se i campioni non lo sono. Quindi un test di significatività parametrica dovrebbe essere valido in questo caso, giusto? Ho letto informazioni contrastanti e confuse al riguardo, quindi apprezzerei alcune conferme (o spiegazioni sul perché mi sbaglio).

Inoltre, ho letto che per campioni di grandi dimensioni, dovrei usare la statistica z anziché la statistica t. Ma in pratica, la distribuzione t convergerà semplicemente con la distribuzione normale e le due statistiche dovrebbero essere uguali, no?

Modifica : di seguito sono riportate alcune fonti che descrivono lo z-test. Entrambi affermano che le popolazioni devono essere normalmente distribuite:

Qui dice "Indipendentemente dal tipo di test Z utilizzato, si presume che le popolazioni da cui vengono prelevati i campioni siano normali". E qui , i requisiti per lo z-test sono elencati come "Due popolazioni normalmente distribuite ma indipendenti, σ è noto".


Quello che stai dicendo ha senso. Stai usando il teorema del limite centrale per assumere la normalità nella distribuzione dei mezzi di campionamento. Inoltre, stai usando il test t perché non hai la varianza della popolazione e la stai stimando in base alla varianza del campione. Ma puoi collegare o pubblicare una di queste fonti in conflitto?
Antoni Parellada,

Grazie per la tua risposta! Qui ad esempio, i requisiti per lo z-test sono elencati come "Due popolazioni normalmente distribuite ma indipendenti, σ è noto", quindi stanno parlando della distribuzione della popolazione, non della media - è sbagliato?
Lisa

@AntoniParellada Ho inserito alcune fonti nel post originale!
Lisa


Se le popolazioni originali sono conosciute come normali, allora abbiamo una situazione perfetta e incontestabile. Tuttavia, il CLT è spesso presente, in particolare in campioni di grandi dimensioni, per evitare a seconda di questo ordine molto elevato delle condizioni indicate sulla carta collegata.
Antoni Parellada,

Risposte:


7

Penso che questo sia un malinteso comune sul CLT. Non solo il CLT non ha nulla a che fare con la conservazione dell'errore di tipo II (che nessuno ha menzionato qui) ma spesso non è applicabile quando è necessario stimare la varianza della popolazione. La varianza del campione può essere molto lontana da una distribuzione chi-quadrata in scala quando i dati non sono gaussiani, quindi il CLT potrebbe non essere applicabile anche quando la dimensione del campione supera le decine di migliaia. Per molte distribuzioni la SD non è nemmeno una buona misura di dispersione.

Per usare veramente il CLT, una delle due cose deve essere vera: (1) la deviazione standard del campione funziona come una misura di dispersione per la vera distribuzione sconosciuta o (2) la vera deviazione standard della popolazione è nota. Molto spesso non è così. E un esempio di n = 20.000 che è troppo piccolo perché il CLT possa "funzionare" deriva dal prelievo di campioni dalla distribuzione lognormale come discusso altrove in questo sito.

La deviazione standard del campione "funziona" come misura di dispersione se ad esempio la distribuzione è simmetrica e non ha code più pesanti della distribuzione gaussiana.

Non voglio fare affidamento sul CLT per nessuna delle mie analisi.


3
Il CLT potrebbe essere un po 'un'aringa rossa. Spesso può capitare che la media del campione abbia una distribuzione decisamente non normale e che la SD del campione abbia una forma decisamente non-chi, ma tuttavia la statistica t è utilmente approssimata da una distribuzione t di Student (in parte a causa della dipendenza tra i due statistiche). Se questo è il caso dovrebbe essere valutato in una determinata situazione. Tuttavia, poiché il CLT afferma poco sui campioni finiti (e non dice assolutamente nulla di quantitativo su di essi), la sua invocazione a sostegno delle ipotesi distributive non è generalmente valida.
whuber

Sarebbe giusto dire che stiamo discutendo (e imparando nel mio caso) una procedura (confrontando due mezzi di esempio da distribuzioni sconosciute con un test t) che viene eseguita di routine (e forse senza ragione) su base giornaliera ovunque, anche se il suo la giustificazione può essere debole? E, in pratica, ci sono usi del CLT che sarebbero tollerabili / accettabili, anche se non ideali?
Antoni Parellada,

La statistica ha spesso una distribuzione molto lontana dalla ttt distribuzione quando i dati provengono da una distribuzione non gaussiana. E sì, direi che la giustificazione per l'uso del test è più debole di quanto la maggior parte dei professionisti pensi. Ecco perché preferisco metodi semi e non parametrici. t
Frank Harrell,

2
Il CLT è davvero un'affermazione asintotica, e quando la maggior parte delle persone lo invoca sospetto che l'idea nella loro testa sia in realtà qualcosa di simile al teorema di Berry-Esseen (credono che la convergenza alla normalità avvenga a un ritmo "ragionevole", e quindi la loro dimensione del campione è "abbastanza buono"). Ma anche questo ragionamento leggermente più sofisticato può portare a una conclusione errata sulla validità del test t. Mi chiedo se valga la pena menzionare / enfatizzare in questa risposta che anche Berry-Esseen non "salva" l'appello fallace al CLT.
Silverfish

3
@FrankHarrell Cosa intendi con "la deviazione standard del campione funziona come misura della dispersione per la vera distribuzione sconosciuta"? Sarebbe utile se hai aggiunto una breve spiegazione (possibilmente solo una frase) alla tua risposta.
mark999

9

Lascio questo paragrafo perché i commenti abbiano un senso: probabilmente l'assunzione della normalità nelle popolazioni originali è troppo restrittiva e può essere dimenticata concentrandosi sulla distribuzione del campionamento e grazie al teorema del limite centrale, specialmente per campioni di grandi dimensioni.

Applicando la t test è probabilmente una buona idea se (come avviene di solito) non si conosce la varianza della popolazione e si utilizzano invece le varianze del campione come stimatori. Si noti che l'assunzione di varianze uguali può avere bisogno di essere testati con un test F delle varianze o di un test Lavene prima di applicare una varianza pooled - Ho alcune note su GitHub qui .

Come accennato, la distribuzione t converge alla distribuzione normale all'aumentare del campione, come dimostra questo diagramma R veloce:

inserisci qui la descrizione dell'immagine

In rosso è il pdf di una distribuzione normale, e in viola, puoi vedere il progressivo cambiamento delle "code grasse" (o code più pesanti) del pdf della t distribuzione man mano che i gradi di libertà aumentano fino a quando non si fonde infine con il trama normale.

Quindi applicare un test z sarebbe probabilmente OK con campioni di grandi dimensioni.


Affrontare i problemi con la mia risposta iniziale. Grazie, Glen_b per il tuo aiuto con l'OP (i probabili nuovi errori di interpretazione sono interamente miei).

  1. LA STATISTICA S SEGUE ALLA DISTRIBUZIONE AI SENSI DELLA NORMALITÀ:

Lasciando da parte le complessità nelle formule per un campione v. Due campioni (accoppiato e non accoppiato), la statistica t generale focalizzata sul caso di confrontare una media campionaria con una media della popolazione è:

(1)t-test=X¯-μSn=X¯-μσ/nS2σ2=X¯-μσ/nΣX=1n(X-X¯)2n-1σ2

Xμσ2 :

  1. (1) ~N(1,0) .
  2. (1)S2/σ2n-1~1n-1χn-12(n-1)S2/σ2~χn-12 come derivato qui .
  3. Numeratore e denominatore dovrebbero essere indipendenti.

t-statistica~t(df=n-1) .

  1. TEOREMA DI LIMITE CENTRALE:

La tendenza alla normalità della distribuzione campionaria del campione significa che con l'aumentare della dimensione del campione può giustificare l'assunzione di una distribuzione normale del numeratore anche se la popolazione non è normale. Tuttavia, non influenza le altre due condizioni (distribuzione chi quadro del denominatore e indipendenza del numeratore dal denominatore).

Ma non tutto è perduto, in questo post si discute come il teorema di Slutzky supporti la convergenza asintotica verso una distribuzione normale anche se la distribuzione chi del denominatore non è soddisfatta.

  1. ROBUSTEZZA:

Sulla carta "Uno sguardo più realistico alla robustezza e alle proprietà dell'errore di tipo II del test t alle deviazioni dalla normalità della popolazione" di Sawilowsky SS e Blair RC in Psychological Bulletin, 1992, Vol. 111, n. 2, 352-360 , dove hanno testato distribuzioni meno ideali o più "del mondo reale" (meno normali) per il potere e per gli errori di tipo I, si possono trovare le seguenti affermazioni: "Nonostante la natura conservatrice rispetto al tipo I errore del test t per alcune di queste distribuzioni reali, ci sono stati pochi effetti sui livelli di potenza per la varietà di condizioni di trattamento e dimensioni del campione studiate. I ricercatori possono facilmente compensare la leggera perdita di potenza selezionando una dimensione del campione leggermente più grande " .

" La visione prevalente sembra essere che il test t per campioni indipendenti sia ragionevolmente solido, per quanto riguarda gli errori di tipo I, alla forma della popolazione non gaussiana purché (a) le dimensioni del campione siano uguali o quasi, (b) campione le dimensioni sono abbastanza grandi (Boneau, 1960, menziona le dimensioni del campione da 25 a 30) e (c) i test sono a due code anziché a una coda. Si noti inoltre che quando queste condizioni sono soddisfatte e le differenze tra l'alfa nominale e l'alfa reale fanno si verificano, le discrepanze sono di solito di natura conservativa piuttosto che di natura liberale " .

Gli autori sottolineano gli aspetti controversi dell'argomento e non vedo l'ora di lavorare su alcune simulazioni basate sulla distribuzione lognormale menzionata dal professor Harrell. Vorrei anche presentare alcuni confronti di Monte Carlo con metodi non parametrici (ad esempio test U di Mann – Whitney). Quindi è un work in progress ...


SIMULAZIONI:

Disclaimer: Quello che segue è uno di questi esercizi nel "provarlo io stesso" in un modo o nell'altro. I risultati non possono essere usati per fare generalizzazioni (almeno non da parte mia), ma immagino di poter dire che queste due simulazioni MC (probabilmente imperfette) non sembrano essere troppo scoraggianti riguardo all'uso del test t nelle circostanze descritto.

Errore di tipo I:

n=50μ=0σ=1

inserisci qui la descrizione dell'immagine

5%4.5% , non troppo male ...

In effetti, la trama della densità dei test t ottenuti sembrava sovrapporsi al pdf effettivo della distribuzione t:

inserisci qui la descrizione dell'immagine

La parte più interessante stava guardando il "denominatore" del test t, la parte che avrebbe dovuto seguire una distribuzione chi-quadrata:

(n-1)S2/σ2=98(49(SDUN2+SDUN2))/98(eσ2-1)e2μ+σ2
.

Qui stiamo usando la deviazione standard comune, come in questa voce di Wikipedia :

SX1X2=(n1-1)SX12+(n2-1)SX22n1+n2-2

E, sorprendentemente (o meno), la trama era estremamente diversa dal pdf chi-quadrato sovrapposto:

inserisci qui la descrizione dell'immagine

Errore e alimentazione di tipo II:

La distribuzione della pressione arteriosa è possibile log-normale , il che risulta estremamente utile per impostare uno scenario sintetico in cui i gruppi di confronto sono separati in valori medi da una distanza di rilevanza clinica, ad esempio in uno studio clinico che verifica l'effetto di una pressione sanguigna concentrandosi sulla BP diastolica, un effetto significativo potrebbe essere considerato un calo medio di10 mmHg (una SD di circa 9 mmHg è stato scelto):

inserisci qui la descrizione dell'immagine Esecuzione di test t di confronto su una simulazione Monte Carlo altrimenti simile a quella degli errori di tipo I tra questi gruppi fittizi e con un livello di significatività di 5% finiamo con 0.024% errori di tipo II e una potenza di solo 99%.

Il codice è qui .


1
Penso che questo sia un malinteso comune sul CLT. Non solo il CLT non ha nulla a che fare con la conservazione dell'errore di tipo II (che nessuno ha menzionato qui) ma spesso non è applicabile quando è necessario stimare la varianza della popolazione. La varianza del campione può essere molto lontana da una distribuzione chi-quadrata in scala quando i dati non sono gaussiani, quindi il CLT potrebbe non essere applicabile anche quando la dimensione del campione supera le decine di migliaia. Per molte distribuzioni la SD non è nemmeno una buona misura di dispersione.
Frank Harrell,

1
Professor Harrell, sarò felice di prendere il posto se non è corretto. Questo potrebbe benissimo essere un malinteso fondamentale. Stavo suggerendo che è il CLT applicato alla distribuzione del mezzo campione che convalida, in grandi campioni, il confronto dei mezzi con un test z o un test t indipendentemente dalla distribuzione dell'origine dei campioni. Questo non è corretto?
Antoni Parellada,

1
Ciò sarebbe corretto se (1) la deviazione standard del campione funziona come misura di dispersione per la vera distribuzione sconosciuta o (2) la vera deviazione standard della popolazione è nota. Molto spesso non è così. E un esempio di n = 20.000 essendo di gran lunga troppo piccolo per il CLT a "lavorare" deriva dal prelievo dei campioni dalla distribuzione lognormale. L'incomprensione su questi punti dilaga tra i dottorandi in statistica con 20 anni di esperienza.
Frank Harrell,

5
Il problema, Lisa, è se devi confrontare i mezzi o desideri semplicemente confrontare le posizioni di due popolazioni. In alcune applicazioni l'interesse si concentra su una media o somma, da cui la sostituzione con qualche altro parametro sarebbe di scarsa utilità. Questo è particolarmente il caso in cui la popolazione è una quantità naturalmente cumulativa, come denaro o contaminazione ambientale.
whuber

3
Antoni, la tua ultima sezione sulla robustezza è abbastanza appropriata. Ho fatto molti studi simili a quelli descritti da Sawilosky e Blair e ne ho letti molti altri, e quindi sospetto che le loro conclusioni debbano essere limitate a tipi di dati molto speciali. Il test t fallisce miseramente, soprattutto in termini di potenza, in presenza di distribuzioni fortemente distorte. Ciò che mi ha sorpreso nel corso degli anni è che è effettivamente abbastanza robusto per altre deviazioni dalla normalità, al punto che vedo una certa validità nelle affermazioni che si tratta di una procedura non parametrica.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.