Domanda sull'assunzione della normalità del test t


9

Per i test t, secondo la maggior parte dei testi si presume che i dati sulla popolazione siano normalmente distribuiti. Non vedo perché. Un test t richiede solo che la distribuzione campionaria dei mezzi di campionamento sia normalmente distribuita e non la popolazione?

Se il test t richiede solo alla fine la normalità nella distribuzione campionaria, la popolazione può assomigliare a qualsiasi distribuzione, giusto? Finché esiste una dimensione del campione ragionevole. Non è quello che afferma il teorema del limite centrale?

(Mi riferisco qui ai test t per campioni singoli o indipendenti)


1
Bene, la media del campione come variabile casuale può essere normale solo se anche le singole parti sono normali. Ma hai ragione: il test t è asintoticamente non parametrico (nessuna distribuzione normale), ma le varianze all'interno del gruppo (nella situazione a due campioni) dovrebbero essere simili ed esistenti.
Michael M,

Poiché le varianze all'interno del gruppo sono simili, ti riferisci all'assunzione dell'omogeneità della varianza? In tal caso, il test t del welch è corretto per questo, giusto?
Peter Nash,

Si, esattamente. Se i gradi di libertà corretti di Welch andassero all'infinito, allora anche la sua procedura sarebbe libera dalla distribuzione (tuttavia è necessaria una citazione ...).
Michael M,

Risposte:


9

Per i test t, secondo la maggior parte dei testi si presume che i dati sulla popolazione siano normalmente distribuiti. Non vedo perché. Un test t richiede solo che la distribuzione campionaria dei mezzi di campionamento sia normalmente distribuita e non la popolazione?

La statistica t consiste in un rapporto di due quantità, entrambe variabili casuali. Non consiste solo in un numeratore.

Affinché la statistica t abbia la distribuzione t, non è necessario solo che la media del campione abbia una distribuzione normale. Hai anche bisogno di:

  • che le nel denominatore siano tali che s 2 / σ 2χ 2 d *ss2/σ2χd2

  • che il numeratore e il denominatore siano indipendenti.

* (il valore di dipende da quale test - nell'un campione t abbiamo d = n - 1 )dtd=n1

Perché queste tre cose siano effettivamente vere, è necessario che i dati originali siano normalmente distribuiti.

Se il test t richiede solo alla fine la normalità nella distribuzione campionaria, la popolazione può assomigliare a qualsiasi distribuzione, giusto?

Prendiamo iid come indicato per un momento. Per mantenere il CLT, la popolazione deve adattarsi alle condizioni ... - la popolazione deve avere una distribuzione alla quale si applica il CLT. Quindi no, poiché esistono distribuzioni di popolazione per le quali il CLT non si applica.

Finché esiste una dimensione del campione ragionevole. Non è quello che afferma il teorema del limite centrale?

No, il CLT in realtà non dice una parola su "dimensioni del campione ragionevoli".

In realtà non dice nulla su ciò che accade a qualsiasi dimensione del campione finita.

n=1015n


Quindi hai problemi gemelli:

R. L'effetto che le persone di solito attribuiscono al CLT - l'approccio sempre più vicino alla normalità delle distribuzioni dei campioni significa a campioni di dimensioni piccole / moderate - non è in realtà indicato nel CLT **.

B. "Qualcosa non così lontano dal normale nel numeratore" non è sufficiente per ottenere una statistica con distribuzione t

** (Qualcosa come il teorema di Berry-Esseen ti fa assomigliare di più a ciò che le persone vedono quando osservano l'effetto di aumentare le dimensioni del campione sulla distribuzione dei mezzi del campione.)


nn


1
Perché queste tre cose [la normalità della media del campione, la squadratezza della varianza del campione e l'indipendenza delle due] siano effettivamente vere, è necessario che i dati originali siano normalmente distribuiti. Stai dicendo che solo il Normale ha queste tre proprietà? Non sto affermando che l'affermazione sia falsa, solo curioso di sapere se è quello che stai dicendo.
Andrew M,

2
@AndrewM Certamente solo il normale ha tutti e tre insieme. Inoltre, il primo o il terzo da solo sono sufficienti per implicare il normale - il terzo caratterizza il normale ( Lukacs, 1942 ) e per i numeri finiti di variabili casuali indipendenti, solo il normale ha il primo ( teorema di decomposizione di Cramér ). È concepibile che ci sia un altro modo per ottenere il secondo, ma non ne sono consapevole.
Glen_b -Restinata Monica,

@AndrewM per quanto riguarda il secondo, il lavoro di Ahsanullah (1987,1989) può essere rilevante.
Glen_b -Restinata Monica,

1
XAXA

@AndrewM La differenza è che il risultato che citi non dipende dall'indipendenza, mentre il risultato di Cramer lo fa. Sono entrambi utili al loro posto.
Glen_b -Restate Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.