Perché il test F è così sensibile all'assunzione della normalità?

16

Perché il test F per la differenza di varianza è così sensibile all'assunzione della distribuzione normale, anche per grande ? $N$

Ho provato a cercare sul web e ho visitato la biblioteca, ma nessuno di questi ha dato buone risposte. Dice che il test è molto sensibile alla violazione del presupposto per una distribuzione normale, ma non capisco perché. Qualcuno ha una buona risposta per questo?

normality-assumption f-test

— Magnus Johannesen
fonte

6

A quale test

F

$F$ sei interessato?

— S. Kolassa - Ripristina Monica

Test F per misurare la differenza di varianza.

— Magnus Johannesen,

35

Suppongo che intendi il test F per il rapporto delle varianze quando testi una coppia di varianze campione per l'uguaglianza (perché è la più semplice che è abbastanza sensibile alla normalità; il test F per ANOVA è meno sensibile)

Se i campioni vengono estratti da distribuzioni normali, la varianza del campione ha una distribuzione chi quadrata in scala

Immagina che invece dei dati ricavati dalle normali distribuzioni, tu avessi una distribuzione più pesante del normale. Quindi otterresti troppe varianze di grandi dimensioni rispetto a quella distribuzione chi-quadrato ridimensionata e la probabilità che la varianza del campione esca nella coda all'estrema destra è molto sensibile alle code della distribuzione da cui sono stati estratti i dati =. (Ci saranno anche troppe piccole variazioni, ma l'effetto è un po 'meno pronunciato)

Ora, se entrambi i campioni sono estratti da quella distribuzione dalla coda più pesante, la coda più grande sul numeratore produrrà un eccesso di valori F grandi e la coda più grande sul denominatore produrrà un eccesso di valori F piccoli (e viceversa per la coda sinistra)

Entrambi questi effetti tenderanno a rifiutare un test a due code, anche se entrambi i campioni hanno la stessa varianza . Ciò significa che quando la vera distribuzione è più pesante del normale, i livelli di significatività effettiva tendono ad essere più alti di quanto desideriamo.

Al contrario, il prelievo di un campione da una distribuzione dalla coda più leggera produce una distribuzione di varianze del campione che ha una coda troppo corta: i valori di varianza tendono ad essere più "mediocri" di quanto si ottengano con i dati delle normali distribuzioni. Ancora una volta, l'impatto è più forte nella coda superiore rispetto alla coda inferiore.

Ora, se entrambi i campioni sono estratti da quella distribuzione dalla coda più leggera, ciò si traduce in un eccesso di valori F vicino alla mediana e troppo pochi in entrambe le code (i livelli di significatività effettiva saranno inferiori a quelli desiderati).

Questi effetti non sembrano necessariamente ridurre molto con dimensioni del campione maggiori; in alcuni casi sembra peggiorare.

A titolo di illustrazione parziale, qui ci sono 10000 varianze di campione (per $n=10$ ) per distribuzioni normali, $t_5$ e uniformi, ridimensionate per avere la stessa media di $\chi^2_9$ :

È un po 'difficile vedere la coda lontana dal momento che è relativamente piccola rispetto al picco (e per la $t_5$ le osservazioni nella coda si estendono in modo equo oltre il punto in cui abbiamo tracciato), ma possiamo vedere qualcosa dell'effetto su la distribuzione sulla varianza. È forse ancora più istruttivo trasformarli dall'inverso del cdf del chi-quadrato,

che nel caso normale sembra uniforme (come dovrebbe), nel caso t ha un grande picco nella coda superiore (e un picco più piccolo nella coda inferiore) e nel caso uniforme è più simile a una collina ma con un ampio picco tra 0,6 e 0,8 e gli estremi hanno probabilità molto più basse di quanto dovrebbero se stessimo campionando da distribuzioni normali.

Questi a loro volta producono gli effetti sulla distribuzione del rapporto di varianze che ho descritto prima. Ancora una volta, per migliorare la nostra capacità di vedere l'effetto sulle code (che può essere difficile da vedere), ho trasformato dall'inverso del cdf (in questo caso per la distribuzione $F_{9,9}$ ):

In un test a due code, esaminiamo entrambe le code della distribuzione F; entrambe le code sono sovrarappresentate quando si disegna dalla $t_5$ ed entrambe sono sottorappresentate quando si disegna da un'uniforme.

Ci sarebbero molti altri casi da indagare per uno studio completo, ma questo almeno dà un senso del tipo e della direzione dell'effetto, oltre a come si presenta.

— Glen_b - Ripristina Monica
fonte

1

Demo davvero bella

— shadowtalker

3

Come Glen_b ha illustrato brillantemente nelle sue simulazioni, il test F per un rapporto di varianze è sensibile alle code della distribuzione. La ragione di ciò è che la varianza di una varianza del campione dipende dal parametro di curtosi, e quindi la curtosi della distribuzione sottostante ha un forte effetto sulla distribuzione del rapporto delle varianze del campione.

$S_N^2$ $S_n^2$ $n<N$ $^\dagger$

\frac{S_{N}^{2}}{S_{n}^{2}} \overset{Approx}{\sim} \frac{n - 1}{N - 1} + \frac{N - n}{N - 1} \cdot F (D F_{C}, D F_{n}),

$\frac{S_N^2}{S_n^2} \overset{\text{Approx}}{\sim} \frac{n-1}{N-1} + \frac{N-n}{N-1} \cdot F(DF_C, DF_n),$

$\kappa$

D F_{n} = \frac{2 n}{κ - (n - 3) / (n - 1)} D F_{C} = \frac{2 (N - n)}{2 + (κ - 3) (1 - 2 / N + 1 / N n)} .

$DF_n = \frac{2n}{\kappa - (n-3)/(n-1)} \quad \quad \quad DF_C = \frac{2(N-n)}{2+(\kappa-3)(1-2/N+1/Nn)}.$

$\kappa=3$ $DF_n = n-1$ $DF_C = N-n$

$\hat{\kappa}$

$^\dagger$ $N-1$ $N$

— Ripristina Monica
fonte

+1 Questo è un post molto interessante. Certamente con le distribuzioni mesokurtic è più difficile ottenere che la distribuzione del rapporto di varianza sia il più lontano possibile dalla F con una gamma completa di scelte distributive, ma non è così difficile identificare i casi (alla dimensione del campione nella mia risposta, 10 e 10) dove il tasso di errore effettivo di tipo I è più che leggermente inferiore a un tasso nominale di 0,05. I primi 3 casi che ho provato (distribuzioni con curtosi di popolazione = 3 - anche tutti simmetrici) avevano tassi di rigetto di tipo I di 0,0379, 0,0745 e 0,0785. ... ctd

— Glen_b -Reinstate Monica

ctd ... Non ho dubbi sul fatto che casi più estremi possano essere identificati con un piccolo pensiero su come peggiorare l'approssimazione. Immagino che (il livello di significatività non sarebbe molto influenzato) potrebbe contenere meglio in campioni più grandi.

— Glen_b