Perché il Teorema del limite centrale si interrompe nella mia simulazione?

21

Diciamo che ho i seguenti numeri:

4,3,5,6,5,3,4,2,5,4,3,6,5

Ne campiono alcuni, diciamo 5, e calcolo la somma di 5 campioni. Quindi lo ripeto più volte per ottenere molte somme e tracciamo i valori delle somme in un istogramma, che sarà gaussiano a causa del Teorema del limite centrale.

Ma quando seguono i numeri, ho appena sostituito 4 con alcuni numeri grandi:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

Somme campionarie di 5 campioni di questi non diventano mai gaussiane in istogramma, ma più come una divisione e diventano due gaussiane. Perché?

central-limit-theorem

— JimSD
fonte

1

Non lo farà se lo aumenti oltre n = 30 o giù di lì ... solo il mio sospetto e la versione più succinta / riaffermazione della risposta accettata di seguito.

— oemb1905,

@JimSD il CLT è un risultato asintotico (cioè sulla distribuzione di mezzi campione standardizzati o somme nel limite quando la dimensione del campione va all'infinito). non è . La cosa che stai osservando (l'approccio alla normalità nei campioni finiti) non è strettamente un risultato del CLT, ma un risultato correlato.

n = 5

$n=5$

n \to \infty

$n\to\infty$

— Glen_b

3

@ oemb1905 n = 30 non è sufficiente per il tipo di asimmetria suggerita da OP. A seconda di quanto sia rara quella contaminazione con un valore come , potrebbe essere necessario n = 60 o n = 100 o anche di più prima che la normale appaia come un'approssimazione ragionevole. Se la contaminazione è di circa il 7% (come nella domanda) n = 120 è ancora un po '

10^{7}

$10^7$

— distorta

2

Possibile duplicato di Perché aumentare la dimensione del campione delle lancette non migliora l'approssimazione normale della curva?

— Sesto Empirico

Pensa che i valori in intervalli come (1.100.000, 1.900.000) non saranno mai raggiunti. Ma se fai una somma decente con quelle somme, funzionerà!

— David

18

Ricordiamo, precisamente, cosa dice il teorema del limite centrale.

Se sono variabili casuali indipendenti e distribuite in modo identico con media (condivisa) e deviazione standard , quindi converge nella distribuzione in una distribuzione normale standard (*). $X_1, X_2, \cdots, X_k$ $\mu$ $\sigma$ $\frac{X_1 + X_2 + \cdots + X_k}{k\frac{\sigma}{\sqrt{k}}}$ $N(0, 1)$

Questo è spesso usato nel modulo "informale":

Se sono variabili casuali indipendenti e distribuite in modo identico con media (condivisa) e deviazione standard , allora converte "in distribuzione" in una distribuzione normale standard . $X_1, X_2, \cdots, X_k$ $\mu$ $\sigma$ $X_1 + X_2 + \cdots + X_k$ $N(k \mu, \sqrt{k} \sigma)$

Non c'è un buon modo per rendere matematicamente precisa quella forma del CLT, dal momento che il "limite" cambia, ma è utile nelle pratiche.

Quando abbiamo un elenco statico di numeri come

4,3,5,6,5,3,10000000,2,5,4,3,6,5

e stiamo campionando prendendo un numero a caso da questo elenco, per applicare il teorema del limite centrale dobbiamo essere sicuri che il nostro schema di campionamento soddisfi queste due condizioni di indipendenza e distribuito in modo identico.

La distribuzione identica non è un problema: ogni numero nell'elenco è ugualmente probabile che sia scelto.
L'indipendente è più sottile e dipende dal nostro schema di campionamento. Se eseguiamo il campionamento senza sostituzione , violiamo l'indipendenza. È solo quando campioniamo con la sostituzione che è applicabile il teorema del limite centrale.

Pertanto, se utilizziamo il campionamento sostitutivo nel tuo schema, dovremmo essere in grado di applicare il teorema del limite centrale. Allo stesso tempo, hai ragione, se il nostro campione è di dimensione 5, vedremo un comportamento molto diverso a seconda che venga scelto il numero molto grande o non scelto nel nostro campione.

Allora, qual è il problema? Bene, il tasso di convergenza a una distribuzione normale dipende molto dalla forma della popolazione da cui stiamo campionando, in particolare, se la nostra popolazione è molto distorta, prevediamo che ci vorrà molto tempo per convergere alla normalità. Questo è il caso nel nostro esempio, quindi non dovremmo aspettarci che un campione di dimensione 5 sia sufficiente per mostrare la struttura normale.

Sopra ho ripetuto il tuo esperimento (con campionamento sostitutivo) per campioni di dimensioni 5, 100 e 1000. Puoi vedere che la struttura normale è emergente per campioni molto grandi.

(*) Nota: qui ci sono alcune condizioni tecniche necessarie, come media finita e varianza. Sono facilmente verificabili come veri nel nostro campionamento da un esempio di elenco.

— Matthew Drury
fonte

Grazie per una risposta molto rapida e perfetta. Idea di CLT, sostituzione, necessità di più campioni quando la distribuzione dei dati è distorta, ... Adesso è molto chiaro. La mia originale intenzione di domanda è, proprio come hai detto tu, il caso in cui un numero elevato è incluso senza sostituzione e il numero di campionamento è fisso. Si comporta in modo molto diverso e pertanto è necessario considerare il CLT "condizionale" nel caso in cui un campione di grandi dimensioni venga campionato e il caso non campionato. Mi chiedo se ci siano ricerche o lavori precedenti per quello .. Ma grazie comunque.

— JimSD

non so se applicabile qui, ma il teorema della convergenza CLT regolato

— dall'asimmetria

Sono un po 'confuso dalla definizione di @ MatthewDrury del CLT. Penso che converge in una costante di LLN, non in una distribuzione normale.

\frac{\sum X_{k}}{k}

$\frac{\sum X_k}{k}$

— JTH

1

@ seanv507 terzo momento assoluto, piuttosto che asimmetria; i due sono correlati ma si noti che per una distribuzione simmetrica con terzo momento finito che il Berry-Esseen ha legato sunon è 0 perché non è

| F_{n} (x) - Φ (x) |

$|F_n(x)-\Phi(x)|$

ρ / σ^{3}

$\rho/\sigma^3$

— asimmetria

1

@Glen_b Yah, ero un po 'informale (cosa che forse non avrei dovuto essere), ma posso risolverlo questo pomeriggio poiché ha creato un po' di confusione.

— Matthew Drury,

12

In generale, la dimensione di ciascun campione dovrebbe essere superiore a affinché l'approssimazione CLT sia buona. Una regola empirica è un campione di dimensioni o più. Ma, con la popolazione del tuo primo esempio, è OK. $5$ $30$ $5$

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

Nel tuo secondo esempio, a causa della forma della distribuzione della popolazione (per prima cosa, è troppo inclinata; leggi i commenti di guy e Glen_b qui sotto), anche campioni di dimensioni non ti daranno una buona approssimazione per la distribuzione di la media del campione usando il CLT. $30$

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

Ma, con questa seconda popolazione, campioni di, diciamo, dimensioni vanno bene. $100$

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

— zen
fonte

3

Non è la varianza il problema. Un modo per ottenere un controllo rigoroso è usare il rapporto tra il terzo momento centrale e la deviazione standard al cubo, come nel teorema di Berry-Esseen.

— ragazzo

Perfezionare. Aggiunto. Tks.

— Zen

1

Grazie per una risposta rapida, visiva e perfetta con un codice. Sono rimasto molto sorpreso dalla rapidità! Non ero a conoscenza del numero appropriato di campionamento. Stavo pensando al caso in cui è fissato il numero di campionamenti.

— JimSD

@guy, grazie per quello. Non conoscevo l'idea del "rapporto tra il terzo momento centrale e la deviazione standard cubata nel teorema di Berry-Esseen" . Vorrei solo affrontare il caso in cui vi è un gran numero come outlier è incluso nella distribuzione. E quel tipo di distribuzione si può fare riferimento a come hai detto, suppongo. Se conosci qualche lavoro precedente relativo a quel tipo di distribuzione, fammelo sapere, grazie.

— JimSD

2

Il teorema di @guy the Berry Esseen riguarda il terzo momento assoluto della media non solo il terzo momento della media . Questo lo rende sensibile non solo all'asimmetria ma anche a code pesanti.

ρ = E [| X - μ |^{3}]

$\rho=E[|X-\mu|^3]$

μ_{3} = E [(X - μ)^{3}]

$\mu_3=E[(X-\mu)^3]$

— Glen_b

7

Vorrei solo spiegare, usando complesse funzioni di generazione cumulativa , perché tutti continuano a dare la colpa a questo errore.

Scriviamo la variabile casuale che stai campionando come , dove è la media e la deviazione standard, quindi ha media e varianza . La funzione di generazione cumulativa di è . Qui indica l'inclinazione di ; potremmo scriverlo in termini di skew della variabile originale , vale a dire. . $\mu+\sigma Z$ $\mu$ $\sigma$ $Z$ $0$ $1$ $Z$ $-\frac{1}{2}t^2-\frac{i\gamma_1}{6}t^3+o(t^3)$ $\gamma_1$ $Z$ $\kappa_3$ $\mu+\sigma Z$ $\gamma_1=\sigma^{-3}\kappa_3$

Se dividiamo la somma di campioni della distribuzione di per , il risultato ha cgfAffinché un'approssimazione normale sia valida a abbastanza grande da consentire al grafico di apparire a destra, abbiamo bisogno di sufficientemente grande . Questo calcolo motiva . I due campioni considerati hanno valori molto diversi di . $n$ $Z$ $\sqrt{n}$

n (- \frac{1}{2} {(\frac{t}{\sqrt{n}})}^{2} - \frac{i γ_{1}}{6} {(\frac{t}{\sqrt{n}})}^{3}) + o (t^{3}) = - \frac{1}{2} t^{2} - \frac{i γ_{1}}{6 \sqrt{n}} t^{3} + o (t^{3}) .

$n\left(-\frac{1}{2}\left(\frac{t}{\sqrt{n}}\right)^2-\frac{i\gamma_1}{6}\left(\frac{t}{\sqrt{n}}\right)^3\right)+o(t^3)=-\frac{1}{2}t^2-\frac{i\gamma_1}{6\sqrt{n}}t^3+o(t^3).$

t

$t$

n

$n$

n \propto γ_{1}^{2}

$n\propto\gamma_1^2$

γ_{1}

$\gamma_1$

— JG
fonte

-1

La risposta breve è che non hai un campione abbastanza grande da applicare il teorema del limite centrale.

— Feynman
fonte

1

Che questa non possa essere una spiegazione valida è evidente dall'osservazione che il CLT fornisce una buona approssimazione per la prima serie di dati nella domanda, che è ugualmente piccola.

— whuber

@whuber: Penso che tu stia dicendo che la distribuzione normale fornisce un'approssimazione ragionevolmente buona per un campione di cinque dal primo set. Poiché esiste un numero finito di valori per le somme (13 possibili valori senza sostituzione e 21 possibili valori con sostituzione), l'approssimazione non migliora molto con un gran numero di campioni di cinque e l'approssimazione iniziale è più dovuta a il modello iniziale ...

— Henry

@whuber Dato che la distribuzione del primo set sembra distorta, mi aspetto che anche la somma di cinque venga lasciata distorta, in modo meno estremo di quanto mi aspetto che la somma di cinque dal secondo set sia distorta. Per ridurre ulteriormente l'asimmetria, avrei pensato che avresti bisogno di un campione più grande

— Henry

1

@Henry Grazie per i tuoi commenti. Non stavo facendo un'osservazione su queste circostanze particolari, ma solo sulla logica di questa risposta, nella speranza che potesse essere spiegata ulteriormente.

— whuber