Quale spiegazione intuitiva esiste per il teorema del limite centrale?


144

In diversi contesti invochiamo il teorema del limite centrale per giustificare qualsiasi metodo statistico che vogliamo adottare (ad esempio, approssimare la distribuzione binomiale con una distribuzione normale). Comprendo i dettagli tecnici sul perché il teorema è vero, ma solo ora mi è venuto in mente che non capisco davvero l'intuizione dietro il teorema del limite centrale.

Allora, qual è l'intuizione dietro il teorema del limite centrale?

Le spiegazioni dei laici sarebbero l'ideale. Se sono necessari alcuni dettagli tecnici, supponiamo che io comprenda i concetti di pdf, cdf, variabile casuale ecc., Ma non ho conoscenza dei concetti di convergenza, funzioni caratteristiche o qualsiasi cosa abbia a che fare con la teoria della misura.


8
Una buona domanda, sebbene la mia reazione immediata, supportata dalla mia esperienza limitata nell'insegnare questo, è che il CLT inizialmente non è affatto intuitivo per la maggior parte delle persone. Semmai, è contro-intuitivo!
onestop,

2
@onestop AMEN! fissare la distribuzione binomiale con p = 1/2 all'aumentare di n mostra che il CLT è in agguato - ma l'intuizione per esso mi è sempre sfuggita.
ronaf,

2
Domanda simile con alcune belle idee: stats.stackexchange.com/questions/643/…

1
Non una spiegazione, ma questa simulazione può essere utile per capirla.
David Lane,

Risposte:


119

Mi scuso in anticipo per la lunghezza di questo post: è con una certa trepidazione che lo faccio uscire in pubblico, perché ci vuole un po 'di tempo e attenzione per leggere e senza dubbio ha errori tipografici e cadute espositive. Ma qui è per coloro che sono interessati all'affascinante argomento, offerto nella speranza che ti incoraggi a identificare una o più delle molte parti del CLT per un'ulteriore elaborazione delle tue risposte.


La maggior parte dei tentativi di "spiegare" il CLT sono illustrazioni o semplicemente riaffermazioni che affermano che è vero. Una spiegazione davvero penetrante e corretta dovrebbe spiegare moltissime cose.

Prima di approfondire questo aspetto, chiariamo cosa dice il CLT. Come tutti sapete, ci sono versioni che variano nella loro generalità. Il contesto comune è una sequenza di variabili casuali, che sono determinati tipi di funzioni su uno spazio di probabilità comune. Per spiegazioni intuitive che reggono rigorosamente trovo utile pensare a uno spazio di probabilità come una scatola con oggetti distinguibili. Non importa quali siano questi oggetti, ma li chiamerò "ticket". Facciamo una "osservazione" di una scatola mescolando accuratamente i biglietti ed estraendone uno; quel biglietto costituisce l'osservazione. Dopo averlo registrato per analisi successive, restituiamo il ticket alla scatola in modo che il suo contenuto rimanga invariato. Una "variabile casuale" è fondamentalmente un numero scritto su ciascun ticket.

Nel 1733, Abraham de Moivre considerò il caso di una singola scatola in cui i numeri sui biglietti sono solo zeri e uno ("prove di Bernoulli"), con alcuni di ogni numero presente. Immaginava di fare osservazioni fisicamente indipendenti , ottenendo una sequenza di valori x 1 , x 2 , ... , x n , che sono tutti zero o uno. La somma di questi valori, y n = x 1 + x 2 + + x nnx1,x2,,xnyn=x1+x2++xn, è casuale perché i termini nella somma sono. Pertanto, se potessimo ripetere questa procedura più volte, varie somme (numeri interi che vanno da a n ) apparirebbero con varie frequenze - proporzioni del totale. (Vedi gli istogrammi di seguito.)0n

Ora ci si aspetterebbe - ed è vero - che per valori molto grandi di , tutte le frequenze sarebbero piuttosto piccole. Se dovessimo essere così audaci (o sciocchi) da tentare di "prendere un limite" o "lasciare n andare a ", concluderemmo correttamente che tutte le frequenze si riducono a 0 . Ma se disegniamo semplicemente un istogramma delle frequenze, senza prestare attenzione a come sono etichettati i suoi assi, vediamo che gli istogrammi per n grandi iniziano a sembrare tutti uguali: in un certo senso, questi istogrammi si avvicinano a un limite anche se le frequenze si vanno tutti a zero.nn0n

Gli istogrammi

Questi istogrammi rappresentano i risultati di ripetere la procedura di ottenimento volte tante. n è il "numero di prove" nei titoli.ynn

L'intuizione qui è di disegnare prima l'istogramma e di etichettarne gli assi in seguito . Con grande l'istogramma copre una vasta gamma di valori centrati attorno a n / 2 (sull'asse orizzontale) e un intervallo di valori vanificatamente piccolo (sull'asse verticale), perché le singole frequenze diventano piuttosto piccole. Lato questa curva nella regione tracciando ha pertanto richiesto sia spostamento e ridimensionamento dell'istogramma. La descrizione matematica di questo è che per ogni n possiamo scegliere un valore centrale m n (non necessariamente unico!) Per posizionare l'istogramma e alcuni valori di scala s nnn/2nmnsn(non necessariamente unico!) per adattarlo agli assi. Questo può essere fatto matematicamente cambiando in z n = ( y n - m n ) / s n .ynzn=(ynmn)/sn

Ricorda che un istogramma rappresenta le frequenze in base alle aree tra esso e l'asse orizzontale. L'eventuale stabilità di questi istogrammi per valori elevati di dovrebbe pertanto essere dichiarata in termini di area. n Quindi, scegli qualsiasi intervallo di valori che ti piace, diciamo da a b > a e, man mano che n aumenta, segui l'area della parte dell'istogramma di z n che si estende orizzontalmente sull'intervallo ( a , b ] . Il CLT afferma diversi cose:ab>anzn(a,b]

  1. Non importa quale sia e b sono,ab se scegliamo le sequenze e s n in modo appropriato (in un modo che non dipende da una o b affatto), questa zona si avvicina infatti un limite n diventa grande.mnsnabn

  2. Le sequenze e s n possono essere scelte in un modo che dipende solo da n , dalla media dei valori nella casella e da una misura della diffusione di quei valori - ma da nient'altro - in modo che indipendentemente da ciò che è in la casella, il limite è sempre lo stesso. (Questa proprietà di universalità è sorprendente.)mnsnn

  3. Specificamente, quella zona limite è l'area sotto la curva traunaeb: questa è la formula di quella istogramma limitare universale.y=exp(z2/2)/2πab

    La prima generalizzazione del CLT aggiunge,

  4. Quando la casella può contenere numeri oltre a zero e uno, valgono esattamente le stesse conclusioni (a condizione che le proporzioni di numeri estremamente grandi o piccoli nella casella non siano "troppo grandi", un criterio che abbia una dichiarazione quantitativa precisa e semplice) .

    La prossima generalizzazione, e forse la più sorprendente, sostituisce questa singola scatola di biglietti con una serie ordinata di scatole indefinitamente lunghe con biglietti. Ogni scatola può avere numeri diversi sui suoi biglietti in proporzioni diverse. L'osservazione viene effettuata estraendo un ticket dalla prima casella, x 2 viene dalla seconda casella e così via.x1x2

  5. Esistono esattamente le stesse conclusioni, purché il contenuto dei riquadri non sia "non troppo diverso" (esistono diverse caratterizzazioni quantitative precise, ma diverse, di ciò che "non troppo diverso" significa: consentono una sorprendente quantità di latitudine).

Queste cinque affermazioni, come minimo, devono essere spiegate. C'è più. Diversi aspetti intriganti dell'installazione sono impliciti in tutte le dichiarazioni. Per esempio,

  • Cosa rende speciale la somma ? Perché non abbiamo teoremi limite centrali per altre combinazioni matematiche di numeri come il loro prodotto o il loro massimo? (Si scopre che lo facciamo, ma non sono così generali né hanno sempre una conclusione così chiara e semplice a meno che non possano essere ridotti al CLT.) Le sequenze di e s n non sono uniche ma sono quasi unico nel senso che alla fine devono approssimare l'aspettativa della somma di n biglietti e la deviazione standard della somma, rispettivamente (che, nelle prime due affermazioni del CLT, è uguale a mnsnn volte la deviazione standard della casella). n

    La deviazione standard è una misura della diffusione dei valori, ma non è affatto l'unica né è la più "naturale", né storicamente né per molte applicazioni. (Molte persone sceglierebbero qualcosa come una deviazione assoluta mediana dalla mediana , per esempio.)

  • Perché la SD appare in un modo così essenziale?

  • Considera la formula per l'istogramma limitante: chi si sarebbe aspettato che prendesse una tale forma? Dice che il logaritmo della densità di probabilità è una funzione quadratica . Perché? C'è qualche spiegazione intuitiva o chiara e convincente per questo?


Confesso di non essere in grado di raggiungere l'obiettivo finale di fornire risposte abbastanza semplici da soddisfare i difficili criteri di Srikant in termini di intuitività e semplicità, ma ho delineato questo background nella speranza che altri possano essere ispirati a colmare alcune delle molte lacune. Penso che una buona dimostrazione alla fine dovrà fare affidamento su un'analisi elementare di come possono sorgere valori tra e β n = b s n + m n nella formazione della somma x 1 + x 2 + ... + x nαn=asn+mnβn=bsn+mnX1+X2+...+Xn. Tornando alla versione single-box del CLT, il caso di una distribuzione simmetrica è più semplice da gestire: la sua mediana è uguale la sua media, quindi non c'è una probabilità del 50% che sarà inferiore media della scatola e una probabilità del 50% che x io sarà superiore alla sua media. Inoltre, quando n è sufficientemente grande, le deviazioni positive dalla media dovrebbero compensare le deviazioni negative nella media. (Ciò richiede un'attenta giustificazione, non solo un cenno della mano.) Pertanto dovremmo principalmente preoccuparci di contare il numero di deviazioni positive e negative e avere solo una preoccupazione secondaria riguardo alle loro dimensioni.XioXion (Di tutte le cose che ho scritto qui, questo potrebbe essere il più utile per fornire alcune intuizioni sul perché il CLT funziona. In effetti, i presupposti tecnici necessari per rendere vere le generalizzazioni del CLT sono essenzialmente vari modi per escludere la possibilità che rare deviazioni enormi sconvolgeranno abbastanza l'equilibrio per prevenire l'insorgere dell'istogramma limitante.)

Ciò dimostra, in qualche modo, perché la prima generalizzazione del CLT non rivela davvero nulla che non fosse nella versione di prova originale di De Moivre Bernoulli.

A questo punto sembra che non ci sia altro che fare un po 'di matematica: dobbiamo contare il numero di modi distinti in cui il numero di deviazioni positive dalla media può differire dal numero di deviazioni negative per qualsiasi valore predeterminato , dove evidentemente k è uno di - n , - n + 2 , , n - 2 , n . Ma poiché nel limite scompaiono errori minacciosi, non dobbiamo contare con precisione; dobbiamo solo approssimare i conteggi. A tal fine è sufficiente saperloKK-n,-n+2,...,n-2,n

Il numero di modi per ottenere K positivo e n-K valori negativi su n

è uguale a n-K+1K

volte il numero di modi per ottenere K-1 positivo e n-K+1 valori negativi.

(Questo è un risultato perfettamente elementare, quindi non mi prenderò la briga di scrivere la giustificazione.) Ora approssimiamo all'ingrosso. La frequenza massima si verifica quando è il più vicino possibile a n / 2 (anche elementare). Scriviamo m = n / 2 . Quindi, rispetto alla frequenza massima, la frequenza di m + j + 1 deviazioni positive ( j 0 ) è stimata dal prodottoKn/2m=n/2m+j+1j0

m+1m+1mm+2m-j+1m+j+1

=1-1/(m+1)1+1/(m+1)1-2/(m+1)1+2/(m+1)1-j/(m+1)1+j/(m+1).

135 anni prima che De Moivre scrivesse, John Napier inventò i logaritmi per semplificare la moltiplicazione, quindi approfittiamo di questo. Usando l'approssimazione

log(1x1+x)2x,

troviamo che il registro della frequenza relativa è approssimativamente

2/(m+1)4/(m+1)2j/(m+1)=j(j+1)m+1j2m.

Poiché l'errore cumulativo è proporzionale a , questo dovrebbe funzionare bene purché j 4 sia piccolo rispetto a m 3 . Ciò copre una gamma di valori j maggiore di quella necessaria. (È sufficiente che l'approssimazione funzioni per j solo nell'ordine di j4/m3j4m3jj che asintoticamente è molto più piccolo dim 3 / 4 .)mm3/4


Ovviamente molte più analisi di questo tipo dovrebbero essere presentate per giustificare le altre asserzioni nel CLT, ma sto esaurendo il tempo, lo spazio e l'energia e probabilmente ho perso il 90% delle persone che hanno iniziato a leggere questo. Questa semplice approssimazione, tuttavia, suggerisce come in origine Moivre avrebbe potuto sospettare l'esistenza di una distribuzione universale limitante, che il suo logaritmo sia una funzione quadratica e che il fattore di scala corretto debba essere proporzionale a sn (perchéj2/m=2j2/n=2(j/n). j2/m=2j2/n=2(j/n)2 È difficile immaginare come questa importante relazione quantitativa possa essere spiegata senza invocare un qualche tipo di informazione matematica e ragionamento; niente di meno lascerebbe alla forma precisa della curva limite un mistero completo.


5
+1 Mi ci vorrà del tempo per digerire la tua risposta. Ammetto che chiedere un'intuizione per il CLT nei limiti che ho imposto potrebbe essere quasi impossibile.

2
Grazie per aver dedicato del tempo a scrivere questo, è l'esposizione più utile del CLT che ho visto che è anche molto accessibile matematicamente.
Jeremy Radcliff,

1
Sì, abbastanza denso .... così tante domande. In che modo il primo istogramma ha 2 barre (c'era solo 1 prova!); posso semplicemente ignorarlo? E la convenzione è di solito per evitare spazi orizzontali tra le barre di un istogramma, giusto? (perché, come dici tu, l'area è importante e l'area verrà eventualmente calcolata su un dominio continuo (ovvero senza spazi))? Quindi ignorerò anche le lacune ...? Anche io avevo delle lacune quando ho provato a capirlo per la prima volta :)
The Red Pea,

1
@TheRed Grazie per le tue domande. Ho modificato la prima parte di questo post per rendere questi punti un po 'più chiari.
whuber

4
Ah, sì, ho confuso "numero di prove = =" osservazioni "" con "il numero di volte (questa intera procedura) viene ripetuto". Pertanto, se un ticket può avere solo il valore dei due valori, 0 o 1 , e si osserva solo un ticket, la somma dei valori di tali ticket può essere solo una delle due cose: 0 o 1 . Quindi il tuo primo istogramma ha due barre. Inoltre, queste barre sono approssimativamente uguali in altezza perché prevediamo che 0 e 1 si verifichino in proporzioni uguali. n
The Red Pea,

27

L'animazione più bella che conosco: http://www.ms.uky.edu/~mai/java/stat/GaltonMachine.html

8 strati orizzontali di perni equidistanti, ciascuno sfalsato, si traduce in un ostacolo in stile "pachinko / flipper" per le palline lasciate cadere attraverso questi perni.  Ogni palla cade sul fondo e quando le palle si impilano, la loro altezza si avvicina a un contorno della curva gaussiana.  Ciò dimostra che la somma di molti eventi casuali indipendenti (i livelli), comporterà una distribuzione gaussiana dei risultati (l'altezza della palla impilata)

Le parole più semplici che ho letto: http://elonen.iki.fi/articles/centrallimit/index.en.html

Se sommi i risultati di questi dieci lanci, è probabile che ciò che ottieni sia più vicino a 30-40 rispetto al massimo, 60 (tutti i sei) o, d'altra parte, il minimo, 10 (tutti).

La ragione di ciò è che puoi ottenere i valori medi in molti modi diversi rispetto agli estremi. Esempio: quando si lanciano due dadi: 1 + 6 = 2 + 5 = 3 + 4 = 7, ma solo 1 + 1 = 2 e solo 6 + 6 = 12.

Cioè: anche se si ottiene uno dei sei numeri ugualmente probabili quando si lancia un dado, gli estremi sono meno probabili dei valori medi in somme di diversi dadi.


20

L'intuizione è una cosa difficile. È ancora più complicato con la teoria nelle nostre mani legate dietro la schiena.

Il CLT tratta di somme di piccoli disturbi indipendenti. "Somma" nel senso del campione significa "piccolo" nel senso della varianza finita (della popolazione) e "disturbi" nel senso di più / meno attorno a un valore centrale (della popolazione).

Per me, il dispositivo che fa appello più direttamente all'intuizione è il quinconce, o "scatola di Galton", vedi Wikipedia (per "macchina per fagioli"?) L'idea è di far rotolare una pallina sulla faccia di una tavola ornata da un reticolo di perni equidistanti. Lungo la sua discesa la palla devia a destra e a sinistra (... in modo casuale, indipendente) e si raccoglie in basso. Nel tempo, vediamo una bella forma di tumulo a forma di campana proprio davanti ai nostri occhi.

Il CLT dice la stessa cosa. È una descrizione matematica di questo fenomeno (più precisamente, il quinconce è una prova fisica per l'approssimazione normale alla distribuzione binomiale). In parole povere, il CLT afferma che fintanto che la nostra popolazione non si comporta in modo eccessivo (cioè se le code del PDF sono sufficientemente sottili), la media del campione (correttamente ridimensionata) si comporta proprio come quella pallina che rimbalza sulla faccia di il quinconce: a volte cade a sinistra, a volte cade a destra, ma il più delle volte atterra proprio nel mezzo, in una bella forma a campana.

La maestosità del CLT (per me) è che la forma della popolazione sottostante è irrilevante. La forma gioca un ruolo solo nella misura in cui delega il tempo che dobbiamo attendere (nel senso della dimensione del campione).


17

Un'osservazione relativa al CLT può essere la seguente. Quando hai una somma di molti componenti casuali, se uno è "più piccolo del solito", questo è in gran parte compensato da alcuni degli altri componenti che sono "più grandi del solito" . In altre parole, le deviazioni negative e le deviazioni positive dalla componente significano annullarsi a vicenda nella somma. Personalmente, non ho una chiara intuizione sul perché esattamente le deviazioni rimanenti formano una distribuzione che sembra sempre più normale, più termini hai.

S=X1+X2++Xn

Esistono molte versioni del CLT, alcune più forti di altre, alcune con condizioni rilassate come una moderata dipendenza tra i termini e / o distribuzioni non identiche per i termini. Nella più semplice da dimostrare versioni di CLT, la prova è di solito basato sulla funzione generatrice dei momenti (o di Laplace-Stieltjes trasformare o qualche altra appropriata trasformata di densità) della somma . Scrivere questo come un'espansione di Taylor e mantenere solo il termine più dominante ti dà la funzione generatrice del momento della distribuzione normale. Quindi per me personalmente, la normalità è qualcosa che segue da un gruppo di equazioni e non posso fornire ulteriori intuizioni di così.S

Va notato, tuttavia, che la distribuzione della somma, in realtà non è mai normalmente distribuita, né il CLT afferma che lo sarebbe. Se è finito, c'è ancora una certa distanza dalla distribuzione normale e se n = sia la media che la varianza sono infinite. In quest'ultimo caso potresti prendere la media della somma infinita, ma poi otterrai un numero deterministico senza alcuna variazione, che difficilmente potrebbe essere etichettato come "normalmente distribuito".nn=

Ciò può comportare problemi con le applicazioni pratiche del CLT. Di solito, se sei interessato alla distribuzione di vicino al suo centro, CLT funziona bene. Tuttavia, la convergenza alla normalità non è uniforme ovunque e più ci si allontana dal centro, più termini è necessario avere un'approssimazione ragionevole.S/n

Con tutta la "santità" del teorema del limite centrale nelle statistiche, i suoi limiti sono spesso trascurati fin troppo facilmente. Di seguito do due diapositive del mio corso sottolineando che CLT fallisce completamente nelle code, in ogni caso di utilizzo pratico. Sfortunatamente, molte persone usano specificamente il CLT per stimare le probabilità di coda, consapevolmente o meno.

inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine


5
Questo è un ottimo materiale e un saggio consiglio. Purtroppo non posso votarlo perché le asserzioni in "Questa normalità è un artefatto matematico e penso che non sia utile cercare una verità più profonda o un'intuizione dietro di essa" sono profondamente preoccupanti. Sembrano suggerire che (1) non dovremmo fare affidamento sulla matematica per aiutarci teoricamente e (2) non ha senso capire la matematica in primo luogo. Spero che altri post in questa discussione siano già molto utili per smentire la seconda affermazione. Il primo è così incoerente da sopportare a malapena ulteriori analisi.
whuber

2
@whuber. Hai ragione, forse sono fuori dalla mia portata. Lo modificherò.
StijnDeVuyst,

3
Grazie per aver riconsiderato la parte problematica e un grande +1 per il resto.
whuber

7

Questa risposta spera di dare un significato intuitivo del teorema del limite centrale, usando semplici tecniche di calcolo (espansione di Taylor dell'ordine 3). Ecco il contorno:

  1. Cosa dice il CLT
  2. Una prova intuitiva del CLT usando un semplice calcolo
  3. Perché la distribuzione normale?

Citeremo la distribuzione normale alla fine; perché il fatto che alla fine si verifichi la distribuzione normale non porta molta intuizione.

1. Cosa dice il teorema del limite centrale? Diverse versioni del CLT

Esistono diverse versioni euivalenti del CLT. L'istruzione da manuale del CLT afferma che per ogni X reale e qualsiasi sequenza di variabili casuali indipendenti X1,,Xn con media zero e varianza 1, Per capire ciò che èuniversaleeintuitivosul CLT, dimentichiamo il limite per un momento. La precedente affermazione dice che seX1. ,...,Xn eZ1,...,Zn

P(X1++Xnnx)n+xet2/22πdt.
X1.,,XnZ1,,Zn sono due sequenze di variabili casuali indipendenti ciascuna con media zero e varianza 1, quindi per ogni funzione indicatorefdel modulo, per alcunixreali fissi, f(t)={1 se t<x0 se tx. Il display precedente incarna il fatto che il limite è lo stesso, indipendentemente dalle distribuzioni particolari diX1
E[f(X1++Xnn)]E[f(Z1++Znn)]n+0
fX
f(t)={1 Se t<X0 Se tX.
X1,...,Xn eZ1,...,Zn, a condizione che le variabili casuali siano indipendenti con zero medio, varianza uno.

Alcune altre versioni del CLT menzionano la classe delle funzioni di Lipschtiz delimitate da 1; alcune altre versioni del CLT menzionano la classe di funzioni smooth con derivata limitata dell'ordine K . Considera due sequenze X1,...,Xn e Z1,...,Zn come sopra e per alcune funzioni f , il risultato della convergenza (CONV)

(CONV)E[f(X1++Xnn)]-E[f(Z1++Znn)]n+0

È possibile stabilire l'equivalenza ("se e solo se") tra le seguenti affermazioni:

  1. ff(t)=1t<Xf(t)=0txx
  2. f:RR
  3. C
  4. fsupxR|f(x)|1

Ognuno dei 4 punti sopra dice che la convergenza vale per una grande classe di funzioni. Da un argomento di approssimazione tecnica, si può dimostrare che i quattro punti precedenti sono equivalenti, si rimanda il lettore al capitolo 7, pagina 77 del libro di David Pollard Una guida per l'utente per misurare le probabilità teoriche da cui questa risposta è fortemente ispirata.

La nostra ipotesi per il resto di questa risposta ...

supxR|f(x)|CC>0E[|Xi|3]E[|Zi|3]

E[f(X1++Xnn)]X1,...,Xn

X1,,XnZ1,,Zn

XiZiW=Z1++Zn1h(x)=f(x/n)

h(Z1++Zn1+Xn)=h(W)+Xnh(W)+Xn2h(W)2+Xn3/h(Mn)6h(Z1++Zn1+Zn)=h(W)+Znh(W)+Zn2h(W)2+Zn3h(Mn)6
MnMnXnWE[Xnh(W)]=E[Xn]E[h(W)]=0

(C/6)E[|Xn|3+|Zn|3](n)3.
Cf(n)3h(t)=f(t/n)/(n)3XnZn

Xn1Zn1W~=Z1+Z2++Zn2+Xn

h(Z1++Zn2+Xn1+Xn)=h(W~)+Xn1h(W~)+Xn12h(W~)2+Xn13/h(M~n)6h(Z1++Zn2+Zn1+Xn)=h(W~)+Zn1h(W~)+Zn12h(W~)2+Zn13/h(M~n)6.
Zn1W~Xn1W~

(C/6)E[|Xn1|3+|Zn1|3](n)3.
ZiXin
|E[f(X1++Xnn)]E[f(Z1++Znn)]|n(C/6)maxi=1,,nE[|Xi|3+|Zi|3](n)3.
nX1,,XnZ1,,ZnXiZiO(1/(n)3)XiZiO(1/n)

E[f(X1++Xnn)]X1,,XnE[Xi]=E[Zi]=0,E[Zi2]=E[Xi2]=1

3. Perché la distribuzione normale?

E[f(X1++Xnn)]XiO(1/n)

E[f(X1++Xnn)]

X1,,Xn(X1++Xn)/n

N(0,1)Z1,,ZnN(0,1)Z1++ZnnN(0,1)nZN(0,1)

E[f(Z1++Znn)]=E[f(Z)],
X1,,XnE[Xi]=0,E[Xi2]=1

|E[f(X1++Xnn)]E[f(Z)|supxR|f(x)|maxi=1,,nE[|Xi|3+|Z|3]6n.

Sembra che tu stia affermando una legge di grandi numeri anziché il CLT.
whuber

1
E[f((X1+...+Xn)/n)]E[f(Z)]ZN(0,1)f

2
Capisco cosa vuoi dire. Ciò che mi mette in pausa è che la tua affermazione riguarda solo le aspettative e non le distribuzioni, mentre il CLT trae conclusioni su una distribuzione limitante. L'equivalenza tra i due potrebbe non essere immediatamente evidente per molti. Potrei suggerire, quindi, di fornire una connessione esplicita tra la tua dichiarazione e le solite dichiarazioni del CLT in termini di limitazione delle distribuzioni? (+1 a proposito: grazie per aver elaborato questa discussione.)
whuber

1

Ho rinunciato a provare a trovare una versione intuitiva e ho escogitato alcune simulazioni. Ne ho uno che presenta una simulazione di un Quincunx e alcuni altri che fanno cose come mostrare come anche una distribuzione del tempo di reazione grezza distorta diventerà normale se si raccolgono abbastanza RT per soggetto. Penso che aiutino, ma sono nuovi nella mia classe quest'anno e non ho ancora valutato il primo test.

Una cosa che pensavo fosse buona era poter mostrare anche la legge di un gran numero. Potrei mostrare come sono variabili le cose con campioni di piccole dimensioni e quindi come si stabilizzano con quelli di grandi dimensioni. Faccio anche un sacco di altre demo di grandi numeri. Posso mostrare l'interazione nel Quincunx tra il numero di processi casuali e il numero di campioni.

(risulta che non poter usare un gesso o una lavagna bianca nella mia classe potrebbe essere stata una benedizione)


Ciao John: piacere di rivederti con questo post dopo quasi nove anni! Sarebbe interessante leggere le esperienze che hai avuto nel frattempo con il tuo uso di simulazioni per insegnare l'idea del CLT e degli LLN.
whuber

Ho smesso di insegnare quella classe un anno dopo, ma l'istruttore successivo ha ripreso l'idea della simulazione. In effetti, lo porta molto più lontano e ha sviluppato una sequenza di splendide app e ha gli studenti che giocano con simulazioni per un sacco di cose nella classe di 250 persone. Per quanto posso dire insegnando alla classe superiore, gli studenti sembrano trarne molto. La differenza tra i suoi studenti e quelli di classi di alimentatori equivalenti è evidente. (ma, naturalmente, ci sono molte variabili incontrollate lì)
John

Grazie John. È così insolito ottenere persino un feedback aneddotico sulle prestazioni durature degli studenti dopo che una lezione è finita che trovo anche queste informazioni limitate di interesse.
whuber

-8

Quando aggiungi molti istogrammi di distribuzioni casuali insieme mantieni la normale forma di distribuzione perché tutti i singoli istogrammi hanno già quella forma o ottieni quella forma perché le fluttuazioni nei singoli istogrammi tendono ad annullarsi a vicenda se aggiungi un grande numero di istogrammi. Un istogramma di una distribuzione casuale di una variabile è già approssimativamente distribuito in un modo che le persone hanno iniziato a chiamare la distribuzione normale perché è così comune e questo è un microcosmo del teorema del limite centrale.

Questa non è l'intera storia ma penso che sia tanto intuitiva quanto si arriva.


2
2

5
18,14,12,14,18
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.