Mi scuso in anticipo per la lunghezza di questo post: è con una certa trepidazione che lo faccio uscire in pubblico, perché ci vuole un po 'di tempo e attenzione per leggere e senza dubbio ha errori tipografici e cadute espositive. Ma qui è per coloro che sono interessati all'affascinante argomento, offerto nella speranza che ti incoraggi a identificare una o più delle molte parti del CLT per un'ulteriore elaborazione delle tue risposte.
La maggior parte dei tentativi di "spiegare" il CLT sono illustrazioni o semplicemente riaffermazioni che affermano che è vero. Una spiegazione davvero penetrante e corretta dovrebbe spiegare moltissime cose.
Prima di approfondire questo aspetto, chiariamo cosa dice il CLT. Come tutti sapete, ci sono versioni che variano nella loro generalità. Il contesto comune è una sequenza di variabili casuali, che sono determinati tipi di funzioni su uno spazio di probabilità comune. Per spiegazioni intuitive che reggono rigorosamente trovo utile pensare a uno spazio di probabilità come una scatola con oggetti distinguibili. Non importa quali siano questi oggetti, ma li chiamerò "ticket". Facciamo una "osservazione" di una scatola mescolando accuratamente i biglietti ed estraendone uno; quel biglietto costituisce l'osservazione. Dopo averlo registrato per analisi successive, restituiamo il ticket alla scatola in modo che il suo contenuto rimanga invariato. Una "variabile casuale" è fondamentalmente un numero scritto su ciascun ticket.
Nel 1733, Abraham de Moivre considerò il caso di una singola scatola in cui i numeri sui biglietti sono solo zeri e uno ("prove di Bernoulli"), con alcuni di ogni numero presente. Immaginava di fare osservazioni fisicamente indipendenti , ottenendo una sequenza di valori x 1 , x 2 , ... , x n , che sono tutti zero o uno. La somma di questi valori, y n = x 1 + x 2 + … + x nnx1,x2,…,xnyn= x1+ x2+ … + Xn, è casuale perché i termini nella somma sono. Pertanto, se potessimo ripetere questa procedura più volte, varie somme (numeri interi che vanno da a n ) apparirebbero con varie frequenze - proporzioni del totale. (Vedi gli istogrammi di seguito.)0n
Ora ci si aspetterebbe - ed è vero - che per valori molto grandi di , tutte le frequenze sarebbero piuttosto piccole. Se dovessimo essere così audaci (o sciocchi) da tentare di "prendere un limite" o "lasciare n andare a ∞ ", concluderemmo correttamente che tutte le frequenze si riducono a 0 . Ma se disegniamo semplicemente un istogramma delle frequenze, senza prestare attenzione a come sono etichettati i suoi assi, vediamo che gli istogrammi per n grandi iniziano a sembrare tutti uguali: in un certo senso, questi istogrammi si avvicinano a un limite anche se le frequenze si vanno tutti a zero.nn∞0n
Questi istogrammi rappresentano i risultati di ripetere la procedura di ottenimento volte tante. n è il "numero di prove" nei titoli.ynn
L'intuizione qui è di disegnare prima l'istogramma e di etichettarne gli assi in seguito . Con grande l'istogramma copre una vasta gamma di valori centrati attorno a n / 2 (sull'asse orizzontale) e un intervallo di valori vanificatamente piccolo (sull'asse verticale), perché le singole frequenze diventano piuttosto piccole. Lato questa curva nella regione tracciando ha pertanto richiesto sia spostamento e ridimensionamento dell'istogramma. La descrizione matematica di questo è che per ogni n possiamo scegliere un valore centrale m n (non necessariamente unico!) Per posizionare l'istogramma e alcuni valori di scala s nnn / 2nmnSn(non necessariamente unico!) per adattarlo agli assi. Questo può essere fatto matematicamente cambiando in z n = ( y n - m n ) / s n .ynzn= ( yn- mn) / sn
Ricorda che un istogramma rappresenta le frequenze in base alle aree tra esso e l'asse orizzontale. L'eventuale stabilità di questi istogrammi per valori elevati di dovrebbe pertanto essere dichiarata in termini di area. n Quindi, scegli qualsiasi intervallo di valori che ti piace, diciamo da a b > a e, man mano che n aumenta, segui l'area della parte dell'istogramma di z n che si estende orizzontalmente sull'intervallo ( a , b ] . Il CLT afferma diversi cose:un'b > anzn( a , b ]
Non importa quale sia e b sono,un'B se scegliamo le sequenze e s n in modo appropriato (in un modo che non dipende da una o b affatto), questa zona si avvicina infatti un limite n diventa grande.mnSnun'Bn
Le sequenze e s n possono essere scelte in un modo che dipende solo da n , dalla media dei valori nella casella e da una misura della diffusione di quei valori - ma da nient'altro - in modo che indipendentemente da ciò che è in la casella, il limite è sempre lo stesso. (Questa proprietà di universalità è sorprendente.)mnSnn
Specificamente, quella zona limite è l'area sotto la curva traunaeb: questa è la formula di quella istogramma limitare universale.y= exp( - z2/ 2) / 2 π--√un'B
La prima generalizzazione del CLT aggiunge,
Quando la casella può contenere numeri oltre a zero e uno, valgono esattamente le stesse conclusioni (a condizione che le proporzioni di numeri estremamente grandi o piccoli nella casella non siano "troppo grandi", un criterio che abbia una dichiarazione quantitativa precisa e semplice) .
La prossima generalizzazione, e forse la più sorprendente, sostituisce questa singola scatola di biglietti con una serie ordinata di scatole indefinitamente lunghe con biglietti. Ogni scatola può avere numeri diversi sui suoi biglietti in proporzioni diverse. L'osservazione viene effettuata estraendo un ticket dalla prima casella, x 2 viene dalla seconda casella e così via.X1X2
Esistono esattamente le stesse conclusioni, purché il contenuto dei riquadri non sia "non troppo diverso" (esistono diverse caratterizzazioni quantitative precise, ma diverse, di ciò che "non troppo diverso" significa: consentono una sorprendente quantità di latitudine).
Queste cinque affermazioni, come minimo, devono essere spiegate. C'è più. Diversi aspetti intriganti dell'installazione sono impliciti in tutte le dichiarazioni. Per esempio,
Cosa rende speciale la somma ? Perché non abbiamo teoremi limite centrali per altre combinazioni matematiche di numeri come il loro prodotto o il loro massimo? (Si scopre che lo facciamo, ma non sono così generali né hanno sempre una conclusione così chiara e semplice a meno che non possano essere ridotti al CLT.) Le sequenze di e s n non sono uniche ma sono quasi unico nel senso che alla fine devono approssimare l'aspettativa della somma di n biglietti e la deviazione standard della somma, rispettivamente (che, nelle prime due affermazioni del CLT, è uguale a √mnSnn volte la deviazione standard della casella). n--√
La deviazione standard è una misura della diffusione dei valori, ma non è affatto l'unica né è la più "naturale", né storicamente né per molte applicazioni. (Molte persone sceglierebbero qualcosa come una deviazione assoluta mediana dalla mediana , per esempio.)
Perché la SD appare in un modo così essenziale?
Considera la formula per l'istogramma limitante: chi si sarebbe aspettato che prendesse una tale forma? Dice che il logaritmo della densità di probabilità è una funzione quadratica . Perché? C'è qualche spiegazione intuitiva o chiara e convincente per questo?
Confesso di non essere in grado di raggiungere l'obiettivo finale di fornire risposte abbastanza semplici da soddisfare i difficili criteri di Srikant in termini di intuitività e semplicità, ma ho delineato questo background nella speranza che altri possano essere ispirati a colmare alcune delle molte lacune. Penso che una buona dimostrazione alla fine dovrà fare affidamento su un'analisi elementare di come possono sorgere valori tra e β n = b s n + m n nella formazione della somma x 1 + x 2 + ... + x nαn= a sn+ mnβn= b sn+ mnX1+ x2+ … + Xn. Tornando alla versione single-box del CLT, il caso di una distribuzione simmetrica è più semplice da gestire: la sua mediana è uguale la sua media, quindi non c'è una probabilità del 50% che sarà inferiore media della scatola e una probabilità del 50% che x io sarà superiore alla sua media. Inoltre, quando n è sufficientemente grande, le deviazioni positive dalla media dovrebbero compensare le deviazioni negative nella media. (Ciò richiede un'attenta giustificazione, non solo un cenno della mano.) Pertanto dovremmo principalmente preoccuparci di contare il numero di deviazioni positive e negative e avere solo una preoccupazione secondaria riguardo alle loro dimensioni.XioXion (Di tutte le cose che ho scritto qui, questo potrebbe essere il più utile per fornire alcune intuizioni sul perché il CLT funziona. In effetti, i presupposti tecnici necessari per rendere vere le generalizzazioni del CLT sono essenzialmente vari modi per escludere la possibilità che rare deviazioni enormi sconvolgeranno abbastanza l'equilibrio per prevenire l'insorgere dell'istogramma limitante.)
Ciò dimostra, in qualche modo, perché la prima generalizzazione del CLT non rivela davvero nulla che non fosse nella versione di prova originale di De Moivre Bernoulli.
A questo punto sembra che non ci sia altro che fare un po 'di matematica: dobbiamo contare il numero di modi distinti in cui il numero di deviazioni positive dalla media può differire dal numero di deviazioni negative per qualsiasi valore predeterminato , dove evidentemente k è uno di - n , - n + 2 , … , n - 2 , n . Ma poiché nel limite scompaiono errori minacciosi, non dobbiamo contare con precisione; dobbiamo solo approssimare i conteggi. A tal fine è sufficiente saperloKK- n , - n + 2 , … , n - 2 , n
Il numero di modi per ottenere k valori positivi e n - k negativi da n
è uguale a n - k + 1K
volte il numero di modi per ottenere k - 1 valori positivi e n - k + 1 valori negativi.
(Questo è un risultato perfettamente elementare, quindi non mi prenderò la briga di scrivere la giustificazione.) Ora approssimiamo all'ingrosso. La frequenza massima si verifica quando è il più vicino possibile a n / 2 (anche elementare). Scriviamo m = n / 2 . Quindi, rispetto alla frequenza massima, la frequenza di m + j + 1 deviazioni positive ( j ≥ 0 ) è stimata dal prodottoKn / 2m = n / 2m + j + 1j ≥ 0
m + 1m + 1mm + 2⋯ m - j + 1m + j + 1
= 1 - 1 / ( m + 1 )1 + 1 / ( m + 1 )1 - 2 / ( m + 1 )1 + 2 / ( m + 1 )⋯ 1 - j / ( m + 1 )1 + j / ( m + 1 ).
135 anni prima che De Moivre scrivesse, John Napier inventò i logaritmi per semplificare la moltiplicazione, quindi approfittiamo di questo. Usando l'approssimazione
ceppo( 1 - x1 + x)∼−2x,
troviamo che il registro della frequenza relativa è approssimativamente
−2/(m+1)−4/(m+1)−⋯−2j/(m+1)=−j(j+1)m+1∼−j2m.
Poiché l'errore cumulativo è proporzionale a , questo dovrebbe funzionare bene purché j 4 sia piccolo rispetto a m 3 . Ciò copre una gamma di valori j maggiore di quella necessaria. (È sufficiente che l'approssimazione funzioni per j solo nell'ordine di √j4/m3j4m3jj che asintoticamente è molto più piccolo dim 3 / 4 .)m−−√m3/4
Ovviamente molte più analisi di questo tipo dovrebbero essere presentate per giustificare le altre asserzioni nel CLT, ma sto esaurendo il tempo, lo spazio e l'energia e probabilmente ho perso il 90% delle persone che hanno iniziato a leggere questo. Questa semplice approssimazione, tuttavia, suggerisce come in origine Moivre avrebbe potuto sospettare l'esistenza di una distribuzione universale limitante, che il suo logaritmo sia una funzione quadratica e che il fattore di scala corretto debba essere proporzionale a √sn (perchéj2/m=2j2/n=2(j/ √n−−√). j2/m=2j2/n=2(j/n−−√)2 È difficile immaginare come questa importante relazione quantitativa possa essere spiegata senza invocare un qualche tipo di informazione matematica e ragionamento; niente di meno lascerebbe alla forma precisa della curva limite un mistero completo.