Come trasmetti la bellezza del teorema del limite centrale a un non statistico?


33

Mio padre è un appassionato di matematica, ma non è molto interessato alle statistiche. Sarebbe bello provare a illustrare alcuni dei meravigliosi frammenti di statistiche e il CLT è un candidato privilegiato. Come trasmetteresti la bellezza matematica e l'impatto del teorema del limite centrale a un non statistico?


Un breve pensiero è di portare in qualche modo la regola del 68-95-99.7 ( en.wikipedia.org/wiki/68-95-99.7_rule ) nella discussione.
Raegtin,

Risposte:


16

Ciò che ho amato di più con CLT sono i casi in cui non è applicabile - questo mi dà la speranza che la vita sia un po 'più interessante, come suggerisce la curva di Gauss. Quindi mostragli la distribuzione di Cauchy.


qual è la relazione tra la distribuzione di Cauchy e il CLT o il fallimento del CLT?
Robin Girard,


Il CLT richiede che gli MGF esistano in un quartiere di 0. La distribuzione di Cauchy non ha quella proprietà. CLT Win. Cauchy non soddisfa nemmeno i requisiti più deboli di una versione più forte di CLT in cui tutto ciò che serve è la media e la varianza. La distribuzione di Cauchy mostra che la media deve esistere affinché il CLT sia valido. Non fa fallire il CLT.
Baltimark,

@Baltimark Hai frainteso il mio post - è ovvio che Cachy non è coperto da CLT a causa di ipotesi CLT, altrimenti sarebbe impossibile provare CLT. Ho dato questo esempio perché la gente crede che CLT funzioni per tutte le distribuzioni; probabilmente "fallire" non è una parola perfetta, ma ancora non penso che sia una ragione per il voto negativo. Ok, l'ho anche cambiato in non applicabile.

Preferisco la tua modifica. La distribuzione di Cauchy è decisamente fantastica.
Baltimark,

14

Per apprezzare appieno il CLT, dovrebbe essere visto.

Da qui l'idea di macchina per fagioli e molti video di YouTube per l'illustrazione.


Ho pensato che mostra la distribuzione binomiale; Non penso che i suoi asintotici abbiano un legame diretto con CLT.

2
macchina bean dall'autore dell'animazione del pacchetto ... yihui.name/en/wp-content/uploads/2010/07/…
robin girard

1
@mbq dai un'occhiata a en.wikipedia.org/wiki/…
robin girard,

@robin Ne ho scritto, qual è il problema?

1
@ShreevatsaR Il punto è che una buona illustrazione dovrebbe mostrare il "core" di qualcosa, e (almeno IMO) il "core" del CLT sta nel fatto che fonde molte variabili da diverse strane distribuzioni in un gaussiano, non che lo sia solo un limite di una distribuzione binomiale.

7

Spesso quando i matematici parlano di probabilità, iniziano con una distribuzione di probabilità nota, quindi parlano della probabilità di eventi. Il vero valore del teorema del limite centrale è che ci consente di usare la distribuzione normale come approssimazione nei casi in cui non conosciamo la vera distribuzione. Potresti porre a tuo padre una domanda statistica standard (ma formulata come matematica) su quale sia la probabilità che la media di un campione sia maggiore di un determinato valore se i dati provengono da una distribuzione con media mu e sd sigma, quindi vedi se assume una distribuzione (che poi dici che non conosciamo) o dice che deve conoscere la distribuzione. Quindi puoi mostrare che possiamo approssimare la risposta usando il CLT in molti casi.

Per confrontare la matematica con le statistiche, mi piace usare il teorema del valore medio di integrazione (che dice che per un integrale da a a b esiste un rettangolo da a a b con la stessa area e l'altezza del rettangolo è la media del curva). Il matematico esamina questo teorema e dice "cool, posso usare un'integrazione per calcolare una media", mentre lo statistico guarda lo stesso teorema e dice "cool, posso usare una media per calcolare un integrale".

In realtà ho arazzi a punto croce nel mio ufficio del teorema del valore medio e del CLT (insieme al teorema di Bayes).


Hmmm. Penserei che la maggior parte dei matematici usi il MVT per approssimare un integrale come un rettangolo.
cardinale

5

Mi piace dimostrare la variazione del campionamento ed essenzialmente il Teorema del limite centrale attraverso un esercizio "in classe". Tutti nella classe di dire 100 studenti scrivono la loro età su un pezzo di carta. Tutti i pezzi di carta sono dello stesso formato e piegati nello stesso modo dopo aver calcolato la media. Questa è la popolazione e calcolo l'età media. Quindi ogni studente seleziona casualmente 10 pezzi di carta, annota le età e li riporta nella borsa. (S) calcola la media e passa la borsa allo studente successivo. Alla fine abbiamo 100 campioni di 10 studenti ciascuno stimando la media della popolazione che possiamo descrivere attraverso un istogramma e alcune statistiche descrittive.

Ripetiamo quindi la dimostrazione questa volta utilizzando una serie di 100 "opinioni" che replicano alcune domande Sì / No dei recenti sondaggi, ad esempio se domani si chiamassero le elezioni (del generale britannico), prenderesti in considerazione la possibilità di votare per il Partito nazionale britannico. Gli studenti li campionano 10 di queste opinioni.

Alla fine abbiamo dimostrato la variazione del campionamento, il Teorema del limite centrale, ecc. Con dati sia continui che binari.


4

Giocare con il seguente codice, variare il valore Me scegliere distribuzioni diverse dall'uniforme può essere un'illustrazione divertente.

N <- 10000
M <- 5
meanvals <- replicate(N, expr = {mean(runif(M,min=0, max=1))}) 
hist(meanvals, breaks=50, prob=TRUE) 

2

Se usi Stata, puoi usare il comando -clt- che crea grafici delle distribuzioni di campionamento, vedi

http://www.ats.ucla.edu/stat/stata/ado/teach/clt.htm


Sembra che potrebbe essere molto bello, ma ho appena provato a installarlo ed eseguirlo in Stata 11.1 (ovvero l'ultima versione) e continua a darmi un errore r (3000) facendo clic su "Fine" nella finestra di dialogo, anche se digito - versione 6: clt-.
Onestop,

2

Nella mia esperienza il CLT è meno utile di quanto sembri. Non si sa mai nel bel mezzo di un progetto se n è abbastanza grande per l'approssimazione adeguata al compito. E per i test statistici, il CLT ti aiuta a proteggere l'errore di tipo I ma fa ben poco per tenere a bada l'errore di tipo II. Ad esempio, il test t può avere una potenza arbitrariamente bassa per n grandi quando la distribuzione dei dati è estremamente distorta.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.