C'è una spiegazione del perché ci sono così tanti fenomeni naturali che seguono la normale distribuzione?


29

Penso che questo sia un argomento affascinante e non lo capisco del tutto. Quale legge della fisica fa in modo che così tanti fenomeni naturali abbiano una distribuzione normale? Sembrerebbe più intuitivo che avrebbero una distribuzione uniforme.

È così difficile per me capire questo e sento che mi mancano alcune informazioni. Qualcuno può aiutarmi con una buona spiegazione o collegarmi a un libro / video / articolo?


Controllare questo .
Antoni Parellada,

7
Hai una solida ragione per pensare che la tua premessa sia effettivamente il caso?
Glen_b

4
In realtà, la distribuzione normale potrebbe non essere la distribuzione "dominante" in natura. Ci sono molti fenomeni e comportamenti che sono estremamente apprezzati, dalla coda pesante o descrivono le funzioni della legge del potere. Gabaix documenta molte delle varianti economiche e finanziarie di questa classe distributiva nel suo articolo Power Laws in Economics: An Introduction , ungated here ... pages.stern.nyu.edu/~xgabaix/papers/pl-jep.pdf Shalizi , et al. discutere la loro stima empirica in questo documento Distribuzioni di legge del potere nei dati empirici , qui non analizzate
Mike Hunter

Chi ti ha detto che la distribuzione normale era comunque dominante?
Shadowtalker

1
@DJohnson +1 per i link, ma è importante sottolineare che una scoperta chiave in Clauset et al. il documento è che non ci sono troppe distribuzioni di leggi sul potere empirico che sono fortemente supportate! Citando i risultati, "In un solo caso - la distribuzione delle frequenze di occorrenza delle parole nel testo inglese - la legge del potere sembra essere davvero convincente, nel senso che si adatta perfettamente ai dati e nessuna delle alternative porta alcun peso."
Sycorax dice di ripristinare Monica

Risposte:


31

Vorrei iniziare negando la premessa. Robert Geary probabilmente non ha esagerato con il caso quando ha detto (nel 1947) " ... la normalità è un mito; non c'è mai stata, e non ci sarà mai, una distribuzione normale " . - La
distribuzione normale è un modello *, un approssimazione che a volte è più o meno utile.

* (a proposito di ciò, vedi George Box , anche se preferisco la versione sul mio profilo).

Che alcuni fenomeni siano approssimativamente normali potrebbe non essere una grande sorpresa, dal momento che somme di effetti indipendenti [o anche non troppo fortemente correlati] dovrebbero, se ce ne sono molti e nessuno ha una varianza che è sostanziale rispetto alla varianza del somma del resto che potremmo vedere la distribuzione tende ad apparire più normale.

Il teorema del limite centrale (che riguarda la convergenza a una distribuzione normale di una media campione standardizzata come va all'infinito in alcune condizioni lievi) suggerisce almeno che potremmo vedere una tendenza verso quella normalità con dimensioni del campione sufficientemente grandi ma finite.n

Naturalmente se le medie standardizzate sono approssimativamente normali, le somme standardizzate lo saranno; questa è la ragione del ragionamento "somma di molti effetti". Quindi, se ci sono molti piccoli contributi alla variazione e non sono altamente correlati, potresti tendere a vederlo.

Il teorema di Berry-Esseen ci fornisce una dichiarazione al riguardo (convergenza verso le normali distribuzioni) che si sta effettivamente verificando con mezzi campione standardizzati per i dati iid (in condizioni leggermente più rigorose rispetto al CLT, poiché richiede che il terzo momento assoluto sia finito), come oltre a raccontarci quanto velocemente accade. Le versioni successive del teorema trattano componenti non identicamente distribuiti nella somma , sebbene i limiti superiori sulla deviazione dalla normalità siano meno rigorosi.

Meno formalmente, il comportamento delle convoluzioni con distribuzioni ragionevolmente buone ci fornisce ulteriori (sebbene strettamente correlati) motivi per sospettare che in molti casi possa essere una buona approssimazione in campioni finiti. La convoluzione agisce come una sorta di operatore di "sbavatura" che le persone che usano la stima della densità del kernel in una varietà di kernel avranno familiarità; una volta standardizzato il risultato (quindi la varianza rimane costante ogni volta che si esegue un'operazione del genere), si nota una progressione verso forme di collina sempre più simmetriche man mano che si lisciano ripetutamente (e non importa se si cambia il kernel ogni volta).

Terry Tao dà una bella discussione sulle versioni del teorema del limite centrale e del teorema di Berry-Esseen qui , e lungo la strada menziona un approccio a una versione non indipendente di Berry-Esseen.

Quindi c'è almeno una classe di situazioni in cui potremmo aspettarci di vederlo, e ragioni formali per pensare che tenderà realmente ad accadere in quelle situazioni. Tuttavia, nella migliore delle ipotesi il senso che il risultato di "somme di molti effetti" sia normale è un'approssimazione. In molti casi è un'approssimazione abbastanza ragionevole (e in altri casi anche se l'approssimazione della distribuzione non è vicina, alcune procedure che presuppongono la normalità non sono particolarmente sensibili alla distribuzione dei singoli valori, almeno in grandi campioni).

Ci sono molte altre circostanze in cui gli effetti non "aggiungono" e ci possiamo aspettare che accadano altre cose; ad esempio, in molti dati finanziari gli effetti tendono ad essere moltiplicativi (gli effetti sposteranno gli importi in termini percentuali, come interessi, inflazione e tassi di cambio, ad esempio). Lì non ci aspettiamo la normalità, ma a volte potremmo osservare un'approssimazione approssimativa della normalità sulla scala del registro. In altre situazioni nessuna delle due può essere appropriata, anche in senso approssimativo. Ad esempio, i tempi tra eventi generalmente non saranno ben approssimati né dalla normalità né dalla normalità dei registri; non ci sono "somme" né "prodotti" di effetti per cui discutere qui. Esistono numerosi altri fenomeni per i quali possiamo argomentare un particolare tipo di "legge" in circostanze particolari.


12
+1. Il tuo argomento inizia a suggerire - abbastanza plausibilmente, a mio avviso - che potrebbe esserci una risposta psicologica alla domanda, come il pensiero di gruppo: quando tutti nel tuo campo vedono distribuzioni normali, chi sei tu a dire il contrario? Ciò andrebbe soprattutto per i settori di indagine in cui le procedure statistiche sono considerate strumenti pedonali, forse necessari per santificare un documento per la pubblicazione, ma per il resto di scarso valore o interesse intrinseco.
whuber

2
Per fare un esempio specifico, quando Quetelet inventò l'IMC (indice di massa corporea), lo fece esplicitamente in modo da produrre una quantità normalmente distribuita. Ne
Matt Krause

Mi sembra che tutti stiano cercando di eludere questa domanda invece di rispondere.
Digio

Geary era uno statistico, quindi non sorprende che pensasse che la normalità fosse un mito. Se fosse un fisico, lo vedrebbe diversamente.
Aksakal,

I commenti non sono per una discussione estesa; questa conversazione è stata spostata in chat .
Glen_b

20

C'è un famoso detto di Gabriel Lippmann (fisico, premio Nobel), raccontato da Poincaré:

[La distribuzione normale] non può essere ottenuta con deduzioni rigorose. Molte delle sue prove putative sono terribili [...]. Tuttavia, tutti lo credono, come mi disse un giorno M. Lippmann, perché gli sperimentatori immaginano che sia un teorema matematico, mentre i matematici immaginano che sia un fatto sperimentale.

- Henri Poincaré, Le calcul des Probabilités . 1896

[Cette loi] ne s'obtient pas des des déductions rigoureuses; più una dimostrazione qu'on a voulu en donner est grossière [...]. Fino a quel momento in cui sono dipendenti, mi dispiace per un certo M. Lippmann, la macchina per gli espatriati che è così importante in un teatro di matematica, e per i matematici che è un fatto espiatorio.

Sembra che non abbiamo questa citazione nel nostro thread di Elenco delle citazioni statistiche, è per questo che ho pensato che sarebbe bello pubblicarlo qui.


Un downvote? Qualcuno qui odia segretamente Poincaré?
ameba dice di reintegrare Monica l'

La mia conoscenza della fisica termina con ciò che ho imparato al liceo, ma Gauss non aveva inizialmente studiato la distribuzione nel contesto delle normali equazioni della fisica? È stata la mia impressione data da Wikipedia che gli errori gaussiani cadano naturalmente da un modello di fisica classica
shadowtalker

2
Dovremmo onorare di più Lippmann come autore di questo bon mot . Gabriel Lippmann è stato vincitore del Premio Nobel per la fisica. (M. qui significa solo Monsieur, naturellement.)
Nick Cox

3
@ssdecontrol Come ricordo, Gauss era interessato ai normali errori di osservazione , in particolare all'astronomia e alla geodesia, ma abbastanza intelligente da sapere che il presupposto era discutibile. (Ad esempio, stava anche usando la deviazione assoluta mediana dalla mediana come misura di diffusione resistente nel 1816.)
Nick Cox

Abbastanza giusto, @Nick. Ho modificato per chiarire.
ameba dice Reinstate Monica il

7

Quale legge della fisica fa in modo che così tanti fenomeni naturali abbiano una distribuzione normale? Sembrerebbe più intuitivo che avrebbero una distribuzione uniforme.

La distribuzione normale è un luogo comune nelle scienze naturali. La solita spiegazione è il motivo per cui accade negli errori di misurazione è attraverso una qualche forma di ragionamento di grandi numeri o teorema del limite centrale (CLT), che di solito va così: "poiché i risultati dell'esperimento sono influenzati da un numero infinitamente elevato di disturbi provenienti da fonti non correlate CLT suggerisce che gli errori sarebbero normalmente distribuiti ". Ad esempio, ecco un estratto da Metodi statistici nell'analisi dei dati di WJ Metzger:

Gran parte di ciò che misuriamo è in realtà la somma di molti camper. Ad esempio, si misura la lunghezza di una tabella con un righello. La lunghezza misurata dipende da molti piccoli effetti: parallasse ottica, calibrazione del righello, temperatura, mano tremante, ecc. Un misuratore digitale presenta disturbi elettronici in vari punti del circuito. Pertanto, ciò che si misura non è solo ciò che si desidera misurare, ma ha aggiunto un gran numero di (si spera) piccoli contributi. Se questo numero di piccoli contributi è elevato, il CLT ci informa che la loro somma totale è distribuita gaussiana. Questo è spesso il caso ed è la ragione per cui le funzioni di risoluzione sono di solito gaussiane.

Tuttavia, come devi sapere, questo non significa che ogni distribuzione sarà normale, ovviamente. Ad esempio, la distribuzione di Poisson è altrettanto comune in fisica quando si tratta di processi di conteggio. Nella spettroscopia la distribuzione di Cauchy (aka Breit Wigner) viene utilizzata per descrivere la forma degli spettri di radiazione e così via.

L'ho capito dopo aver scritto: tutte e tre le distribuzioni menzionate finora (Gaussian, Poisson, Cauchy) sono distribuzioni stabili , con Poisson che è discretamente stabile . Ora che ci ho pensato, sembra un'importante qualità di una distribuzione che lo farà sopravvivere alle aggregazioni: se aggiungi un mucchio di numeri da Poisson, la somma è un Poisson. Questo può "spiegare" (in un certo senso) perché è così onnipresente.

Nelle scienze innaturali devi stare molto attento ad applicare la distribuzione normale (o qualsiasi altra) per una varietà di ragioni. In particolare, le correlazioni e le dipendenze sono un problema, perché possono infrangere i presupposti di CLT. Ad esempio, nella finanza è noto che molte serie sembrano normali ma hanno code molto più pesanti , il che è un grosso problema nella gestione del rischio.

Infine, ci sono ragioni più solide nelle scienze naturali per avere una distribuzione normale rispetto a una sorta di ragionamento "agitando le mani" che ho citato in precedenza. Considera, moto browniano. Se gli shock sono veramente indipendenti e infinitesimali, allora inevitabilmente la distribuzione di un percorso osservabile avrà una distribuzione normale a causa del CLT, vedi ad esempio l'Eq. (10) nel famoso lavoro di Einstein " INVESTIGATIONS ON THE THEORY OF THE BROWNIAN MOVEMENT ". Non si è nemmeno preso la briga di chiamarlo con il nome odierno "gaussiano" o "normale".

Un altro esempio è la meccanica quantistica. Succede così se l'incertezza di una coordinataΔX e momento Δp provengono da distribuzioni normali, quindi dall'incertezza totale ΔXΔpraggiunge il minimo, la soglia di incertezza di Heisenberg, vedere qui l' Eq.235-237 .

Quindi, non essere sorpreso di ottenere reazioni molto diverse all'uso della distribuzione gaussiana da ricercatori in diversi campi. In alcuni campi come la fisica, alcuni fenomeni dovrebbero essere collegati naturalmente alla distribuzione gaussiana basata su una teoria molto solida supportata da un'enorme quantità di osservazioni. In altri campi, la distribuzione normale viene utilizzata per comodità tecnica, utili proprietà matematiche o altri motivi discutibili.


1
+1. La citazione è ragionevole, tuttavia si può notare che la lunghezza misurata non può essere negativa (cioè è limitata), quindi non può davvero seguire una distribuzione normale. È sempre un'approssimazione.
ameba dice Reinstate Monica il

Scienze innaturali? Intendi come gli esperimenti sconvenienti del Dr. Frankenstein? ;-)
Sycorax dice Reinstate Monica

1
@ user777, è premio Nobel Landau 's battuta : 'scienze possono essere suddivisi in tre tipi: naturali, artificiali e antinatural'
Aksakal

@Aksakal: penso che questo particolare link abbia sbagliato; Landau ha detto che le scienze sono divise in "естественные, неестественные и противоестественные" (invece di "сверхъестественные"). Non ho idea di come tradurlo però.
ameba dice Reinstate Monica il

@amoeba, sto traducendo "неестественные" come "innaturale". "сверхъестественные" è "soprannaturale", penso io. Forse i russi possono correggermi.
Aksakal,

2

ci sono moltissime spiegazioni eccessivamente complicate qui ...

Un buon modo in cui era legato a me è il seguente:

  1. Lancia un singolo dado e hai la stessa probabilità di tirare ogni numero (1-6), e quindi il PDF è costante.

  2. Lancia due dadi e somma i risultati insieme, e il PDF non è più costante. Questo perché ci sono 36 combinazioni e l'intervallo sommativo è compreso tra 2 e 12. La probabilità di un 2 è una combinazione singolare unica di 1 + 1. La probabilità di un 12 è anche unica in quanto può verificarsi solo in una singola combinazione di un 6 + 6. Ora, guardando 7, ci sono più combinazioni, cioè 3 + 4, 5 + 2 e 6 + 1 ( e le loro permutazioni inverse). Mentre lavori lontano dal valore medio (cioè 7), ci sono combinazioni minori per 6 e 8 ecc. Finché non arrivi alle combinazioni singolari di 2 e 12. Questo esempio non si traduce in una chiara distribuzione normale, ma più muore aggiungi e più campioni prendi, il risultato tenderà verso una distribuzione normale.

  3. Pertanto, quando si somma un intervallo di variabili indipendenti soggette a variazione casuale (che ciascuna può avere i propri PDF), tanto più l'output risultante tenderà alla normalità. Questo in termini di Six Sigma ci dà quella che chiamiamo la "Voce del processo". Questo è ciò che chiamiamo il risultato della "variazione della causa comune" di un sistema e, quindi, se l'output tende alla normalità, allora chiamiamo questo sistema "nel controllo statistico dei processi". Laddove l'uscita non è normale (inclinata o spostata), allora diciamo che il sistema è soggetto a una "variazione di causa speciale" in cui c'è stato un "segnale" che ha distorto il risultato in qualche modo.

Spero che sia d'aiuto.


1

Quale legge della fisica fa in modo che così tanti fenomeni naturali abbiano una distribuzione normale?

Nessuna idea. D'altra parte, non ho nemmeno idea se sia vero o cosa significhi "così tanti".

Tuttavia, riorganizzando leggermente il problema, ci sono buone ragioni per assumere (cioè modellare ) una quantità continua che si ritiene abbia una media fissa e una varianza con una distribuzione normale. Questo perché la distribuzione normale è il risultato della massimizzazione dell'entropia soggetta a quei vincoli del momento. Poiché, in termini approssimativi, l'entropia è una misura di incertezza, che rende la Normale la scelta più non commitale o massimamente incerta della forma distributiva.

Ora, l'idea che si debba scegliere una distribuzione massimizzando la sua entropia soggetta a vincoli noti ha davvero un supporto fisico in termini di numero di modi possibili per soddisfarli. Jaynes sulla meccanica statistica è il riferimento standard qui.

Si noti che mentre la massima entropia motiva le distribuzioni normali in questo caso, è possibile dimostrare che diversi tipi di vincoli portano a diverse famiglie distributive, ad esempio l'esponenziale familiare, il poisson, il binomio, ecc.

Sivia and Skilling 2005 cap. 5 ha una discussione intuitiva.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.