In che modo gli scienziati hanno scoperto la forma della normale funzione di densità di probabilità di distribuzione?


36

Questa è probabilmente una domanda amatoriale, ma sono interessato a come gli scienziati hanno ideato la forma della normale funzione di densità di probabilità di distribuzione? Fondamentalmente ciò che mi dà fastidio è che per qualcuno sarebbe forse più intuitivo che la funzione di probabilità dei dati normalmente distribuiti abbia una forma di un triangolo isoscele piuttosto che una curva a campana, e come dimostreresti a una persona tale che la densità di probabilità funzioni di tutti i dati normalmente distribuiti hanno una forma a campana? Per esperimento? O per qualche derivazione matematica?

Dopo tutto, cosa consideriamo effettivamente i dati normalmente distribuiti? Dati che seguono il modello di probabilità di una distribuzione normale o qualcos'altro?

Fondamentalmente la mia domanda è: perché la normale funzione di densità di probabilità di distribuzione ha una forma a campana e non un'altra? E come hanno fatto gli scienziati a capire quali scenari di vita reale possono essere applicati alla distribuzione normale, mediante esperimento o studiando la natura dei vari dati stessi?


Quindi ho trovato questo link molto utile per spiegare la derivazione della forma funzionale della normale curva di distribuzione, e quindi rispondere alla domanda "Perché la distribuzione normale sembra così e non altro?". Ragionamento davvero sconvolgente, almeno per me.


2
Dai un'occhiata a questa domanda : non è vero affermare che solo la distribuzione normale è "a campana".
Silverfish

11
La distribuzione normale ha alcune proprietà statistiche di vitale importanza, che la rendono un oggetto speciale di studio e significano anche che spesso si presenta "naturalmente", ad esempio come il caso limitante di altre distribuzioni. Vedi in particolare il Teorema del limite centrale . Tuttavia, non è l'unica distribuzione che raggiunge il picco nel mezzo e ha le code su entrambi i lati. Le persone spesso assumono che tali dati siano normali perché l'istogramma "sembra a forma di campana", ma la mia risposta collegata mostra come ci siano molte altre distribuzioni candidate per tali set di dati.
Silverfish

4
Si noti che gli statistici non hanno scoperto la distribuzione normale osservando molti set di dati e rendendosi conto che questa funzione di densità era empiricamente adatta a molti di essi. Come ti chiedi nella tua domanda, c'è stato un processo di indagine matematica di alcuni problemi nella teoria della probabilità, a cui la distribuzione normale "spunta" come una risposta. Questo è ben spiegato, ad esempio, in questa risposta qui .
Silverfish

3
E fondamentalmente se qualcuno mi chiedesse di spiegare loro perché la distribuzione normale è "normale", avrei bisogno di spiegare loro la storia della distribuzione normale che è lunga e complessa in sé a partire dalla distribuzione binomiale e così via, e quindi forse dimostrare il teorema del limite centrale e mostrare che la distribuzione normale è applicabile nello studio di molte situazioni nella vita reale.
Ahra,

5
È possibile visualizzare la forma di una distribuzione normale usando uno di questi eleganti dispositivi chiamati schede Galton. In realtà questa è una distribuzione binomiale, ma, sai, teorema limite centrale.
Federico Poloni,

Risposte:


21

" L'evoluzione della distribuzione normale " di SAUL STAHL è la migliore fonte di informazioni per rispondere praticamente a tutte le domande del tuo post. Reciterò alcuni punti solo per tua comodità, perché troverai la discussione dettagliata all'interno del documento.

Questa è probabilmente una domanda amatoriale

No, è una domanda interessante per chiunque utilizzi le statistiche, perché non è coperto in dettaglio da nessuna parte nei corsi standard.

Fondamentalmente ciò che mi dà fastidio è che per qualcuno sarebbe forse più intuitivo che la funzione di probabilità dei dati normalmente distribuiti abbia una forma di un triangolo isoscele piuttosto che una curva a campana, e come dimostreresti a una persona tale che la densità di probabilità funzioni di tutti i dati normalmente distribuiti hanno una forma a campana?

Guarda questa foto dal foglio. Mostra le curve di errore che Simpson ha inventato prima che Gaussian (Normal) venisse scoperto per analizzare i dati sperimentali. Quindi, il tuo intuito è perfetto.

inserisci qui la descrizione dell'immagine

Per esperimento?

Sì, ecco perché sono stati chiamati "curve di errore". L'esperimento consisteva in misurazioni astronomiche. Gli astronomi hanno lottato con errori di misurazione per secoli.

O per qualche derivazione matematica?

Ancora una volta SÌ! Per farla breve: l'analisi degli errori nei dati astronomici ha portato Gauss alla sua (nota anche) distribuzione. Questi sono i presupposti che ha usato:

inserisci qui la descrizione dell'immagine

A proposito, Laplace ha usato alcuni approcci diversi e ha anche escogitato la sua distribuzione mentre lavorava con i dati astronomici:

inserisci qui la descrizione dell'immagine

Per quanto riguarda il motivo per cui la normale distribuzione mostra in esperimento come errori di misurazione, ecco un tipico spiegatore "ondulato a mano" che viene usato per dare (una citazione di Gerhard Bohm, Günter Zech, Introduzione alla statistica e all'analisi dei dati per i fisici p.85):

Molti segnali sperimentali seguono ad un'ottima approssimazione una distribuzione normale. Ciò è dovuto al fatto che consistono nella somma di molti contributi e in una conseguenza del teorema del limite centrale.


2
Il riferimento Stahl affronta la domanda originale molto dal punto di vista da cui è stata posta - è davvero una bella scoperta.
Silverfish

44

Sembri presumere nella tua domanda che il concetto di distribuzione normale esistesse prima che la distribuzione fosse identificata e la gente cercasse di capire di cosa si trattasse. Non mi è chiaro come funzionerebbe. [Modifica: c'è almeno un senso che potremmo considerare ci sia una "ricerca di una distribuzione" ma non è "una ricerca di una distribuzione che descriva molti e molti fenomeni"]

Questo non è il caso; la distribuzione era nota prima che fosse chiamata la distribuzione normale.

come dimostreresti a una persona del genere che la funzione di densità di probabilità di tutti i dati normalmente distribuiti ha una forma a campana

La normale funzione di distribuzione è quella che ha quella che di solito viene chiamata "forma a campana" - tutte le normali distribuzioni hanno la stessa "forma" (nel senso che differiscono solo per scala e posizione).

I dati possono apparire più o meno "a campana" nella distribuzione ma ciò non lo rende normale. Molte distribuzioni non normali sembrano similmente "a campana".

Le distribuzioni effettive della popolazione da cui i dati sono tratti non sono probabilmente mai realmente normali, sebbene a volte sia un'approssimazione abbastanza ragionevole.

Questo è in genere vero per quasi tutte le distribuzioni che applichiamo alle cose nel mondo reale: sono modelli , non fatti sul mondo. [Ad esempio, se facciamo alcune ipotesi (quelle per un processo di Poisson), possiamo derivare la distribuzione di Poisson - una distribuzione ampiamente usata. Ma questi presupposti sono mai esattamente soddisfatti? Generalmente il meglio che possiamo dire (nelle giuste situazioni) è che sono quasi veri.]

cosa consideriamo effettivamente i dati normalmente distribuiti? Dati che seguono il modello di probabilità di una distribuzione normale o qualcos'altro?

Sì, per essere effettivamente distribuito normalmente, la popolazione da cui è stato prelevato il campione dovrebbe avere una distribuzione che abbia la forma funzionale esatta di una distribuzione normale. Di conseguenza, qualsiasi popolazione finita non può essere normale. Le variabili che sono necessariamente delimitate non possono essere normali (ad esempio, i tempi presi per compiti particolari, le lunghezze di cose particolari non possono essere negative, quindi non possono essere effettivamente distribuiti normalmente).

sarebbe forse più intuitivo che la funzione di probabilità dei dati normalmente distribuiti abbia la forma di un triangolo isoscele

Non vedo perché questo sia necessariamente più intuitivo. È sicuramente più semplice.

Quando hanno sviluppato per la prima volta modelli per la distribuzione di errori (in particolare per l'astronomia all'inizio del periodo), i matematici hanno considerato una varietà di forme in relazione alle distribuzioni di errori (compresa in un primo momento una distribuzione triangolare), ma in gran parte di questo lavoro si è trattato di matematica (piuttosto di intuizione) che è stato utilizzato. Laplace ha esaminato le doppie distribuzioni esponenziali e normali (tra le altre), per esempio. Allo stesso modo Gauss usava la matematica per ricavarla all'incirca nello stesso momento, ma in relazione a una serie di considerazioni diversa da quella di Laplace.

Nel senso stretto che Laplace e Gauss stavano prendendo in considerazione "distribuzioni di errori", potremmo considerarli come una "ricerca di una distribuzione", almeno per un certo periodo. Entrambi hanno postulato alcune proprietà per una distribuzione di errori che hanno ritenuto importanti (Laplace ha considerato una sequenza di criteri alquanto diversi nel tempo) ha portato a distribuzioni diverse.

Fondamentalmente la mia domanda è: perché la normale funzione di densità di probabilità di distribuzione ha una forma a campana e non un'altra?

La forma funzionale della cosa che è chiamata la normale funzione di densità le dà quella forma. Considera lo standard normale (per semplicità; ogni altro normale ha la stessa forma, differendo solo per scala e posizione):

fZ(z)=Ke-12z2;-<z<

K

X

Mentre alcune persone hanno considerato la distribuzione normale come in qualche modo "normale", in realtà è solo in particolari insiemi di situazioni che si tende addirittura a vederla come un'approssimazione.


La scoperta della distribuzione è generalmente attribuita a de Moivre (come approssimazione al binomio). In effetti ha derivato la forma funzionale quando ha tentato di approssimare i coefficienti binomiali (/ probabilità binomiali) per approssimare calcoli altrimenti noiosi ma - mentre ricava efficacemente la forma della distribuzione normale - non sembra aver pensato alla sua approssimazione come a distribuzione della probabilità, sebbene alcuni autori suggeriscano che lo abbia fatto. È richiesta una certa quantità di interpretazione, quindi c'è spazio per le differenze nell'interpretazione.

Gauss e Laplace vi lavorarono all'inizio del 1800; Gauss ne scrisse nel 1809 (in relazione al fatto che era la distribuzione per cui la media è l'MLE del centro) e Laplace nel 1810, come approssimazione alla distribuzione di somme di variabili casuali simmetriche. Un decennio dopo Laplace fornisce una prima forma di teorema del limite centrale, per variabili discrete e continue.

I primi nomi per la distribuzione includono la legge dell'errore , la legge della frequenza degli errori , ed è stata anche chiamata Laplace e Gauss, a volte congiuntamente.

Il termine "normale" è stato usato per descrivere la distribuzione in modo indipendente da tre diversi autori nel 1870 (Peirce, Lexis e Galton), il primo nel 1873 e gli altri due nel 1877. Questo è più di sessant'anni dopo il lavoro di Gauss e Laplace e più del doppio rispetto all'approssimazione di de Moivre. L'uso di Galton fu probabilmente il più influente, ma usò il termine "normale" in relazione ad esso solo una volta in quell'opera del 1877 (per lo più chiamandola "la legge della deviazione").

Tuttavia, nel 1880 Galton usò l'aggettivo "normale" in relazione alla distribuzione numerose volte (ad esempio come la "curva normale" nel 1889), e a sua volta ebbe molta influenza sugli statistici successivi nel Regno Unito (specialmente Karl Pearson ). Non ha spiegato perché abbia usato il termine "normale" in questo modo, ma presumibilmente lo ha inteso nel senso di "tipico" o "normale".

Il primo uso esplicito della frase "distribuzione normale" sembra essere di Karl Pearson; lo usa certamente nel 1894, anche se afferma di averlo usato molto prima (un'affermazione che prenderei in considerazione con una certa cautela).


Riferimenti:

Miller, Jeff
"I primi usi noti di alcune delle parole della matematica:"
Distribuzione normale (Entrata di John Aldrich)
http://jeff560.tripod.com/n.html

Stahl, Saul (2006),
"L'evoluzione della distribuzione normale",
Mathematics Magazine , Vol. 79, n. 2 (aprile), pagg. 96-113
https://www.maa.org/sites/default/files/pdf/upload_library/22/Allendoerfer/stahl96.pdf

Distribuzione normale, (2016, 1 agosto).
In Wikipedia, l'enciclopedia libera.
Estratto 12:02, 3 agosto 2016, da
https://en.wikipedia.org/w/index.php?title=Normal_distribution&oldid=732559095#History

Hald, A (2007),
"L'approssimazione normale di De Moivre al binomio, 1733, e la sua generalizzazione",
In: Una storia di inferenza statistica parametrica da Bernoulli a Fisher, 1713–1935; pp 17-24

[Si possono notare sostanziali discrepanze tra queste fonti in relazione al loro account di de Moivre]


Grazie per la risposta approfondita! Ho esaminato ulteriormente come è stata derivata la forma della distribuzione normale e ho trovato questo documento corsi.ncssm.edu/math/Talks/PDFS/normal.pdf e ho un problema a capire come possiamo supporre che il gli errori non dipendono dall'orientamento del sistema di coordinate (un'ipotesi che in seguito consentirà un'importante conclusione), quando mi sembra che tale ipotesi valga solo nell'esempio delle freccette, ma non nell'esempio di errori sperimentali accidentali .
Ahra,

In realtà l'intero approccio alle freccette mi confonde poiché sto studiando la distribuzione normale nel contesto di errori sperimentali accidentali. Immagino che l'approccio alle freccette presupponga che si possano fare errori indipendenti in due dimensioni, il che va bene nel contesto utilizzato ma non mi è chiaro cosa si tradurrebbe nel contesto di errori sperimentali in cui si ha una variabile dipendente e una indipendente ciò significa che puoi fare un errore solo in una dimensione.
Ahra,

1
Grande uso di riferimenti. +1
Aaron Hall

2
Penso che il "teorema del limite centrale" debba essere menzionato qui da qualche parte, dal momento che l'OP sembra (almeno in parte) chiedersi perché questa particolare distribuzione sia così diffusa.
joc

1
@joc Non vedo la domanda che pone sulla prevalenza o addirittura suggerisce una domanda al riguardo. Tuttavia, parlo del lavoro di de Moivre relativo al binomio e del lavoro di Laplace relativo alle approssimazioni normali per somme di variabili casuali simmetriche ... che sono più direttamente correlate alla domanda. Tuttavia, aggiungerò una frase relativa al lavoro di Laplace sul problema (anche se non si chiamerà così per un altro secolo).
Glen_b -Restate Monica

11

La distribuzione "normale" è definita come quella distribuzione particolare.

La domanda è: perché dovremmo aspettarci che questa particolare distribuzione sia di natura comune, e perché è così spesso usata come approssimazione anche quando i dati reali non seguono esattamente quella distribuzione? (Spesso si scopre che i dati reali hanno una "coda grassa", vale a dire valori lontani dalla media sono molto più comuni di quanto la distribuzione normale prevederebbe).

Per dirla in altro modo, cosa c'è di speciale nella distribuzione normale?

La normale ha molte proprietà statistiche "carine", (vedi ad esempio https://en.wikipedia.org/wiki/Central_limit_theorem ), ma l'IMO più rilevante è il fatto che è la funzione "massima entropia" per qualsiasi distribuzione con una data media e varianza. https://en.wikipedia.org/wiki/Maximum_entropy_probability_distribution

Per esprimerlo nel linguaggio ordinario, se ti viene data solo la media (punto centrale) e la varianza (larghezza) di una distribuzione e non assumi nient'altro al riguardo, sarai costretto a disegnare una distribuzione normale. Qualsiasi altra cosa richiede ulteriori informazioni (nel senso della teoria dell'informazione di Shannon ), ad esempio l'asimmetria, per determinarla.

Il principio della massima entropia è stato introdotto da ET Jaynes come un modo per determinare i priori ragionevoli nell'inferenza bayesiana e penso che sia stato il primo a richiamare l'attenzione su questa proprietà.

Vedi questo per ulteriori discussioni: http://www.inf.fu-berlin.de/inst/ag-ki/rojas_home/documents/tutorials/Gaussian-distribution.pdf


6
"In altre parole, se ti viene data solo la media (punto centrale) e la varianza (larghezza) di una distribuzione e non assumi nient'altro al riguardo, sarai costretto a disegnare una distribuzione normale." Immagino che dipenda da quale sia la definizione di "forzato". Potresti essere costretto. Non lo sarei. Quello che hai descritto è l'equivalente morale dell'essere "costretto" ad assumere una funzione lineare quando non ne conosci la forma, o che le variabili casuali sono indipendenti quando non conosci la loro esatta dipendenza. Non ho, non lo sono, e non sarò costretto a fare nessuna di queste ipotesi.
Mark L. Stone,

5
@Neil Credo che parte del punto di Mark possa essere che la giustificazione non è una compulsione.
whuber

5
@Neil Lontano! Innanzitutto devi assumere che il principio della massima entropia sia utile e applicabile al tuo problema statistico. Successivamente devi essere assolutamente certo che non c'è nient'altro che puoi assumere riguardo alla distribuzione. Entrambi sono problematici. (Nella maggior parte dei problemi statistici che ho riscontrato - al di fuori del regno della fisica teorica - il primo non è stato vero; e non ho mai visto un problema del mondo reale in cui il secondo caso è il caso.)
whuber

1
@Neil Mark e whuber. Ho cercato di chiarire quel paragrafo. Penso che "presumere nient'altro" sia una ragionevole spiegazione del linguaggio ordinario di ciò che il principio della massima entropia sta cercando di fare. Essendo un linguaggio ordinario, puoi ovviamente interpretare diversamente. Ecco perché abbiamo bisogno della matematica. L'affermazione più precisa è che non stiamo aggiungendo informazioni, nel senso di Shannon. I collegamenti lo spiegano ulteriormente.
Gareth

1
@gareth una distribuzione uniforme su tutti i reali (che penso tu intendessi nel tuo ultimo commento) sarebbe una distribuzione altamente impropria. La tua pretesa di massima entropia come guidatore verso una distribuzione normale fa una supposizione importante; perché è più forte di assumere qualcos'altro, come il raggio minimo?
Henry,

3

La distribuzione normale (alias " distribuzione gaussiana ") ha una solida base matematica. Il teorema del limite centrale afferma che se si dispone di un insieme finito di n variabili casuali indipendenti e identicamente distribuite con una media e una varianza specifiche e si prende la media di tali variabili casuali, la distribuzione del risultato converge in una distribuzione gaussiana come n va all'infinito. Non ci sono congetture qui, poiché la derivazione matematica porta a questa funzione di distribuzione specifica e nessun altro.

Per dirlo in termini più tangibili, considera una singola variabile casuale, come lanciare una moneta giusta (2 risultati ugualmente possibili). Le probabilità di ottenere un risultato particolare sono 1/2 per le teste e 1/2 per le code.

Se aumenti il ​​numero di monete e tieni traccia del numero totale di teste ottenute con ogni prova, otterrai una distribuzione binomiale , che ha una forma approssimativamente a campana. Basta rappresentare graficamente il numero di teste lungo l'asse xe il numero di volte in cui hai capovolto molte teste lungo l'asse y.

Più monete usi e più volte le lanci, più il grafico si avvicina ad apparire come una curva a campana gaussiana. Questo è ciò che afferma il Teorema del limite centrale.

La cosa sorprendente è che il teorema non dipende da come le variabili casuali sono effettivamente distribuite, purché ciascuna delle variabili casuali abbia la stessa distribuzione. Un'idea chiave nel teorema è che stai aggiungendo o facendo la media delle variabili casuali. Un altro concetto chiave è che il teorema sta descrivendo il limite matematico man mano che il numero di variabili casuali diventa sempre più grande. Più variabili usi, più la distribuzione si avvicina a una distribuzione normale.

Ti consiglio di seguire un corso di Statistica matematica se vuoi vedere come i matematici hanno determinato che la distribuzione normale è in realtà la funzione matematicamente corretta per la curva a campana.


Grazie per il tuo contributo. Sarebbe corretto se si spiegasse che la distribuzione della somma (o media) deve essere standardizzata. Altrimenti, la distribuzione della somma non si avvicina a un limite e la distribuzione della media si avvicina a una costante. Ma come risponde questo post alle domande che sono state poste? (Certo, ci sono varie domande che vengono poste e sono tutte confuse e vaghe, ma sembrano chiedersi come è stata scoperta o derivata la formula per il PDF gaussiano.)
whuber

2

Ci sono alcune risposte eccellenti su questo thread. Non posso fare a meno di sentire che l'OP non stava facendo la stessa domanda a cui tutti vogliono rispondere. Lo capisco, però, perché è quasi una delle domande più eccitanti a cui rispondere - in realtà l'ho trovato perché speravo che qualcuno avesse la domanda "Come facciamo a sapere che il normale PDF è un PDF?" e l'ho cercato. Ma penso che la risposta alla domanda potrebbe essere quella di dimostrare l'origine della distribuzione normale.

La distribuzione normale è stata inizialmente progettata per essere utilizzata per approssimare la distribuzione binomiale per dimensioni molto grandi n. Nel 1744, un matematico di nome De Moivre mostrò che la distribuzione binomiale, per esteson, ha probabilità molto simili a una distribuzione normale con media np e varianza np(1-p). La prova di ciò segue abbastanza naturalmente dal prendere il limite del pdf binomiale comene sostituendo i valori fattoriali con l'approssimazione di Stirling.

Ma sono di nuovo tentato di approfondire le prove che ciò accada, e non so che è ciò che voleva l'OP. Se interessati, è spiegato qui . Basta sapere che possiamo "facilmente" dimostrare che il limite della distribuzione binomiale comen e p0 tale che np=1 è una distribuzione normale.

Prendendo questa conoscenza, possiamo vedere perché la distribuzione normale è a campana se possiamo vedere perché la distribuzione binomiale è a campana, che è molto più facile da vedere. Vai avanti e provalo tu stesso: crea un grafico discreto delle probabilità binomiali pern=10 e p=0.5. Come è modellato? Che dire di un grafico discreto delle probabilità binomiali pern=100 e p=0.5? Effettivamente, fallo empiricamente, genera alcuni dati casuali distribuiti binomialmente e guarda come appare l'istogramma! Certo, è una campana dall'aspetto piuttosto a blocchi, ma diventa più sinuosa più altanè. Ma perché è a forma di campana?

Se scarico 100 monete sul terreno in questo momento e conto quante teste ottengo, potrei contare 0 teste, o potrei contare 100 teste, ma ho molte più probabilità di contare un numero da qualche parte nel mezzo. Vedi perché questo istogramma dovrebbe essere a campana?


+1 - tuttavia, nota che discuto de Moivre in diverse parti della mia risposta. Potresti trovare interessante la nota finale nella mia risposta in relazione alle discrepanze nei riferimenti - vale la pena guardare effettivamente ciò che de Moivre ha scritto per vedere fino a che punto le diverse caratterizzazioni della sua opera sembrano reggere. La discussione specifica sul perché il cdf binomiale viene ben approssimato da un normale cdf in condizioni adeguate è discussa in Perché una distribuzione binomiale è a forma di campana?
Glen_b

1

Citarebbe anche la derivazione di Maxwell-Herschel della distribuzione normale multivariata indipendente da due ipotesi:

  1. La distribuzione non è influenzata dalla rotazione del vettore.

  2. I componenti del vettore sono indipendenti.

Ecco l'esposizione di Jaynes

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.