Motivi per cui i dati devono essere normalmente distribuiti


19

Quali sono alcuni teoremi che potrebbero spiegare (cioè, in generale) perché ci si potrebbe aspettare che i dati del mondo reale vengano normalmente distribuiti?

Ce ne sono due che conosco:

  1. Il Teorema del limite centrale (ovviamente), che ci dice che la somma di diverse variabili casuali indipendenti con media e varianza (anche quando non sono distribuite in modo identico) tende ad essere normalmente distribuita

  2. Siano X e Y indipendenti RV continui con densità differenziabili tali che la loro densità articolare dipende solo da + . Quindi X e Y sono normali.X2y2

(cross-post da mathexchange )

Modifica: per chiarire, non sto avanzando affermazioni su quanti dati del mondo reale sono normalmente distribuiti. Sto solo chiedendo dei teoremi che possono fornire informazioni su quale tipo di processi potrebbe condurre a dati normalmente distribuiti.


7
È possibile trovare materiale correlato interessante nella nostra discussione all'indirizzo stats.stackexchange.com/questions/4364 . Per evitare la potenziale confusione tra alcuni lettori, vorrei aggiungere (e spero che questa fosse la tua intenzione) che la tua domanda non debba essere letta come suggerendo che tutti o anche la maggior parte dei set di dati effettivi possano essere adeguatamente approssimati da una distribuzione normale. Piuttosto, in alcuni casi quando sussistono determinate condizioni, potrebbe essere utile impiegare una distribuzione normale come quadro di riferimento per comprendere o interpretare i dati: quindi quali potrebbero essere tali condizioni?
whuber

Grazie per il link! Ed è esattamente giusto, grazie per il chiarimento. Lo modificherò nel post originale.
anonimo

@ user43228, " Ci sono, ovviamente, tonnellate di altre distribuzioni che sorgono in problemi del mondo reale che non sembrano affatto normali. " askamathematician.com/2010/02/…
Pacerier

Risposte:


17

Molte distribuzioni limitanti di camper discreti (poisson, binomiale, ecc.) Sono approssimativamente normali. Pensa al plinko. In quasi tutti i casi in cui la normalità approssimativa è valida, la normalità entra in gioco solo per campioni di grandi dimensioni.

La maggior parte dei dati del mondo reale NON viene normalmente distribuita. Un articolo di Micceri (1989) intitolato " L'unicorno, la curva normale e altre creature improbabili " ha esaminato 440 risultati su larga scala e misure psicometriche. Ha trovato molta variabilità nelle distribuzioni nei loro momenti e non molte prove per la normalità (anche approssimativa).

In un articolo del 1977 di Steven Stigler intitolato " Fai delle stime affidabili sul lavoro con dati reali ", ha usato 24 set di dati raccolti dai famosi tentativi del 18 ° secolo di misurare la distanza dalla terra al sole e quelli del 19 ° secolo per misurare la velocità della luce. Ha riportato l'asimmetria del campione e la curtosi nella Tabella 3. I dati sono a coda pesante.

In statistica, assumiamo spesso la normalità perché rende conveniente la massima probabilità (o qualche altro metodo). Ciò che mostrano i due documenti sopra citati, tuttavia, è che il presupposto è spesso tenue. Ecco perché gli studi di robustezza sono utili.


2
Gran parte di questo post è fantastico, ma il paragrafo introduttivo mi dà fastidio perché potrebbe essere facilmente interpretato male. E sembra dire - piuttosto esplicitamente - che in generale, un "grande campione" avrà l'aspetto normalmente distribuita. Alla luce delle vostre successive osservazioni, non credo che intendeste davvero dirlo.
whuber

Avrei dovuto essere più chiaro - non sto suggerendo che la maggior parte dei dati del mondo reale sia normalmente distribuita. Ma questo è un ottimo punto da sollevare. E suppongo che tu voglia dire che la distribuzione binomiale con n grande è normale e che la distribuzione di Poisson con media grande è normale. Quali altre distribuzioni tendono alla normalità?
anonimo

Grazie, ho modificato il primo paragrafo. Vedi Wald e Wolfowitz (1944) per un teorema sulle forme lineari sotto permutazione, per esempio. Vale a dire, hanno mostrato che la statistica dei due campioni sotto permutazione è asintoticamente normale.
bsbk,

Una distribuzione di campionamento non è un "set di dati del mondo reale"! Forse la difficoltà che sto riscontrando con apparenti incongruenze nel tuo post deriva da questa confusione tra distribuzione e dati. Forse deriva da una mancanza di chiarezza su quale processo "limitante" hai effettivamente in mente.
whuber

3
La domanda originale riguardava la spiegazione "generativa" del modo in cui i dati del mondo reale potevano essere generati. È concepibile che i dati reali possano essere generati da un processo binomiale o di poisson, entrambi i quali possono essere approssimati dalla distribuzione normale. L'op ha chiesto altri esempi e quello che mi è venuto in mente era la distribuzione della permutazione, che è asintoticamente normale (in assenza di legami). Non riesco a pensare a un modo fuori mano che i dati reali sarebbero generati da quella distribuzione, quindi forse quello è un tratto.
bsbk,

10

Esiste anche una giustificazione teorica dell'informazione per l'uso della distribuzione normale. Data media e varianza, la distribuzione normale ha la massima entropia tra tutte le distribuzioni di probabilità con valore reale. Ci sono molte fonti che parlano di questa proprietà. Una breve può essere trovata qui . Una discussione più generale sulla motivazione dell'utilizzo della distribuzione gaussiana che coinvolge la maggior parte degli argomenti finora menzionati può essere trovata in questo articolo della rivista Signal Processing.


6
Questo è al contrario, come ho capito. Riguarda come rendere l'assunzione della normalità in senso strettamente definito un'assunzione debole. Non vedo cosa questo implichi sui dati del mondo reale. Potresti anche sostenere che le curve sono in genere dritte perché è il presupposto più semplice che puoi fare sulla curvatura. L'epistemologia non limita l'ontologia! Se il riferimento citato va oltre quello, si prega di precisare gli argomenti.
Nick Cox,

3

In fisica è il CLT che di solito viene citato come motivo per avere errori distribuiti normalmente in molte misurazioni.

Le due più comuni distribuzioni di errori nella fisica sperimentale sono normali e Poisson. Quest'ultimo si riscontra di solito nelle misurazioni del conteggio, come il decadimento radioattivo.

Un'altra caratteristica interessante di queste due distribuzioni è che una somma di variabili casuali da Gaussian e Poisson appartiene a Gaussian e Poisson.

Esistono diversi libri di statistica nelle scienze sperimentali come questo : Gerhard Bohm, Günter Zech, Introduzione alla statistica e analisi dei dati per i fisici, ISBN 978-3-935702-41-6


0

Il CLT è estremamente utile quando si fanno inferenze su cose come la popolazione, perché ci si arriva calcolando una sorta di combinazione lineare di un gruppo di singole misurazioni. Tuttavia, quando proviamo a fare delle deduzioni sulle singole osservazioni, in particolare quelle future ( ad es . Intervalli di predizione), le deviazioni dalla normalità sono molto più importanti se siamo interessati alle code della distribuzione. Ad esempio, se abbiamo 50 osservazioni, stiamo facendo una estrapolazione molto grande (e un salto di fede) quando diciamo qualcosa sulla probabilità che un'osservazione futura sia almeno 3 deviazioni standard dalla media.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.