Distribuzione normale e trasformazioni monotoniche


9

Ho sentito che molte quantità che si verificano in natura sono normalmente distribuite. Questo è in genere giustificato usando il teorema del limite centrale, che dice che quando si fa la media di un gran numero di variabili casuali iid, si ottiene una distribuzione normale. Quindi, ad esempio, un tratto che è determinato dall'effetto additivo di un gran numero di geni può essere distribuito approssimativamente normalmente poiché i valori genici possono comportarsi approssimativamente come le variabili casuali.

Ora, ciò che mi confonde è che la proprietà di essere normalmente distribuita non è chiaramente invariante sotto le trasformazioni monotoniche. Quindi, se ci sono due modi per misurare qualcosa che sono collegati da una trasformazione monotonica, è improbabile che entrambi siano normalmente distribuiti (a meno che quella trasformazione monotonica non sia lineare). Ad esempio, possiamo misurare le dimensioni delle gocce di pioggia per diametro, per superficie o per volume. Supponendo forme simili per tutte le gocce di pioggia, l'area della superficie è proporzionale al quadrato del diametro e il volume è proporzionale al cubo del diametro. Quindi tutti questi modi di misurare non possono essere normalmente distribuiti.

Quindi la mia domanda è se il particolare modo di ridimensionamento (cioè la particolare scelta della trasformazione monotonica) in base al quale la distribuzione diventa normale, deve avere un significato fisico. Ad esempio, le altezze dovrebbero essere normalmente distribuite o il quadrato dell'altezza, o il logaritmo dell'altezza, o la radice quadrata dell'altezza? C'è un modo per rispondere a questa domanda comprendendo i processi che influenzano l'altezza?


Come ho sempre capito, il teorema del limite centrale non postula qualcosa sulla media di un gran numero di variabili casuali iid. Piuttosto, afferma che quando si campionano i mezzi, la distribuzione dei mezzi diventa normale (indipendentemente dalla distribuzione alla base di ciò che viene campionato). Quindi mi chiedo se valga l'antecedente per la tua domanda.
Henrik,

Ma se la media di campionamento diventa normale indipendentemente dalla distribuzione della distribuzione sottostante, allora non è lo stesso che dire "calcolare la media di un gran numero di variabili casuali iid" ci procura una distribuzione normale. A me sembrano dichiarazioni equivalenti.

Non ai miei occhi (ma vorrei essere convinto altrimenti). Nel primo caso (quello che penso sia inteso dal CLT) si prelevano campioni da una distribuzione. I loro mezzi sono normalmente distribuiti. Ciò che capisco dalla domanda e dalla citazione "media un gran numero di variabili casuali iid" è molto diverso: singole istanze da diverse variabili casuali iid determinano (o compongono) un tratto. Quindi, nessuna media (cioè calcolo di una media) da una singola distribuzione e, quindi, nessuna applicazione del CLT. Penso che le risposte di mbq indichino lo stesso problema.
Henrik,

1
Bene, la distribuzione non deve essere identica se si verificano alcune condizioni. Vedi: en.wikipedia.org/wiki/…

1
@Henrik C'è qualche differenza significativa tra un singolo campione da ciascuno di N camper indipendenti e identicamente distribuiti e N misure indipendenti di un singolo camper?
walkytalky,

Risposte:


5

Ottima domanda Ritengo che la risposta dipenda dal fatto che sia possibile identificare il processo sottostante che dà origine alla misurazione in questione. Se ad esempio hai prove che l'altezza è una combinazione lineare di diversi fattori (ad es. Altezza dei genitori, altezza dei nonni ecc.), Sarebbe naturale supporre che l'altezza sia normalmente distribuita. D'altra parte, se si hanno prove o forse addirittura la teoria che il registro dell'altezza è una combinazione lineare di diverse variabili (ad esempio, altezza dei genitori, altezza dei nonni ecc.), Il registro dell'altezza verrà normalmente distribuito.

Nella maggior parte dei casi, non conosciamo il processo sottostante che guida la misurazione degli interessi. Pertanto, possiamo fare una delle diverse cose:

(a) Se la distribuzione empirica delle altezze sembra normale, allora usiamo una densità normale per ulteriori analisi che presuppone implicitamente che l'altezza sia una combinazione lineare di più variabili.

(b) Se la distribuzione empirica non sembra normale, allora possiamo provare alcune trasformazioni come suggerito da mbq (es. log (altezza)). In questo caso assumiamo implicitamente che la variabile trasformata (cioè, log (altezza)) sia una combinazione lineare di più variabili.

(c) Se (a) o (b) non aiutano, allora dobbiamo abbandonare i vantaggi che CLT e un presupposto di normalità ci danno e modellano la variabile usando qualche altra distribuzione.


5

Il riscalaggio di una particolare variabile dovrebbe, quando possibile, riguardare una scala comprensibile per il motivo che aiuta a rendere interpretabile il modello risultante. Tuttavia, la trasformazione risultante non deve assolutamente avere un significato fisico. In sostanza devi impegnarti in un compromesso tra la violazione del presupposto della normalità e l'interpretazione del tuo modello. Quello che mi piace fare in queste situazioni è avere i dati originali, i dati trasformati in un modo sensato e i dati trasformati in un modo più normale. Se i dati trasformati in modo sensato sono gli stessi dei risultati quando i dati vengono trasformati in modo da renderli più normali, Lo riporto in modo interpretabile con una nota a margine che i risultati sono gli stessi nel caso di dati trasformati in modo ottimale (e / o non trasformati). Quando i dati non trasformati si comportano in modo particolarmente scadente, conduco le mie analisi con i dati trasformati, ma faccio del mio meglio per riportare i risultati in unità non trasformate.

Inoltre, penso che tu abbia un malinteso nella tua affermazione che "le quantità che si verificano in natura sono normalmente distribuite". Questo vale solo nei casi in cui il valore è "determinato dall'effetto additivo di un gran numero" di fattori indipendenti. Cioè, le medie e le somme sono normalmente distribuite indipendentemente dalla distribuzione sottostante da cui attingono, dove non si prevede che i singoli valori siano normalmente distribuiti. Come ad esempio, i singoli disegni da una distribuzione binomiale non sembrano affatto normali, ma una distribuzione delle somme di 30 disegni da una distribuzione binomiale sembra piuttosto normale.


5

Devo ammettere che non capisco davvero la tua domanda:

  • il tuo esempio di gocce di pioggia non è molto soddisfacente poiché questo non illustra il fatto che il comportamento gaussiano deriva dalla "media di un gran numero di variabili casuali iid".

  • se la quantità che ti interessa è una media di che fluttua attorno alla sua media in modo gaussiano, puoi anche aspettarti che ha un comportamento gaussiano.Y 1 + + Y NX f(Y1)++f(YN)Y1++YNNf(Y1)++f(YN)N

  • se le fluttuazioni di intorno alla sua media sono approssimativamente gaussiane e piccole, allora lo sono anche le fluttuazioni di attorno alla sua media (per espansione di Taylor)f ( X )Xf(X)

  • potresti citare alcuni esempi concreti di comportamento gaussiano (della vita reale) provenienti dalla media: questo non è molto comune! Il comportamento gaussiano è spesso usato in statistica come prima approssimazione approssimativa perché i calcoli sono molto trattabili. Poiché i fisici usano l'approssimazione armonica, gli statistici usano l'approssimazione gaussiana.


il principio della massima entropia è anche un'altra ragione per cui viene utilizzata la distribuzione gaussiana. Ad esempio, quali sono i buoni motivi per utilizzare gli errori gaussiani nel modello lineare, ad eccezione della tracciabilità?
Alekk,

5

Vipul, non sei del tutto preciso nella tua domanda.

Questo è in genere giustificato usando il teorema del limite centrale, che dice che quando si fa la media di un gran numero di variabili casuali iid, si ottiene una distribuzione normale.

Non sono del tutto sicuro di questo che stai dicendo, ma tieni presente che le gocce di pioggia nel tuo esempio non sono variabili casuali. La media calcolata campionando un certo numero di quelle gocce di pioggia è una variabile casuale e poiché i mezzi sono calcolati usando una dimensione del campione abbastanza grande, la distribuzione di quella media del campione è normale.

La legge dei grandi numeri afferma che il valore di quella media del campione converge al valore medio della popolazione (forte o debole a seconda del tipo di convergenza).

Il CLT afferma che la media del campione, la chiama XM (n), che è una variabile casuale, ha una distribuzione, diciamo G (n). Quando n si avvicina all'intensità, quella distribuzione è la distribuzione normale. Il CLT riguarda la convergenza nella distribuzione , non un concetto di base.

Le osservazioni che disegni (diametro, area, volume) non devono essere affatto normali. Probabilmente non lo saranno se li complotti. Ma la media del campione ottenuta prendendo tutte e tre le osservazioni avrà una distribuzione normale. E il volume non sarà il cubo del diametro, né l'area sarà il quadrato del diametro. Il quadrato delle somme non sarà la somma dei quadrati, a meno che non diventi stranamente fortunato.


4

Semplicemente CLT (né qualsiasi altro teorema) non afferma che ogni quantità nell'universo è normalmente distribuita. In effetti, gli statistici usano spesso trasformazioni monotoniche per migliorare la normalità, in modo da poter usare i loro strumenti preferiti.


4

Penso che tu abbia frainteso (la metà) dell'uso che la statistica fa della distribuzione normale, ma mi piace molto la tua domanda.

Non penso sia una buona idea assumere sistematicamente la normalità e ammetto che è stato fatto qualche volta (forse perché la distribuzione normale è trattabile, unimodale ...) senza verifica. Quindi la tua osservazione sulla mappa monotonica è eccellente!

Tuttavia, il potente uso della normalità viene quando ti costruisci nuove statistiche come quella che appare quando applichi la controparte empirica dell'attesa: la media empirica . Quindi la media empirica e più in generale il livellamento è ciò che fa apparire la normalità ovunque ...


2

Sia una variabile casuale che molte sue trasformazioni possono essere approssimativamente normali; in effetti se la varianza è piccola rispetto alla media, può essere che una varietà molto ampia di trasformazioni appaia piuttosto normale.

> a<-rgamma(10000,1000,1000)
> hist(a)
> hist(1/a)
> hist(a^2)
> hist(a^(3/2))

4 istogrammi che mostrano quasi la normalità

( clicca per una versione più grande )

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.