Qual è l'importanza della funzione nelle statistiche?


19

Nella mia classe di calcolo, abbiamo riscontrato la funzione , o la "curva a campana", e mi è stato detto che ha frequenti applicazioni in statistica.ex2

Per curiosità, voglio chiederti: la funzione davvero importante nelle statistiche? In tal caso, di cosa si tratta che lo rende utile e quali sono alcune delle sue applicazioni?ex2ex2

Non sono riuscito a trovare molte informazioni sulla funzione su Internet, ma dopo aver fatto qualche ricerca, ho trovato un collegamento tra le curve di campana in generale e qualcosa chiamato distribuzione normale . Una pagina di Wikipedia collega questi tipi di funzioni all'applicazione statistica, con l'evidenziazione da parte mia, che afferma:

"La distribuzione normale è considerata la distribuzione di probabilità più rilevante nelle statistiche. Ci sono diverse ragioni per questo: 1 In primo luogo, la distribuzione normale deriva dal teorema del limite centrale, che afferma che in condizioni lievi la somma di un gran numero di variabili casuali disegnate dalla stessa distribuzione è distribuito approssimativamente normalmente, indipendentemente dalla forma della distribuzione originale . "

Quindi, se raccolgo una grande quantità di dati da un tipo di sondaggio o simili, potrebbero essere distribuiti equamente tra una funzione come ? La funzione è simmetrica, quindi è la sua simmetria, cioè la sua utilità per la distribuzione normale, cosa la rende così utile in statistica? Sto solo speculando.ex2

In generale, cosa rende utile nelle statistiche? Se la distribuzione normale è l'unica area, cosa rende unico o particolarmente utile tra le altre funzioni di tipo gaussiano nella distribuzione normale? e - x 2ex2ex2


Bene, per iniziare dovrebbe leggere "mean" non "sum".
Tristan,

2
Anche la somma. Dopotutto, è solo la media moltiplicata per il numero di campioni.
Erik,

1
La citazione mostra che le parole chiave per una ricerca includono "distribuzione normale". Eseguendo questa ricerca qui vengono trovati oltre 600 thread, in media uno al giorno dall'inizio del sito. Un breve periodo di lettura di questi successi aiuterà rapidamente chiunque ad apprezzare il ruolo della "curva a campana" nelle statistiche.
whuber

4
Dal thread più votato relativo alle distribuzioni normali : "Tutti credono nella legge esponenziale degli errori [vale a dire la distribuzione normale]: gli sperimentatori, perché pensano che possa essere provato dalla matematica, e i matematici, perché credono che abbia stato stabilito dall'osservazione ".
whuber

Vedi le risposte alla mia domanda "quali sono le caratterizzazioni più sorprendenti della distribuzione gaussiana" stats.stackexchange.com/questions/4364/…
robin girard

Risposte:


12

Il motivo per cui questa funzione è importante è in effetti la normale distribuzione e il suo compagno strettamente collegato, il teorema del limite centrale (abbiamo alcune buone spiegazioni del CLT in altre domande qui).

In statistica, il CLT può in genere essere utilizzato per calcolare approssimativamente le probabilità, facendo affermazioni come "siamo sicuri al 95% che ..." possibile (il significato di "confidenza al 95%" è spesso frainteso, ma è una questione diversa).

La funzione è (una versione ridimensionata di) la funzione di densità della distribuzione normale. Se una quantità casuale può essere modellata utilizzando la distribuzione normale, questa funzione descrive la probabilità di diversi valori possibili di detta quantità. Gli esiti nelle regioni ad alta densità sono più probabili degli esiti nelle regioni a bassa densità.exp((xμ)22σ2)

e σ sono parametri che determinano la posizione e la scala della funzione di densità. È simmetrico su μ , quindi cambiando μ significa che si sposta la funzione verso destra o verso sinistra. σ determina il valore della funzione di densità al massimo ( x = μ ) ela velocità concui passa a 0 quando x si allontana da μ . In tal senso, cambiando σ si cambia la scala della funzione.μσμμσx=μxμσ

Per la particolare scelta e σ = 1 / μ=0 la densità è (proporzionale a)e - x 2 . Questa non è una scelta particolarmente interessante di questi parametri, ma ha il vantaggio di ottenere una funzione di densità che sembra leggermente più semplice di tutti gli altri.σ=1/2ex2

D'altra parte, possiamo passare da a qualsiasi altra densità normale mediante il cambio di variabili x = u - μex2. Il motivo per cui il tuo libro di testo dice chee-x2, e nonexp(-(x-μ)2x=uμ2σex2, è una funzione molto importante è chee-x2è più semplice da scrivere.exp((xμ)22σ2)ex2


1
(+1) Prima frase del penultimo paragrafo: potrei dire che è proporzionale al posto di is .
cardinale

@cardinal: Grazie, hai perfettamente ragione! Ho modificato la risposta.
Martedì

1
+1, mi piace molto questa risposta. Una cosa che vale la pena sottolineare è che il pdf del normale è solitamente scritto con davanti. Il motivo è che l'area totale sotto la curva è uguale a12πσ22πσ2

3

exp(-X2)exp(-X2)

E la distribuzione normale è importante principalmente perché ("in condizioni di regolarità lieve") la somma di molte variabili casuali indipendenti e identicamente distribuite si avvicina alla normalità, quando "molti" si avvicinano all'infinito.

Non tutto è normalmente distribuito. Ad esempio, i risultati del sondaggio potrebbero non esserlo, almeno se le risposte non sono nemmeno su scala continua ma qualcosa di simile a numeri interi 1–5. Ma la media dei risultati è normalmente distribuita su campionamenti ripetuti, perché la media è solo una somma in scala (normalizzata) e le risposte individuali sono indipendenti l'una dall'altra. Supponendo che il campione sia abbastanza grande, ovviamente, perché in senso stretto, la normalità appare solo quando la dimensione del campione diventa infinita.

Come si vede dall'esempio, la distribuzione normale può apparire come risultato del processo di stima o modellazione, anche quando i dati non sono normalmente distribuiti. Pertanto le normali distribuzioni sono ovunque nelle statistiche. Nelle statistiche bayesiane, molte distribuzioni posteriori di parametri sono approssimativamente normali o si può presumere che lo siano.


e-X2

Non sono sinonimi, grazie per averlo sottolineato. (La mia intenzione non era quella di essere precisi, solo comprensibili per un non statistico. C'è già una risposta precisa e precisa.)
scellus

-1

n01/nn . Ci sono altre statistiche che emergono che convergono anche alla normalità. Il fatto che la distribuzione normale possa essere utilizzata per approssimare la distribuzione di varie statistiche di test è la ragione della sua importanza nelle statistiche.


È stata creata una chat room per i commenti a questa domanda su chat.stackexchange.com/rooms/3720/… . Ho eliminato tutti i (50!) Commenti e bloccato questo post per prevenire ulteriori abusi del meccanismo di commento.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.