Quando è OK scrivere "abbiamo assunto una distribuzione normale" di una misurazione empirica?

È radicato nell'insegnamento delle discipline applicate, come la medicina, che le misurazioni delle quantità biomediche nella popolazione seguono una normale "curva a campana". Una ricerca su Google della stringa "abbiamo assunto una distribuzione normale" restituisce risultati! Sembrano " , dato il piccolo numero di punti estremi di dati, abbiamo assunto una distribuzione normale per le anomalie della temperatura" in uno studio sui cambiamenti climatici; o "abbiamo assunto una normale distribuzione delle date di schiusa dei pulcini" su un documento forse meno controverso sui pinguini; o "abbiamo ipotizzato una normale distribuzione degli shock di crescita del PIL" , $\small 23,900$ , ... e altre cose).

Di recente, mi sono ritrovato a mettere in discussione il trattamento dei dati di conteggio normalmente distribuiti a causa della loro natura strettamente positiva. Naturalmente, i dati di conteggio sono discreti, rendendo la loro normalità ancora più artificiale. Ma anche tralasciando quest'ultimo punto, perché le misure empiriche continue come peso, altezza o concentrazione di glucosio, considerate prototipicamente "continue", dovrebbero essere considerate normali? Non possono avere osservazioni negative realizzate più di quanto non facciano i conti!

Capisco che quando la deviazione standard è sostanzialmente inferiore alla media, indicando pochi valori negativi ("controllo del range del 95%") può essere un presupposto pratico e gli istogrammi di frequenza possono supportarlo se non troppo inclinato. Ma la domanda non sembrava banale e una rapida ricerca ha prodotto cose interessanti.

In Nature possiamo trovare la seguente dichiarazione in una lettera di DF Heath : "Vorrei sottolineare che per l'analisi statistica di alcuni tipi di dati l'assunto che i dati sono ricavati da una popolazione normale è generalmente errato e che l'alternativa l'ipotesi di una distribuzione log-normale è migliore. Questa alternativa è ampiamente utilizzata da statistici, economisti e fisici, ma per qualche ragione è spesso ignorata dagli scienziati di alcune altre discipline. "

Limpert osserva che "il modello log-normale può servire come approssimazione nel senso che molti scienziati percepiscono ora la normale come approssimazione valida" , pur rilevando il basso potere dei test di bontà di adattamento della normalità e la difficoltà di selezionare la giusta distribuzione empirica quando si tratta di piccoli campioni.

Pertanto la domanda è: "Quando è accettabile assumere una distribuzione normale di una misurazione empirica nelle scienze applicate senza ulteriori prove a sostegno?" E perché altre alternative, come il log-normale, non lo sono e probabilmente non stanno per prendere piede?

— Antoni Parellada
fonte

La risposta dipenderà dal tipo di cosa che stai facendo e dalla sensibilità che ha rispetto alle potenziali deviazioni dalla normalità (cioè se stai testando l'uguaglianza delle varianze usando un test F del rapporto, è meglio che tu abbia distribuzioni che siano molto vicino alla normalità ... ma se si costruisse un intervallo t per la differenza di mezzi, con campioni di grandi dimensioni, potrebbe non essere necessario averli molto vicini alla normalità). ... e sulla tua tolleranza (o del tuo pubblico) per il tipo di impatti che avrebbe sull'inferenza che stai facendo.

— Glen_b

Trovo la tua domanda davvero interessante. Prendiamo in considerazione alcune cose:

Dire che una variabile osservata è continua nella vita reale sarà sempre un po 'sbagliato, perché è molto difficile misurare in modo continuo.
Ora aggiungi le proprietà di una normale variabile casuale : intervallo , distribuzione simmetrica (media = mode = mediana), la funzione di densità di probabilità ha punti di flesso in e . $N(\mu, \sigma^2)$ $(-\infty; +\infty)$ $f_X(x)$ $x = \mu - \sigma$ $x = \mu + \sigma$
Dire che una variabile casuale segue una distribuzione Log-Normal implica che la variabile segue una distribuzione normale. $X$ $Y=log(X)$

Detto questo, dire che qualsiasi variabile osservata segue una distribuzione normale o Log-Normal sembra un po 'folle. In pratica, ciò che viene fatto è misurare le deviazioni delle frequenze osservate da quelle attese, se quella variabile proviene da una popolazione normale (o qualsiasi altra distribuzione). Se puoi dire che quelle deviazioni sono solo casuali, perché stai campionando, allora puoi dire qualcosa come se non ci fossero prove sufficienti per respingere l'ipotesi nulla che questa variabile provenga da una popolazione normale , che viene tradotta in funzioneremo come se ( supponendo che) la variabile segua una distribuzione normale .

Rispondendo alla tua prima domanda, non credo che ci sia qualcuno così audace da dire che si presume che una variabile sia normalmente distribuita senza ulteriori prove . Per dire qualcosa del genere, è necessario almeno un diagramma qq, un istogramma, un test di bontà di adattamento o una combinazione di questi.

Per rispondere alla seconda domanda, l'interesse particolare per la distribuzione normale è che molti dei test classici si basano su un'ipotesi di normalità della variabile, come il test t, o il test per la varianza. Quindi, la normalità semplifica il lavoro, tutto qui. $\chi^2$

— toneloy
fonte

Grazie per la tua risposta, che tocca molti punti chiave. Tuttavia, tendo a pensare che le cose nel "mondo reale" delle scienze applicate siano meno strutturate e che spesso si assuma una tangente diretta per assumere la normalità.

— Antoni Parellada,

Qualcosa che non ho menzionato è l'altra parte della storia se la distribuzione normale: è la distribuzione limite della standardizzazione di una somma di variabili casuali iid, come è affermato nel teorema del limite centrale. Se puoi dire che la tua variabile è una somma di molte variabili casuali iid, come nel ragionamento alla base del moto browniano, allora puoi dire che è una normale variabile casuale. Questa è l'unica scorciatoia valida che conosco. Posso includerlo nella risposta se vuoi.

— Toneloy