È radicato nell'insegnamento delle discipline applicate, come la medicina, che le misurazioni delle quantità biomediche nella popolazione seguono una normale "curva a campana". Una ricerca su Google della stringa "abbiamo assunto una distribuzione normale" restituisce risultati! Sembrano " , dato il piccolo numero di punti estremi di dati, abbiamo assunto una distribuzione normale per le anomalie della temperatura" in uno studio sui cambiamenti climatici; o "abbiamo assunto una normale distribuzione delle date di schiusa dei pulcini" su un documento forse meno controverso sui pinguini; o "abbiamo ipotizzato una normale distribuzione degli shock di crescita del PIL" ,, ... e altre cose).
Di recente, mi sono ritrovato a mettere in discussione il trattamento dei dati di conteggio normalmente distribuiti a causa della loro natura strettamente positiva. Naturalmente, i dati di conteggio sono discreti, rendendo la loro normalità ancora più artificiale. Ma anche tralasciando quest'ultimo punto, perché le misure empiriche continue come peso, altezza o concentrazione di glucosio, considerate prototipicamente "continue", dovrebbero essere considerate normali? Non possono avere osservazioni negative realizzate più di quanto non facciano i conti!
Capisco che quando la deviazione standard è sostanzialmente inferiore alla media, indicando pochi valori negativi ("controllo del range del 95%") può essere un presupposto pratico e gli istogrammi di frequenza possono supportarlo se non troppo inclinato. Ma la domanda non sembrava banale e una rapida ricerca ha prodotto cose interessanti.
In Nature possiamo trovare la seguente dichiarazione in una lettera di DF Heath : "Vorrei sottolineare che per l'analisi statistica di alcuni tipi di dati l'assunto che i dati sono ricavati da una popolazione normale è generalmente errato e che l'alternativa l'ipotesi di una distribuzione log-normale è migliore. Questa alternativa è ampiamente utilizzata da statistici, economisti e fisici, ma per qualche ragione è spesso ignorata dagli scienziati di alcune altre discipline. "
Limpert osserva che "il modello log-normale può servire come approssimazione nel senso che molti scienziati percepiscono ora la normale come approssimazione valida" , pur rilevando il basso potere dei test di bontà di adattamento della normalità e la difficoltà di selezionare la giusta distribuzione empirica quando si tratta di piccoli campioni.
Pertanto la domanda è: "Quando è accettabile assumere una distribuzione normale di una misurazione empirica nelle scienze applicate senza ulteriori prove a sostegno?" E perché altre alternative, come il log-normale, non lo sono e probabilmente non stanno per prendere piede?