In alcuni casi sembra chiaro che la teoria potrebbe funzionare meglio (le lunghezze della coda dei topi sono probabilmente distribuite normalmente).
Le lunghezze della coda non sono certamente distribuite normalmente.
Le distribuzioni normali hanno una probabilità diversa da zero di assumere valori negativi; le lunghezze della coda no.
La famosa linea di George Box , " tutti i modelli sono sbagliati, ma alcuni sono utili " rende il punto piuttosto bene. I casi in cui potremmo ragionevolmente affermare la normalità (piuttosto che solo la normalità approssimativa) sono davvero molto rari, quasi creature della leggenda, a volte miraggi quasi intravisti da un angolo dell'occhio.
In molti casi probabilmente non esiste una teoria per descrivere un insieme di dati, quindi usi semplicemente qualcosa che si adatta a ciò che hai abbastanza bene indipendentemente da ciò che è stato originariamente sviluppato per descrivere?
Nei casi in cui le quantità che ti interessano non sono particolarmente sensibili alla scelta (purché le caratteristiche generali della distribuzione siano coerenti con ciò che è noto), quindi sì, puoi semplicemente usare qualcosa che si adatta abbastanza bene.
Nei casi in cui esiste un maggior grado di sensibilità, "usare semplicemente qualcosa che si adatta" non è sufficiente da solo. Potremmo usare un approccio che non fa ipotesi particolari (forse procedure libere dalla distribuzione, come permutazione, bootstrap o altri approcci di ricampionamento o procedure solide). In alternativa, potremmo quantificare la sensibilità all'assunzione distributiva, ad esempio tramite simulazione (anzi, penso che questa sia generalmente una buona idea).
sembra che ci sia il problema che forse dovresti usare una distribuzione empirica se davvero non ne hai idea.
Non lo descriverei come un problema - basare l'inferenza su distribuzioni empiriche certamente un approccio legittimo adatto a molti tipi di problemi (permutazione / randomizzazione e bootstrap sono due esempi).
qualcuno ha un modo coerente di affrontare / pensare a questo problema?
in generale, in molti casi, tendo a considerare domande come:
1) Cosa capisco * su come si comportano i mezzi (o altre quantità di località) per i dati di questo modulo?
* (sia dalla teoria, sia dall'esperienza di questa forma di dati, o dalla consulenza di esperti, o se necessario, dai dati stessi, anche se ciò comporta problemi che devono essere affrontati)
2) Che dire della diffusione (varianza, IQR, ecc.) - come si comporta?
3) Che dire di altre caratteristiche distributive (limiti, asimmetria, discrezione, ecc.)
4) Che dire di dipendenza, eterogeneità delle popolazioni, tendenza a valori occasionalmente molto discrepanti, ecc
Questo tipo di considerazione potrebbe guidare una scelta tra un modello normale, un GLM, qualche altro modello o un approccio solido o privo di distribuzione (come gli approcci di bootstrap o permutazione / randomizzazione, comprese le procedure basate sul rango)