La distribuzione normale non consente valori negativi?
Corretta. Inoltre non ha limiti superiori.
In una parte del mio libro di testo, si dice che una distribuzione normale potrebbe essere utile per modellare i punteggi degli esami.
Nonostante le precedenti dichiarazioni, ciò è talvolta vero. Se hai molti componenti da testare, non troppo legati (ad esempio, non sei essenzialmente la stessa domanda una dozzina di volte, né hai ciascuna parte che richiede una risposta corretta alla parte precedente) e non molto facile o molto difficile ( in modo che la maggior parte dei segni si trovi da qualche parte vicino al centro), quindi i segni possono spesso essere ragionevolmente ben approssimati da una distribuzione normale; spesso abbastanza bene che le analisi tipiche dovrebbero causare poca preoccupazione.
Sappiamo per certo che non sono normali , ma questo non è automaticamente un problema - purché il comportamento delle procedure che utilizziamo sia abbastanza vicino a quello che dovrebbero essere per i nostri scopi (ad esempio errori standard, intervalli di confidenza, livelli di significatività e potere - qualunque sia necessario - fate vicino a ciò che ci aspettiamo)
Nella parte successiva, si chiede quale distribuzione sarebbe appropriata per modellare un reclamo di assicurazione auto. Questa volta, ha detto che le distribuzioni appropriate sarebbero Gamma o Inverse Gaussian perché sono continue con solo valori positivi.
Sì, ma più di questo: tendono ad essere fortemente distorti e la variabilità tende ad aumentare quando la media aumenta.
Ecco un esempio di distribuzione delle dimensioni delle attestazioni per le affermazioni sui veicoli:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(Fig. 5 di Garrido, Genest & Schulz (2016) "Modelli lineari generalizzati per frequenza dipendente e gravità dei crediti assicurativi", Assicurazione: matematica ed economia, Vol 70, sett., P205-215. Https : //www.sciencedirect. com / science / article / pii / S0167668715303358 )
Ciò mostra una tipica inclinazione a destra e una coda destra pesante. Tuttavia, dobbiamo stare molto attenti perché si tratta di una distribuzione marginale e stiamo scrivendo un modello per la distribuzione condizionale , che in genere sarà molto meno inclinata (la distribuzione marginale che osserviamo se facciamo solo un istogramma di dimensioni di rivendicazione è una miscela di queste distribuzioni condizionate). Tuttavia è in genere il caso che se osserviamo la dimensione della richiesta in sottogruppi dei predittori (forse categorizzando variabili continue) che la distribuzione è ancora fortemente distorta e con una coda piuttosto pesante a destra, suggerendo che qualcosa come un modello gamma * è probabilmente sarà molto più adatto di un modello gaussiano.
* potrebbe esserci un numero qualsiasi di altre distribuzioni che sarebbero più adatte di un gaussiano - il gaussiano inverso è un'altra scelta - sebbene meno comune; modelli lognormali o Weibull, sebbene non GLM così come sono, possono anche essere molto utili.
[È raro che una di queste distribuzioni sia una descrizione quasi perfetta; sono approssimazioni inesatte, ma in molti casi sufficientemente buone da rendere l'analisi utile e vicina alle proprietà desiderate.]
Bene, credo che anche i punteggi degli esami sarebbero continui con solo valori positivi, quindi perché dovremmo usare una distribuzione normale lì?
Perché (nelle condizioni che ho menzionato prima - molti componenti, non troppo dipendenti, non difficili o facili) la distribuzione tende ad essere abbastanza vicina a simmetrica, unimodale e non pesante.