Ci sono diversi problemi qui.
(1) Il modello deve essere esplicitamente probabilistico . In quasi tutti i casi non ci sarà un insieme di parametri per i quali lhs corrisponde a rhs per tutti i tuoi dati: ci saranno residui. È necessario formulare ipotesi su tali residui. Ti aspetti che siano zero in media? Da distribuire simmetricamente? Da distribuire approssimativamente normalmente?
Qui ci sono due modelli che concordano con quello specificato ma consentono un comportamento residuo drasticamente diverso (e pertanto generano stime di parametri differenti). Puoi variare questi modelli variando ipotesi sulla distribuzione congiunta di :ϵi
B:y i =β 0 exp ( β 1 x 1 i + … + β k x k i ) +ϵ io .
A: yi=β0exp(β1x1i+…+βkxki+ϵi)
B: yi=β0exp(β1x1i+…+βkxki)+ϵi.
(Si noti che questi sono modelli per i dati ; di solito non esiste un valore di dati stimato .)^ y iyiyi^
(2) La necessità di gestire valori zero per y implica che il modello dichiarato (A) è sia sbagliato che inadeguato , poiché non può produrre un valore zero indipendentemente dall'errore casuale. Il secondo modello sopra (B) consente valori zero (o addirittura negativi) di y. Tuttavia, non si dovrebbe scegliere un modello esclusivamente su tale base. Per ribadire # 1: è importante modellare gli errori ragionevolmente bene.
(3) La linearizzazione cambia il modello . In genere, risulta in modelli come (A) ma non come (B). È utilizzato da persone che hanno analizzato i loro dati abbastanza da sapere che questo cambiamento non influirà in modo sensibile sulle stime dei parametri e da persone che ignorano ciò che sta accadendo. (È difficile, molte volte, dire la differenza.)
(4) Un modo comune per gestire la possibilità di un valore zero è di proporre che (o una sua reespressione, come la radice quadrata) abbia una probabilità strettamente positiva di ugualmente zero. Matematicamente, stiamo mescolando una massa di punti (una "funzione delta") con un'altra distribuzione. Questi modelli si presentano così:y
f(yi)θj∼F(θ);=βj0+βj1x1i+⋯+βjkxki
dove è uno dei parametri impliciti nel vettore , è una famiglia di distribuzioni parametrizzate da , ed è la ri-espressione del 's (la funzione "link" di un modello lineare generalizzato: si veda la risposta del onestop). (Naturalmente, quindi, = quando ) Esempi sono i modelli Poisson zero e binomiali negativi .PrFθ[f(Y)=0]=θj+1>0θFθ1,…,θjfyPrFθ[f(Y)≤t](1−θj+1)Fθ(t)t≠0
(5) Le questioni relative alla costruzione di un modello e al suo adattamento sono correlate ma diverse . Come semplice esempio, anche un normale modello di regressione può essere adattato in molti modi per mezzo di minimi quadrati (che forniscono le stesse stime dei parametri della massima verosimiglianza e quasi gli stessi errori standard), minimi quadrati ripetuti in modo iterativo , varie altre forme di " minimi quadrati robusti " , ecc. La scelta del montaggio si basa spesso su convenienza, convenienza ( ad es . disponibilità di software), familiarità, abitudine o convenzione, ma almeno alcuni pensieri dovrebbero essere dato a ciò che è appropriato per la presunta distribuzione dei termini di errore , a ciò che ilϵ iY=β0+β1X+ϵϵila funzione di perdita per il problema potrebbe ragionevolmente essere e la possibilità di sfruttare informazioni aggiuntive (come una distribuzione preventiva per i parametri).