In un contesto leggermente più generale con un vettore dimensionale di -osservazioni (risposte o variabili dipendenti), e matrice di -osservazioni (covariate o variabili dipendenti) e i parametri in modo tale che quindi la probabilità meno log-log sia
Nella domanda del PO, è diagonale con
YnyXn×pxθ=(β1,β2,σ)Y∼N(Xβ1,Σ(β2,σ))
l(β1,β2,σ)=12(Y−Xβ1)TΣ(β2,σ)−1(Y−Xβ1)+12log|Σ(β2,σ)|
Σ(β2,σ)Σ(β2,σ)ii=σ2g(zTiβ2)2
modo che il determinante diventi e la probabilità meno log risultante diventa
Esistono diversi modi per affrontare la minimizzazione di questa funzione (supponendo che i tre parametri siano indipendenti dalla variazione).
σ2n∏ni=1g(zTiβ2)212σ2∑i=1n(yi−xTiβ1)2g(zTiβ2)2+nlogσ+∑i=1nlogg(zTiβ2)
- Puoi provare a minimizzare la funzione con un algoritmo di ottimizzazione standard ricordando il vincolo che .σ>0
- È possibile calcolare il profilo meno probabilità log di riducendo al minimo over per fixed e quindi collegare la funzione risultante in un algoritmo di ottimizzazione non vincolato standard.(β1,β2)σ(β1,β2)
- È possibile alternare tra l'ottimizzazione su ciascuno dei tre parametri separatamente. L'ottimizzazione su può essere eseguita analiticamente, l'ottimizzazione su è un problema di regressione dei minimi quadrati ponderati, e l'ottimizzazione su equivale ad adattare un modello lineare generalizzato gamma con il collegamento inverso.σβ1β2g2
L'ultimo suggerimento mi piace perché si basa su soluzioni che già conosco bene. Inoltre, la prima iterazione è qualcosa che prenderei in considerazione comunque. Cioè, prima calcola una stima iniziale di con minimi quadrati ordinari ignorando la potenziale eteroschedasticità, quindi adatta una gamma glm ai residui quadrati per ottenere una stima iniziale di solo per verificare se il modello più complicato sembra utile. Le iterazioni che incorporano l'eteroschedasticità nella soluzione dei minimi quadrati man mano che i pesi potrebbero migliorare sulla stima.β1β2 −
Per quanto riguarda la seconda parte della domanda, probabilmente prenderei in considerazione il calcolo di un intervallo di confidenza per la combinazione lineare o usando gli asintotici MLE standard (verificando con simulazioni il funzionamento degli asintotici) o avviando il bootstrap.wT1β1+wT2β2
Modifica: Per asintotici MLE standard intendo usare l'approssimazione normale multivariata alla distribuzione dell'MLE con matrice di covarianza l'informazione inversa di Fisher. Le informazioni di Fisher sono per definizione la matrice di covarianza del gradiente di . Dipende in generale dai parametri. Se riesci a trovare un'espressione analitica per questa quantità, puoi provare a collegare l'MLE. In alternativa, è possibile stimare le informazioni Fisher tramite le informazioni Fisher osservate , che è l'Assia di nel MLE. Il tuo parametro di interesse è una combinazione lineare dei parametri in duellβ-vettori, quindi dalla normale multivariata approssimativa della MLE è possibile trovare una normale approssimazione della distribuzione degli stimatori come descritto qui . Questo ti dà un errore standard approssimativo e puoi calcolare gli intervalli di confidenza. È ben descritto in molti libri statistici (matematici), ma una presentazione ragionevolmente accessibile che posso consigliare è In All Likelihood di Yudi Pawitan. Comunque, la derivazione formale della teoria asintotica è abbastanza complicata e si basa su una serie di condizioni di regolarità, e fornisce solo valide asintotichedistribuzioni. Quindi, in caso di dubbio, farei sempre alcune simulazioni con un nuovo modello per verificare se posso fidarmi dei risultati per parametri realistici e dimensioni del campione. Il bootstrap semplice e non parametrico in cui si campionano le triple dal set di dati osservato con la sostituzione può essere un'alternativa utile se la procedura di adattamento non richiede troppo tempo.(yi,xi,zi)