Sto affrontando questa domanda da solo adesso. Ecco un risultato che può essere utile. Considera il modello lineare
y=Xβ+ϵ,ϵ∼N(0,σ2)
dove e βy∈Rn,β∈Rp,β e sono i parametri di interesse. La probabilità congiunta èσ2
L(β,σ2)=(2πσ2)−n/2exp(−||y−Xβ||22σ2)
Ottimizzazione dei rendimenti di probabilità congiunta
β^=X+y
σ^2=1n||r||2
dove è il pseudoinversa di X e R = y - X β è il vettore dei residui vestibilità. Si noti che in σ 2 abbiamo 1 / n invece dei gradi di libertà familiari corretto rapporto 1 / ( n - p ) . Questo stimatore è noto per essere distorto nel caso del campione finito.X+Xr=y−Xβ^σ^21/n1/(n−p)
Ora supponiamo invece di ottimizzare sia su che σ 2 , integriamo β out e stimiamo σ 2 dalla probabilità integrata risultante:βσ2βσ2
σ^2=maxσ2∫RpL(β,σ2)dβ
Usando l'algebra lineare elementare e la formula integrale gaussiana, puoi dimostrarlo
σ^2=1n−p||r||2
Questo ha la correzione del grado di libertà che la rende imparziale e generalmente favorita rispetto alla stima ML congiunta.
Da questo risultato ci si potrebbe chiedere se c'è qualcosa di intrinsecamente vantaggioso nella probabilità integrata, ma non conosco alcun risultato generale che risponda a tale domanda. Il consenso sembra essere che ML integrato è meglio nel tenere conto dell'incertezza nella maggior parte dei problemi di stima. In particolare, se si sta stimando una quantità che dipende da altre stime di parametri (anche implicitamente), l'integrazione con gli altri parametri spiegherà meglio le loro incertezze.