Nella tua notazione, è la proiezione e lo spazio della colonna di , ovvero il sottospazio spanning di tutti i regressori. Pertanto è la proiezione su tutto ciò che è ortogonale al sottospazio attraversato da tutti i regressori.HXM:=In−H
Se , allora è singolarmente distribuito normalmente e gli elementi sono correlati, come affermi.X∈Rn×ke^∈Rn
Gli errori sono osservabili e sono in generale non ortogonale al sottospazio attraversato da . Per ragioni di argomento, supponiamo che l'errore . Se ciò fosse vero, avremmo con . Poiché , potremmo scomporre e ottenere il vero .εXε⊥span(X)y=Xβ+ε=y~+εy~⊥εy~=Xβ∈span(X)yε
Supponiamo di avere una base di , dove il primo vettore di base abbraccia il sottospazio e il restante span . In generale, l'errore avrà componenti diversi da zero per . Questi componenti diversi da zero verranno confusi con e pertanto non possono essere recuperati dalla proiezione su .b1,…,bnRnb1,…,bkspan(X)bk+1,…,bnspan(X)⊥ε=α1b1+…+αnbnαii∈{1,…,k}Xβspan(X)
Dal momento che non possiamo mai sperare di recuperare i veri errori e sono correlati singolari -dimensionali normali, potremmo trasformare . Lì possiamo avere che
ie è non singolare non correlato e distribuito normalmente omoscedastico. I residui sono chiamati residui BLUS di Theil .εe^ne^∈Rn↦e∗∈Rn−k
e∗∼Nn−k(0,σ2In−k),
e∗e∗
Nel breve articolo Sul test dei disturbi della regressione per la normalità trovate un confronto tra i residui di OLS e BLUS. Nell'impostazione collaudata Monte Carlo i residui OLS sono superiori ai residui BLUS. Ma questo dovrebbe darti un punto di partenza.