Regressione lineare: qualsiasi distribuzione non normale che dà identità di OLS e MLE?


13

Questa domanda si ispira alla lunga discussione nei commenti qui: in che modo la regressione lineare usa la distribuzione normale?

Nel solito modello di regressione lineare, per semplicità qui scritto con un solo predittore:

Yi=β0+β1xi+ϵi
dove xi sono costanti note e ϵi sono termini di errore indipendenti a media zero. Se inoltre assumiamo distribuzioni normali per gli errori, i soliti stimatori dei minimi quadrati e gli stimatori della massima verosimiglianza di β0,β1 sono identici.

Quindi la mia semplice domanda: esiste qualche altra distribuzione per i termini di errore in modo tale che il mle sia identico allo stimatore dei minimi quadrati ordinari? L'una implicazione è facile da mostrare, l'altra no.


1
(+1) Dovrebbe essere una distribuzione centrata attorno allo zero, e sembrerebbe che sarebbe di aiuto se fosse simmetrica. Alcuni candidati che vengono in mente, come la distribuzione t- o Laplace, non sembrano fare il trucco poiché l'MLE è, anche nell'unico caso costante, non disponibile in forma chiusa o data dalla mediana, rispettivamente.
Christoph Hanck,

vedi anche stats.stackexchange.com/questions/99014/… , sembra che ci sia così tanto da trovare
Christoph Hanck,

Sono sicuro che la risposta è no. Tuttavia, può essere difficile scrivere una prova rigorosa.
Gordon Smyth,

Risposte:


11

Nella stima della massima probabilità, calcoliamo

β^ML:lnf(ϵi)β=0f(ϵi)f(ϵi)xi=0

l'ultima relazione tenendo conto della struttura di linearità dell'equazione di regressione.

In confronto, lo stimatore OLS soddisfa

ϵixi=0

Per ottenere espressioni algebriche identiche per i coefficienti di pendenza dobbiamo avere una densità per il termine di errore tale che

f(ϵi)f(ϵi)=±cϵif(ϵi)=±cϵif(ϵi)

Queste sono equazioni differenziali della forma che hanno soluzioniy=±xy

1ydy=±xdxlny=±12x2

y=f(ϵ)=exp{±12cϵ2}

Qualsiasi funzione che ha questo kernel e si integra con l'unità su un dominio appropriato, renderà identici MLE e OLS per i coefficienti di pendenza. Vale a dire che stiamo cercando

g(x)=Aexp{±12cx2}:abg(x)dx=1

C'è un tale g che non è la densità normale (o la mezza-normale o la derivata della funzione di errore)?

Certamente. Ma un'altra cosa da considerare è la seguente: se si usa il segno più nell'esponente e, ad esempio, un supporto simmetrico attorno allo zero, si otterrà una densità che ha un minimo unico nel mezzo e due massimi locali a i confini del supporto.


Ottima risposta (+1), ma se si usa un segno più nella funzione, è persino una densità? Sembrerebbe quindi che la funzione abbia un integrale infinito e quindi non possa essere normalizzata in una funzione di densità. In tal caso, ci resta solo la distribuzione normale.
Ripristina Monica il

1
@Ben Grazie. Sembra che tu stia implicitamente supponendo che l'intervallo della variabile casuale sarà più / meno infinito. Ma possiamo definire un camper per un intervallo limitato, nel qual caso possiamo benissimo usare il segno più. Questo è il motivo per cui nelle mie espressioni ho usato come limiti di integrazione . (a,b)
Alecos Papadopoulos,

È vero - lo stavo assumendo.
Ripristina Monica il

5

argβ0,β1mini=1n(yiβ0β1xi)2
f(y|x,β0,β1) such that
argβ0,β1mini=1nlog{f(yi|xi,β0,β1)}=argβ0,β1mini=1n(yiβ0β1xi)2
is acceptable. This means for instance that densities of the form
f(y|x,β0,β1)=f0(y|x)exp{ω(yiβ0β1xi)2}
are acceptable since the factor f0(y|x) does not depend on the parameter (β0,β1). There is therefore an infinity of such distributions.

Another setting where both estimators coincide is when the data comes from a spherically symmetric distribution, namely when the (vector) data y has conditional density

h(||yXβ||)
with h() a decreasing function. (In this case the OLS is still available although the assumption of the independence of the ϵi's only holds in the Normal case.)

1
This does not look correct to me. If you use a different spherically symmetric distribution, wouldn't that lead to minimisation of a different function of the norm than the square (thus not being least-squares estimation)?
Reinstate Monica

1

I didn't know about this question until @Xi'an just updated with an answer. There is a more generic solution. Exponential family distributions with some parameters fixed yield to Bregman divergences. For such distributions mean is the minimizer. OLS minimizer is also the mean. Therefore for all such distributions they should coincide when the linear functional is linked to the mean parameter.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.75.6958&rep=rep1&type=pdf

enter image description here

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.