Quando i minimi quadrati sarebbero una cattiva idea?


11

Se ho un modello di regressione: dove e ,

Y=Xβ+ε
V[ε]=IdRn×nE[ε]=(0,,0)

quando usare , lo stimatore ordinario dei minimi quadrati di , sarebbe una cattiva scelta per uno stimatore?βOLSβ

Sto cercando di capire un esempio in cui i minimi quadrati funzionano male. Quindi sto cercando una distribuzione degli errori che soddisfi le ipotesi precedenti ma produca risultati negativi. Se la famiglia della distribuzione fosse determinata dalla media e dalla varianza sarebbe fantastico. Altrimenti, va bene lo stesso.

So che i "cattivi risultati" sono un po 'vaghi, ma penso che l'idea sia comprensibile.

Solo per evitare confusioni, so che i minimi quadrati non sono ottimali e che esistono stimatori migliori come la regressione della cresta. Ma non è quello a cui sto puntando. Voglio un esempio se i minimi quadrati fossero innaturali.

Posso immaginare cose come, il vettore di errore vive in una regione non convessa di , ma non ne sono sicuro.ϵRn

Modifica 1: come idea per aiutare una risposta (che non riesco a capire come andare oltre). è BLU. Quindi potrebbe essere utile pensare a quando uno stimatore imparziale lineare non sarebbe una buona idea.βOLS

Modifica 2: Come ha sottolineato Brian, se è mal condizionato, allora è una cattiva idea perché la varianza è troppo grande, e invece dovrebbe essere usata Ridge Regressione. Sono più interessato a sapere quale distribuzione dovrebbe per far funzionare male i minimi quadrati.XXβOLSε

βOLSβ+(XX)1Xε Esiste una distribuzione con media zero e matrice di varianza dell'identità per che rende questo stimatore non efficiente?ε


1
Non voglio sembrare duro, ma non sono del tutto sicuro di cosa tu voglia. Ci sono molti modi in cui qualcosa potrebbe essere una scelta sbagliata. Tipicamente, valutiamo gli stimatori in termini di distorsione , varianza , robustezza ed efficienza . Ad esempio, come noti, lo stimatore OLS è BLU .
gung - Ripristina Monica

1
OTOH, la varianza potrebbe essere così grande da essere inutile, rendendo preferibile uno stimatore a bassa varianza ma distorto come la cresta. Un altro esempio è che OLS utilizza al massimo tutte le informazioni nei dati, ma ciò lo rende suscettibile agli outlier. Esistono molte funzioni di perdita alternative più robuste, mentre si tenta di mantenere l'efficienza. Potrebbe essere più chiaro se riesci a ri-inquadrare la tua domanda in termini come questi. Non so cosa significhi per uno stimatore essere "innaturale".
gung - Ripristina Monica

Grazie per il tuo commento, mi ha fatto capire l'ambiguità della domanda. Spero sia più chiaro ora
Manuel,

Vedi la regressione in questa risposta . In breve: gli outlier influenti possono essere un problema.
Glen_b

Risposte:


8

La risposta di Brian Borchers è piuttosto buona --- i dati che contengono strani valori anomali spesso non sono ben analizzati da OLS. Ho intenzione di espandere questo aspetto aggiungendo un'immagine, una Monte Carlo e un po 'di Rcodice.

Prendi in considerazione un modello di regressione molto semplice:

Yi=β1xi+ϵi ϵi={N(0,0.04)w.p.0.99931w.p.0.000531w.p.0.0005

Questo modello è conforme alla tua configurazione con un coefficiente di pendenza di 1.

Il grafico allegato mostra un set di dati composto da 100 osservazioni su questo modello, con la variabile x che va da 0 a 1. Nel set di dati tracciato, c'è un disegno sull'errore che presenta un valore anomalo (+31 in questo caso) . Sono tracciate anche la linea di regressione OLS in blu e la linea di regressione deviazioni meno assolute in rosso. Notare come OLS ma non LAD è distorto dal valore anomalo:

OLS vs LAD con un valore anomalo

Possiamo verificarlo facendo un Monte Carlo. Nel Monte Carlo, ho generato un set di dati di 100 osservazioni usando lo stesso e un con la distribuzione sopra 10.000 volte. In quelle 10.000 repliche, non otterremo un valore anomalo nella stragrande maggioranza. Ma tra pochi avremo un valore anomalo e rovinerà OLS ma non LAD ogni volta. Il codice seguente esegue il Monte Carlo. Ecco i risultati per i coefficienti di pendenza:ϵxϵR

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

Sia OLS che LAD producono stimatori imparziali (le pendenze sono entrambe in media 1,00 su 10.000 repliche). OLS produce uno stimatore con una deviazione standard molto più elevata, tuttavia, 0,34 vs 0,09. Pertanto, OLS non è il migliore / più efficiente tra gli stimatori imparziali, qui. È ancora BLU, ovviamente, ma LAD non è lineare, quindi non c'è contraddizione. Notare gli errori selvaggi che OLS può commettere nella colonna Min e Max. Non così SIGNORA.

Ecco il codice R sia per il grafico che per Monte Carlo:

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)

@Manuel Grazie. Ho riscontrato un errore nel mio programma R --- c'era un 0,04 in cui avrebbe dovuto esserci un sqrt (0,04). Non ha cambiato la spinta della risposta. Ha fatto una piccola differenza nei risultati. Tuttavia, se prima hai copiato il codice, dovresti copiarlo di nuovo ora.
Bill,

7

Un esempio potrebbe essere quello in cui non si desidera stimare la media. Ciò è emerso dal lavoro che facevo dove stavamo valutando il numero di partner sessuali che le persone avevano, come parte del modello della diffusione dell'HIV / AIDS. C'era più interesse per le code della distribuzione: quali persone hanno molti molti partner?

In questo caso, potresti voler una regressione quantile; un metodo sottoutilizzato, secondo me.


β

Y

Sì, intendevo la media di Y. Questo è ciò che fa la regressione OLS.
Peter Flom

(xa)2+(xb)2L1

6

X

ϵ

ϵβ


ε

1
Inoltre, Gauss-Markov assicura che i minimi quadrati siano uno stimatore imparziale di varianza minima tra i lineari. Possono essere stimatori lineari non reazonabili per qualche tipo di distribuzioni. Questo è quello che voglio capire.
Manuel,

ϵi=0ϵi=1000.00005ϵi=1000.00005X=Iβϵ

X=1β=0β^

Credo che il tuo secondo commento sia quello che sto cercando. Mi preoccupa solo la bassa probabilità di accadere. Anche da quell'esempio è abbastanza chiaro come costruire uno stimatore migliore quando si conosce la distribuzione degli errori.
Manuel,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.