Che cosa è intuitivamente "bias"?

Sto lottando per comprendere il concetto di distorsione nel contesto dell'analisi di regressione lineare.

Qual è la definizione matematica di bias?
Che cosa è esattamente di parte e perché / come?
Esempio illustrativo?

— Fabian
fonte

Risposte:

La distorsione è la differenza tra il valore atteso di uno stimatore e il valore reale da stimare. Ad esempio, la media del campione per un semplice campione casuale (SRS) è uno stimatore imparziale della media della popolazione perché se prendi tutti i possibili SRS trovi i loro mezzi e prendi la media di quei mezzi, otterrai la media della popolazione (per finito popolazioni questo è solo algebra per dimostrarlo). Ma se usiamo un meccanismo di campionamento che è in qualche modo correlato al valore, allora la media può diventare distorta, pensate a un campione di composizione di cifre casuali che fa una domanda sul reddito.

Ci sono anche alcuni stimatori che sono naturalmente di parte. La media tagliata sarà distorta per una popolazione / distribuzione distorta. La varianza standard è imparziale per gli SRS se la media della popolazione viene utilizzata con il denominatore o la media del campione viene utilizzata con il denominatore . $n$ $n-1$

Ecco un semplice esempio usando R, generiamo un gruppo di campioni da una normale con media 0 e deviazione standard 1, quindi calcoliamo la media media, la varianza e la deviazione standard dai campioni. Nota quanto sono vicine le medie e la varianza ai valori reali (errore di campionamento significa che non saranno esatti), ora confronta la media sd, è uno stimatore distorto (anche se non fortemente distorto).

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

Nella regressione possiamo ottenere stimatori distorti delle pendenze facendo una regressione graduale. È più probabile che una variabile venga mantenuta in una regressione graduale se la pendenza stimata è più lontana da 0 e più probabilità di essere eliminata se è più vicina a 0, quindi questo è campionamento parziale e le pendenze nel modello finale tenderanno ad essere più lontane da 0 rispetto alla pendenza reale. Tecniche come la distorsione di regressione del lazo e della cresta inclina verso 0 per contrastare la distorsione di selezione da 0.

— Greg Snow
fonte

SRS?

$\text{ }$

— cardinale il

@cardinal Simple Random Sample.

— whuber

@whuber: Wow. Sebbene l'abbreviazione abbia un senso, non ricordo di essermi imbattuta in altri contesti formali. Ci sono sottocampi particolari o aree applicate in cui si tratta di un inizialismo "standard"?

— cardinale il

@cardinal Vedi en.wikipedia.org/wiki/Simple_random_sample

— whuber

(+1) La modifica di @ whuber è stata utile per chiarire questa risposta.

— cardinale il

Distorsione significa che il valore atteso dello stimatore non è uguale al parametro di popolazione.

Intuitivamente in un'analisi di regressione, ciò significherebbe che la stima di uno dei parametri è troppo alta o troppo bassa. Tuttavia, le stime di regressione dei minimi quadrati ordinari sono BLU, che sta per i migliori stimatori lineari imparziali. In altre forme di regressione, le stime dei parametri possono essere distorte. Questa può essere una buona idea, perché c'è spesso un compromesso tra pregiudizio e varianza. Ad esempio, la regressione della cresta viene talvolta utilizzata per ridurre la varianza delle stime in presenza di collinearità.

Un semplice esempio può illustrarlo meglio, anche se non nel contesto della regressione. Supponi di pesare 150 libbre (verificato su una bilancia che ti ha in un paniere e una pila di pesi nell'altro paniere). Ora hai due bilance pesapersone. Ti pesi 5 volte su ciascuno.

La scala 1 fornisce pesi di 152, 151, 151.5, 150.5 e 152.

La scala 2 fornisce pesi di 145, 155, 154, 146 e 150.

La scala 1 è distorta, ma ha una varianza inferiore; la media dei pesi non è il tuo vero peso. La scala 2 è imparziale (la media è 150), ma presenta una varianza molto più elevata.

Quale scala è "migliore"? Dipende da cosa vuoi che faccia la bilancia.

— Peter Flom - Ripristina Monica
fonte

Sebbene la definizione di parzialità sia corretta, temo che gli esempi la confondano con inesattezze, che è qualcosa di completamente diverso! Il bias è una proprietà di una procedura statistica (uno stimatore) mentre l'accuratezza è una proprietà di un processo di misurazione . (-1).

— whuber

@whuber: Sì, sono d'accordo. E penso ancora che, anche in questo caso, sia necessario chiarire la differenza tra aspettativa matematica e una media campionaria, in quanto si riferiscono al pregiudizio.

— cardinale il

No, non stavo cercando di dire nulla sull'inesattezza (che è terribilmente difficile da definire) ma sulla "varianza". Una scala è imparziale, l'altra scala ha una bassa varianza. Non ho usato la parola "accurate" o "accuratezza". Una bilancia che tende a stimare un peso troppo alto (o troppo basso) è distorta.

— Peter Flom - Ripristina Monica

Ma questo senso di "distorsione" è solo un sinonimo di impreciso; non è la stessa della definizione che hai dato nella prima riga. Inoltre, come sottolinea @cardinal, l'esempio confonde anche un'aspettativa con la media di un particolare campione.

— whuber

Sono d'accordo con @whuber qui. Nella (corretta) senso di pregiudizio che il PO sta chiedendo circa, è non è la scala che è distorto o imparziale, ma qualunque sia la vostra stima del peso che si deriva dalle sue misurazioni!

— cardinale il

Nell'analisi di regressione lineare, la distorsione si riferisce all'errore introdotto dall'approssimazione di un problema di vita reale, che può essere complicato, da un modello molto più semplice. In termini semplici, si assume un modello lineare semplice come y * = (a *) x + b * dove come nella vita reale il problema aziendale potrebbe essere y = ax ^ 3 + bx ^ 2 + c.

Si può dire che il test MSE (errore al quadrato medio) atteso da un problema di regressione può essere scomposto come di seguito. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Bias (f * (x0))] ^ 2 + Var (e)

f * -> forma funzionale assunta per il modello di regressione lineare y0 -> valore di risposta originale registrato nei dati di test x0 -> valore predittore originale registrato nei dati di test e -> errore irriducibile Quindi, l'obiettivo è selezionare un metodo migliore per arrivare a un modello che raggiunge una bassa varianza e una bassa tendenza.

Nota: un'introduzione all'apprendimento statistico di Trevor Hastie e Robert Tibshirani ha una buona intuizione su questo argomento

— ganga
fonte

Questo è spesso indicato da qualcosa come "errore di specifica errata del modello" per non confonderlo con la definizione standard di parzialità data nella risposta accettata. Altrimenti sarebbe impossibile dare un senso alla (corretta) affermazione che OLS è uno stimatore imparziale dei coefficienti dei regressori.

— whuber