Risposte:
La distorsione è la differenza tra il valore atteso di uno stimatore e il valore reale da stimare. Ad esempio, la media del campione per un semplice campione casuale (SRS) è uno stimatore imparziale della media della popolazione perché se prendi tutti i possibili SRS trovi i loro mezzi e prendi la media di quei mezzi, otterrai la media della popolazione (per finito popolazioni questo è solo algebra per dimostrarlo). Ma se usiamo un meccanismo di campionamento che è in qualche modo correlato al valore, allora la media può diventare distorta, pensate a un campione di composizione di cifre casuali che fa una domanda sul reddito.
Ci sono anche alcuni stimatori che sono naturalmente di parte. La media tagliata sarà distorta per una popolazione / distribuzione distorta. La varianza standard è imparziale per gli SRS se la media della popolazione viene utilizzata con il denominatore o la media del campione viene utilizzata con il denominatore . n - 1
Ecco un semplice esempio usando R, generiamo un gruppo di campioni da una normale con media 0 e deviazione standard 1, quindi calcoliamo la media media, la varianza e la deviazione standard dai campioni. Nota quanto sono vicine le medie e la varianza ai valori reali (errore di campionamento significa che non saranno esatti), ora confronta la media sd, è uno stimatore distorto (anche se non fortemente distorto).
> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121
Nella regressione possiamo ottenere stimatori distorti delle pendenze facendo una regressione graduale. È più probabile che una variabile venga mantenuta in una regressione graduale se la pendenza stimata è più lontana da 0 e più probabilità di essere eliminata se è più vicina a 0, quindi questo è campionamento parziale e le pendenze nel modello finale tenderanno ad essere più lontane da 0 rispetto alla pendenza reale. Tecniche come la distorsione di regressione del lazo e della cresta inclina verso 0 per contrastare la distorsione di selezione da 0.
Distorsione significa che il valore atteso dello stimatore non è uguale al parametro di popolazione.
Intuitivamente in un'analisi di regressione, ciò significherebbe che la stima di uno dei parametri è troppo alta o troppo bassa. Tuttavia, le stime di regressione dei minimi quadrati ordinari sono BLU, che sta per i migliori stimatori lineari imparziali. In altre forme di regressione, le stime dei parametri possono essere distorte. Questa può essere una buona idea, perché c'è spesso un compromesso tra pregiudizio e varianza. Ad esempio, la regressione della cresta viene talvolta utilizzata per ridurre la varianza delle stime in presenza di collinearità.
Un semplice esempio può illustrarlo meglio, anche se non nel contesto della regressione. Supponi di pesare 150 libbre (verificato su una bilancia che ti ha in un paniere e una pila di pesi nell'altro paniere). Ora hai due bilance pesapersone. Ti pesi 5 volte su ciascuno.
La scala 1 fornisce pesi di 152, 151, 151.5, 150.5 e 152.
La scala 2 fornisce pesi di 145, 155, 154, 146 e 150.
La scala 1 è distorta, ma ha una varianza inferiore; la media dei pesi non è il tuo vero peso. La scala 2 è imparziale (la media è 150), ma presenta una varianza molto più elevata.
Quale scala è "migliore"? Dipende da cosa vuoi che faccia la bilancia.
Nell'analisi di regressione lineare, la distorsione si riferisce all'errore introdotto dall'approssimazione di un problema di vita reale, che può essere complicato, da un modello molto più semplice. In termini semplici, si assume un modello lineare semplice come y * = (a *) x + b * dove come nella vita reale il problema aziendale potrebbe essere y = ax ^ 3 + bx ^ 2 + c.
Si può dire che il test MSE (errore al quadrato medio) atteso da un problema di regressione può essere scomposto come di seguito. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Bias (f * (x0))] ^ 2 + Var (e)
f * -> forma funzionale assunta per il modello di regressione lineare y0 -> valore di risposta originale registrato nei dati di test x0 -> valore predittore originale registrato nei dati di test e -> errore irriducibile Quindi, l'obiettivo è selezionare un metodo migliore per arrivare a un modello che raggiunge una bassa varianza e una bassa tendenza.
Nota: un'introduzione all'apprendimento statistico di Trevor Hastie e Robert Tibshirani ha una buona intuizione su questo argomento