Decomposizione della varianza

Nella sezione 3.2 di Bishop's Pattern Recognition and Machine Learning , discute della decomposizione di bias-varianza, affermando che per una funzione di perdita quadrata, la perdita attesa può essere scomposta in un termine di bias quadrato (che descrive quanto le previsioni medie sono lontane dal vero modello), un termine di varianza (che descrive la diffusione delle previsioni attorno alla media) e un termine di rumore (che fornisce il rumore intrinseco dei dati).

La decomposizione della variazione di polarizzazione può essere eseguita con funzioni di perdita diverse dalla perdita al quadrato?
Per un determinato set di dati del modello, esiste più di un modello la cui perdita prevista è il minimo rispetto a tutti i modelli e, in tal caso, ciò significa che potrebbero esserci diverse combinazioni di distorsione e varianza che producono la stessa perdita minima prevista?
Se un modello prevede la regolarizzazione, esiste una relazione matematica tra distorsione, varianza e coefficiente di regolarizzazione $\lambda$ ?
Come si può calcolare la distorsione se non si conosce il modello vero?
Esistono situazioni in cui ha più senso ridurre al minimo la distorsione o la varianza piuttosto che la perdita attesa (la somma della distorsione e della varianza quadrate)?

— Vivek Subramanian
fonte

... la perdita attesa [errore al quadrato] può essere scomposta in un termine di bias al quadrato (che descrive quanto distano le previsioni medie dal modello reale), un termine di varianza (che descrive la diffusione delle previsioni attorno alla media), e un termine di rumore (che fornisce il rumore intrinseco dei dati).

Osservando la decomposizione della perdita di errore al quadrato , non del campione stesso. Vedo solo due termini: uno per il bias e un altro per la varianza dello stimatore o del predittore, . Non vi è alcun termine di rumore aggiuntivo nella perdita prevista. Come dovrebbe essere poiché la variabilità è la variabilità di

E_{θ} [(θ - δ (X_{1 : n}))^{2}] = (θ - E_{θ} [δ (X_{1 : n})])^{2} + E_{θ} [(E_{θ} [δ (X_{1 : n})] - δ (X_{1 : n}))^{2}]

$\mathbb{E}_\theta[(\theta-\delta(X_{1:n}))^2]=(\theta-\mathbb{E}_\theta[\delta(X_{1:n})])^2+\mathbb{E}_\theta[(\mathbb{E}_\theta[\delta(X_{1:n})]-\delta(X_{1:n}))^2]$

δ (X_{1 : n})

$\delta(X_{1:n})$

δ (X_{1 : n})

$\delta(X_{1:n})$

La decomposizione della variazione di polarizzazione può essere eseguita con funzioni di perdita diverse dalla perdita al quadrato?

La mia interpretazione della polarizzazione quadrata + decomposizione della varianza [e il modo in cui lo insegno] è che questo è l'equivalente statistico del teorema di Pitagora, vale a dire che la distanza al quadrato tra uno stimatore e un punto all'interno di un certo set è la somma della distanza al quadrato tra uno stimatore e l'insieme, più la distanza al quadrato tra la proiezione ortogonale sull'insieme e il punto all'interno dell'insieme. Qualsiasi perdita basata su una distanza con un nPer un determinato set di dati del modello, esiste più di un modello la cui perdita prevista è il minimo su tutti i modelli e, in tal caso, ciò significa che potrebbero esserci diverse combinazioni di distorsione e varianza che producono il stessa perdita minima prevista? otione della proiezione ortogonale, cioè un prodotto interno, ovvero essenzialmente spazi di Hilbert, soddisfa questa decomposizione.

Per un determinato set di dati del modello, esiste più di un modello la cui perdita prevista è il minimo rispetto a tutti i modelli e, in tal caso, ciò significa che potrebbero esserci diverse combinazioni di distorsione e varianza che producono la stessa perdita minima prevista?

La domanda non è chiara: se per minimo sui modelli, intendi allora ci sono molti esempi di modelli statistici e decisioni associate con una costante

min_{θ} E_{θ} [(θ - δ (X_{1 : n}))^{2}]

$\min_\theta \mathbb{E}_\theta[(\theta-\delta(X_{1:n}))^2]$ perdita (o rischio atteso ). Prendi ad esempio l'MLE di una media normale.

Come si può calcolare la distorsione se non si conosce il modello vero?

In senso generico, la distorsione è la distanza tra il modello vero e il modello più vicino all'interno della famiglia di distribuzioni presunta. Se il modello vero è sconosciuto, la distorsione può essere accertata da bootstrap.

Esistono situazioni in cui ha più senso ridurre al minimo la distorsione o la varianza piuttosto che la perdita attesa (la somma della distorsione e della varianza quadrate)?

(θ - E_{θ} [δ (X_{1 : n})])^{2} + α [(E_{θ} [δ (X_{1 : n})] - δ (X_{1 : n}))^{2}] 0 < α

$(\theta-\mathbb{E}_\theta[\delta(X_{1:n})])^2+\alpha[(\mathbb{E}_\theta[\delta(X_{1:n})]-\delta(X_{1:n}))^2]\qquad 0<\alpha$

α

$\alpha$

α

$\alpha$

— Xi'an
fonte

f

$f$

Y = f (X) + ϵ

$Y = f(X) + \epsilon$

ϵ

$\epsilon$

σ_{ϵ}

$\sigma_\epsilon$

f (X)

$f(X)$

E [\hat{f} (X)]

$E[\hat{f}(X)]$

E [(Y - f (X))^{2} | X = x]

$E[(Y-f(X))^2 | X=x]$

σ_{ϵ}^{2} + {Bias}^{2} \hat{f} (x) + Var \hat{f} (x)

$\sigma^2_\epsilon + \operatorname{Bias}^2 \hat{f}(x) + \operatorname{Var} \hat{f}(x)$

\hat{f}

$\hat f$

ϵ

$\epsilon$

Hmm, ovviamente hai ragione. Ma penso che il problema sia un artefatto della mia derivazione sciatta. Controllare p.223 di Hastie & Tibshirani di ESLII

— Miguel

ϵ

$\epsilon$

\hat{f}

$\hat{f}$