... la perdita attesa [errore al quadrato] può essere scomposta in un termine di bias al quadrato (che descrive quanto distano le previsioni medie dal modello reale), un termine di varianza (che descrive la diffusione delle previsioni attorno alla media), e un termine di rumore (che fornisce il rumore intrinseco dei dati).
Osservando la decomposizione della perdita di errore al quadrato
, non del campione stesso.
Vedo solo due termini: uno per il bias e un altro per la varianza dello stimatore o del predittore, δ ( X 1 : n ) . Non vi è alcun termine di rumore aggiuntivo nella perdita prevista. Come dovrebbe essere poiché la variabilità è la variabilità di δ ( X 1 : n )
Eθ[(θ−δ(X1:n))2]=(θ−Eθ[δ(X1:n)])2+Eθ[(Eθ[δ(X1:n)]−δ(X1:n))2]
δ(X1:n)δ(X1:n)
- La decomposizione della variazione di polarizzazione può essere eseguita con funzioni di perdita diverse dalla perdita al quadrato?
La mia interpretazione della polarizzazione quadrata + decomposizione della varianza [e il modo in cui lo insegno] è che questo è l'equivalente statistico del teorema di Pitagora, vale a dire che la distanza al quadrato tra uno stimatore e un punto all'interno di un certo set è la somma della distanza al quadrato tra uno stimatore e l'insieme, più la distanza al quadrato tra la proiezione ortogonale sull'insieme e il punto all'interno dell'insieme. Qualsiasi perdita basata su una distanza con un nPer un determinato set di dati del modello, esiste più di un modello la cui perdita prevista è il minimo su tutti i modelli e, in tal caso, ciò significa che potrebbero esserci diverse combinazioni di distorsione e varianza che producono il stessa perdita minima prevista? otione della proiezione ortogonale, cioè un prodotto interno, ovvero essenzialmente spazi di Hilbert, soddisfa questa decomposizione.
- Per un determinato set di dati del modello, esiste più di un modello la cui perdita prevista è il minimo rispetto a tutti i modelli e, in tal caso, ciò significa che potrebbero esserci diverse combinazioni di distorsione e varianza che producono la stessa perdita minima prevista?
La domanda non è chiara: se per minimo sui modelli, intendi
allora ci sono molti esempi di modelli statistici e decisioni associate con una costante
minθEθ[(θ−δ(X1:n))2]
perdita (o rischio atteso ). Prendi ad esempio l'MLE di una media normale.
- Come si può calcolare la distorsione se non si conosce il modello vero?
In senso generico, la distorsione è la distanza tra il modello vero e il modello più vicino all'interno della famiglia di distribuzioni presunta. Se il modello vero è sconosciuto, la distorsione può essere accertata da bootstrap.
- Esistono situazioni in cui ha più senso ridurre al minimo la distorsione o la varianza piuttosto che la perdita attesa (la somma della distorsione e della varianza quadrate)?
(θ−Eθ[δ(X1:n)])2+α[(Eθ[δ(X1:n)]−δ(X1:n))2]0<α
αα