Intuizione matematica dell'equazione Bias-Variance


12

Di recente ho posto una domanda alla ricerca di un'interpretazione / intuizione matematica dietro l'equazione elementare relativa alla media e alla varianza del campione: , geometrico o di altro tipo.E[X2]=Var(X)+(E[X])2

Ma ora sono curioso dell'equazione di compromesso di bias-varianza superficialmente simile.

MSE(θ^)=E[(θ^-θ)2]=E[(θ^-E[θ^])2]+(E[θ^]-θ)2=Var(θ^)+pregiudizio(θ^,θ)2
(formule da Wikipedia )

Per me esiste una somiglianza superficiale con l'equazione del compromesso di bias-varianza per la regressione: tre termini con quadrati e due che si aggiungono all'altro. Aspetto molto pitagorico. Esiste una relazione vettoriale simile che include l'ortogonalità per tutti questi elementi? O c'è qualche altra interpretazione matematica correlata che si applica?

Sto cercando un'analogia matematica con alcuni altri oggetti matematici che potrebbero far luce. Non sto cercando l'analogia precisione-precisione che è ben coperta qui. Ma se ci sono analogie non tecniche che le persone possono dare tra il compromesso di bias-varianza e la relazione molto più elementare di media-varianza, sarebbe fantastico.

Risposte:


12

La somiglianza è più che superficiale.

Il "compromesso di bias varianza" può essere interpretato come il teorema di Pitagora applicato a due vettori euclidei perpendicolari: la lunghezza di uno è la deviazione standard e la lunghezza dell'altro è il pregiudizio. La lunghezza dell'ipotenusa è l'errore quadratico medio radice.

Una relazione fondamentale

Come punto di partenza, considera questo calcolo rivelatore, valido per qualsiasi variabile casuale con un secondo momento finito e qualsiasi numero reale a . Poiché il secondo momento è finito, X ha una media finita μ = E ( X ) per cui E ( X - μ ) = 0 , da cuiXun'Xμ=E(X)E(X-μ)=0

(1)E((X-un')2)=E((X-μ+μ-un')2)=E((X-μ)2)+2E(X-μ)(μ-un')+(μ-un')2=Var(X)+(μ-un')2.

Questo dimostra come la deviazione quadrata media tra e qualsiasi valore "iniziale" una varia con un : è una funzione quadratica di una con un minimo a μ , dove la deviazione media quadrata è la varianza di X .Xun'un'un'μX

La connessione con stimatori e distorsioni

Qualsiasi stimatore θ è una variabile casuale perché (per definizione) è una funzione (misurabile) di variabili casuali. Lasciandolo svolgere il ruolo di X nel precedente, e lasciando che l'estimand (la cosa θ si suppone che stima) sia θ , abbiamoθ^Xθ^θ

MSE(θ^)=E((θ^-θ)2)=Var(θ^)+(E(θ^)-θ)2.

Torniamo a ora che abbiamo visto come l'affermazione su bias + varianza per uno stimatore è letteralmente un caso di ( 1 ) . La domanda cerca "analogie matematiche con oggetti matematici". Possiamo fare di più mostrando che le variabili casuali integrabili al quadrato possono essere naturalmente trasformate in uno spazio euclideo.(1)(1)

Sfondo matematico

In un senso molto generale, una variabile casuale è una funzione (misurabile) a valore reale su uno spazio di probabilità . L'insieme di tali funzioni integrabili quadrate, che è spesso scritto L 2 ( Ω ) (con la struttura della probabilità data compresa), è quasi uno spazio di Hilbert. Per trasformarlo in uno, dobbiamo confondere due variabili casuali X e Y che non differiscono realmente in termini di integrazione: cioè, diciamo che X e Y sono equivalenti ogni volta(Ω,S,P)L2(Ω)XYXY

E(|X-Y|2)=Ω|X(ω)-Y(ω)|2dP(ω)=0.

È semplice verificare che questa è una relazione di equivalenza vero: soprattutto, quando è equivalente a Y e Y è equivalente a Z , poi necessariamente X sarà equivalente a Z . Pertanto, possiamo suddividere tutte le variabili casuali integrabili quadrate in classi di equivalenza. Queste classi formano l'insieme L 2 ( Ω ) . Inoltre, L 2 eredita la struttura dello spazio vettoriale di L 2 definita dall'aggiunta puntuale di valori e dalla moltiplicazione scalare puntuale. Su questo spazio vettoriale, la funzioneXYYZXZL2(Ω)L2L2

X(Ω|X(ω)|2dP(ω))1/2=E(|X|2)

è una norma , spesso scritta . Questa norma trasforma L 2 ( Ω ) in uno spazio di Hilbert. Pensa a uno spazio di Hilbert H come a uno "spazio euclideo di dimensione infinita". Qualsiasi sottospazio di dimensione finita V H eredita la norma da H e V , con questa norma, è uno spazio euclideo: possiamo fare la geometria euclidea in esso.||X||2L2(Ω)HVHHV

Infine, abbiamo bisogno di un fatto speciale per gli spazi di probabilità (piuttosto che per gli spazi di misura generali): poiché è una probabilità, è delimitata (da 1 ), da cui le funzioni costanti ω a (per qualsiasi numero reale fisso a ) sono variabili casuali integrabili quadrate con norme finite.P1ωun'un'

Un'interpretazione geometrica

Considera qualsiasi variabile casuale integrabile quadrata , considerata come rappresentativa della sua classe di equivalenza in L 2 ( Ω ) . Ha una media μ = E ( X ) che (come si può verificare) dipende solo dalla classe di equivalenza di X . Sia 1 : ω 1 la classe della variabile casuale costante.XL2(Ω)μ=E(X)X1:ω1

e 1 generano un sottospazio euclideo V L 2 ( Ω ) la cui dimensione è al massimo 2 . In questo sottospazio, | | X | | 2 2 = E ( X 2 ) è la lunghezza quadrata di X e | | un'X1VL2(Ω)2||X||22=E(X2)X è la lunghezza al quadrato della variabile casuale costante ω a . È fondamentale che X - μ 1 sia perpendicolare a 1 . (Una definizione di μ è che è il numero univoco per cui questo è il caso. ) È possibile scrivere larelazione ( 1 )||un'1||22=un'2ωun'X-μ11μ(1)

||X-un'1||22=||X-μ1||22+||(un'-μ)1||22.

È proprio il teorema di Pitagora, essenzialmente nella stessa forma conosciuta 2500 anni fa. L'oggetto è l'ipotenusa di un triangolo rettangolo con le gambe X - μ 1 e ( a - μ ) 1 .

X-un'1=(X-μ1)-(un'-μ)1
X-μ1(un'-μ)1

Se desideri analogie matematiche, puoi usare tutto ciò che può essere espresso in termini di ipotenusa di un triangolo rettangolo in uno spazio euclideo. L'ipotenusa rappresenterà "l'errore" e le gambe rappresenteranno il bias e le deviazioni dalla media.


Eccellente. Quindi il ragionamento è quasi identico a quello della mia domanda precedente riguardo a . Quindi c'è un'analogia tra quelli, giusto? Sembra intuitivamente che il pregiudizio sia analogo al significato. E la generalizzazione è che la media è il 1 ° momento rispetto a 0, ma il bias è rispetto al valore reale di un parametro. Suona bene? Vun'r=EX2-(EX)2
Mitch,

Sì - con la condizione (che è un'intuizione aggiunta dall'interpretazione geometrica) che il modo giusto per misurare queste cose è in termini di quadrati.
whuber

Quindi whuber, ho una domanda correlata. Per ogni apprendimento automatico, ho questi due concetti "se aumentiamo la dimensione del campione, la varianza di uno stimatore asintoticamente imparziale andrà a zero" e "se aumentiamo la complessità del modello, quindi, avremo un basso pregiudizio e una varianza elevata" . Pertanto, posso dire che una maggiore potenza computazionale consente una maggiore complessità che ridurrà la distorsione, ma aumenterà la varianza. Sotto asintotico, tuttavia, questo aumento della varianza sarà compensato.
ARAT,

@Mustafa Fai alcune assunzioni forti. Il primo è che un campione è casuale e (almeno approssimativamente) indipendente , cosa che spesso non accade nelle applicazioni ML. Le conclusioni sull'aumento della complessità del modello non sono generalmente vere, in parte perché "aumentare la complessità" implica che si sta cambiando il modello e che mette in discussione il significato di ciò che lo stimatore sta stimando e in che modo tale stimatore potrebbe essere correlato al suo stimatore . Non ne consegue necessariamente che la crescente complessità del modello abbia effetti generalmente prevedibili su distorsioni o variazioni.
whuber

4

Questo è un modo per pensare visivamente alla precisione e al pregiudizio di varianza. Supponiamo che tu stia guardando un bersaglio e fai molti tiri che sono tutti sparpagliati vicino al centro del bersaglio in modo tale da non avere parzialità. Quindi l'accuratezza è determinata esclusivamente dalla varianza e quando la varianza è piccola, il tiratore è preciso.

Consideriamo ora un caso in cui vi è grande precisione ma grande distorsione. In questo caso i colpi sono sparpagliati in un punto lontano dal centro. Qualcosa sta incasinando il punto di mira, ma attorno a questo punto ogni tiro è vicino a quel nuovo punto. Il tiratore è preciso ma molto impreciso a causa del pregiudizio.

Vi sono altre situazioni in cui gli scatti sono accurati a causa di una leggera distorsione e di un'alta precisione. Ciò che vogliamo non è parzialità e piccola varianza o piccola varianza con una piccola propensione. In alcuni problemi statistici non puoi avere entrambi. Quindi MSE diventa la misura di accuratezza che si desidera utilizzare che gioca con il pregiudizio di varianza e minimizzare MSE dovrebbe essere l'obiettivo.


Eccellente descrizione intuitiva riguardo a bias varianza e precisione e precisione analogia. Sto anche cercando un'interpretazione matematica come il Teorema di Pitagora.
Mitch

1
Non mi sono concentrato su questo perché era coperto da un altro post che parlava dell'interpretazione geometrica. Troverò il link per te.
Michael R. Chernick,

@Mitch La ricerca di "compromesso di bias-varianza" ha prodotto 134 risultati sul sito CV. Non ho ancora trovato il Teorema di Pitagora, ma questo è davvero buono e ha una foto degli obiettivi di cui ho discusso in questo post. "Spiegazione intuitiva del compromesso di bias varianza".
Michael R. Chernick,

X2E[X])2

@Mitch Non avevo capito che hai pubblicato la domanda che stavo cercando.
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.