La somiglianza è più che superficiale.
Il "compromesso di bias varianza" può essere interpretato come il teorema di Pitagora applicato a due vettori euclidei perpendicolari: la lunghezza di uno è la deviazione standard e la lunghezza dell'altro è il pregiudizio. La lunghezza dell'ipotenusa è l'errore quadratico medio radice.
Una relazione fondamentale
Come punto di partenza, considera questo calcolo rivelatore, valido per qualsiasi variabile casuale con un secondo momento finito e qualsiasi numero reale a . Poiché il secondo momento è finito, X ha una media finita μ = E ( X ) per cui E ( X - μ ) = 0 , da cuiXun'Xμ = E ( X)E (X- μ ) = 0
E ((X- a )2)= E ( ( X- μ+μ - a )2)= E ( ( X- μ )2) + 2 E ( X- μ ) ( μ - a ) + ( μ - a )2= Var( X) + ( μ - a )2.(1)
Questo dimostra come la deviazione quadrata media tra e qualsiasi valore "iniziale" una varia con un : è una funzione quadratica di una con un minimo a μ , dove la deviazione media quadrata è la varianza di X .Xun'un'un'μX
La connessione con stimatori e distorsioni
Qualsiasi stimatore θ è una variabile casuale perché (per definizione) è una funzione (misurabile) di variabili casuali. Lasciandolo svolgere il ruolo di X nel precedente, e lasciando che l'estimand (la cosa θ si suppone che stima) sia θ , abbiamoθ^Xθ^θ
MSE( θ^) = E ( ( θ^- θ )2) = Var( θ^) + ( E ( θ^) - θ )2.
Torniamo a ora che abbiamo visto come l'affermazione su bias + varianza per uno stimatore è letteralmente un caso di ( 1 ) . La domanda cerca "analogie matematiche con oggetti matematici". Possiamo fare di più mostrando che le variabili casuali integrabili al quadrato possono essere naturalmente trasformate in uno spazio euclideo.( 1 )( 1 )
Sfondo matematico
In un senso molto generale, una variabile casuale è una funzione (misurabile) a valore reale su uno spazio di probabilità . L'insieme di tali funzioni integrabili quadrate, che è spesso scritto L 2 ( Ω ) (con la struttura della probabilità data compresa), è quasi uno spazio di Hilbert. Per trasformarlo in uno, dobbiamo confondere due variabili casuali X e Y che non differiscono realmente in termini di integrazione: cioè, diciamo che X e Y sono equivalenti ogni volta( Ω , S , P )L2( Ω )XYXY
E ( | X- Y|2) = ∫Ω| X( ω ) - Y( ω ) |2dP (ω)=0.
È semplice verificare che questa è una relazione di equivalenza vero: soprattutto, quando è equivalente a Y e Y è equivalente a Z , poi necessariamente X sarà equivalente a Z . Pertanto, possiamo suddividere tutte le variabili casuali integrabili quadrate in classi di equivalenza. Queste classi formano l'insieme L 2 ( Ω ) . Inoltre, L 2 eredita la struttura dello spazio vettoriale di L 2 definita dall'aggiunta puntuale di valori e dalla moltiplicazione scalare puntuale. Su questo spazio vettoriale, la funzioneXYYZXZL2( Ω )L2L2
X→ ( ∫Ω| X( ω ) |2dP (ω) )1 / 2= E ( | X|2)------√
è una norma , spesso scritta . Questa norma trasforma L 2 ( Ω ) in uno spazio di Hilbert. Pensa a uno spazio di Hilbert H come a uno "spazio euclideo di dimensione infinita". Qualsiasi sottospazio di dimensione finita V ⊂ H eredita la norma da H e V , con questa norma, è uno spazio euclideo: possiamo fare la geometria euclidea in esso.| | X| |2L2( Ω )HV⊂ HHV
Infine, abbiamo bisogno di un fatto speciale per gli spazi di probabilità (piuttosto che per gli spazi di misura generali): poiché è una probabilità, è delimitata (da 1 ), da cui le funzioni costanti ω → a (per qualsiasi numero reale fisso a ) sono variabili casuali integrabili quadrate con norme finite.P1ω → aun'
Un'interpretazione geometrica
Considera qualsiasi variabile casuale integrabile quadrata , considerata come rappresentativa della sua classe di equivalenza in L 2 ( Ω ) . Ha una media μ = E ( X ) che (come si può verificare) dipende solo dalla classe di equivalenza di X . Sia 1 : ω → 1 la classe della variabile casuale costante.XL2( Ω )μ = E ( X)X1 :ω→1
e 1 generano un sottospazio euclideo V ⊂ L 2 ( Ω ) la cui dimensione è al massimo 2 . In questo sottospazio, | | X | | 2 2 = E ( X 2 ) è la lunghezza quadrata di X e | | un'X1V⊂ L2( Ω )2| | X| |22= E ( X2)X è la lunghezza al quadrato della variabile casuale costante ω → a . È fondamentale che X - μ 1 sia perpendicolare a 1 . (Una definizione di μ è che è il numero univoco per cui questo è il caso. ) È possibile scrivere larelazione ( 1 )| | un'1 | |22= a2ω → aX- μ 11μ( 1 )
| | X- a 1 | |22= | | X- μ 1 | |22+ || (a-μ) 1 | |22.
È proprio il teorema di Pitagora, essenzialmente nella stessa forma conosciuta 2500 anni fa. L'oggetto è l'ipotenusa di un triangolo rettangolo con le gambe X - μ 1 e ( a - μ ) 1 .
X- a 1 = ( X- μ 1 ) - ( a - μ ) 1
X- μ 1( a - μ ) 1
Se desideri analogie matematiche, puoi usare tutto ciò che può essere espresso in termini di ipotenusa di un triangolo rettangolo in uno spazio euclideo. L'ipotenusa rappresenterà "l'errore" e le gambe rappresenteranno il bias e le deviazioni dalla media.