Oltre alle risposte già pubblicate (che mi sono state molto utili!), C'è una spiegazione geometrica per la connessione tra la norma L2 e la media.
Per usare la stessa notazione di chefwen , la formula per la perdita di L2 è:
L 2 = 1KΣi = 1K( yio- β)2
Desideriamo trovare il valore di che minimizza . Si noti che ciò equivale a minimizzare quanto segue, poiché moltiplicando per e prendendo la radice quadrata entrambi preservano l'ordine:L 2 kβL 2K
Σi = 1K( yio- β)2----------⎷
Se consideri il vettore di dati come un punto nello spazio tridimensionale , questa formula calcola la distanza euclidea tra il punto e il punto .yKyβ⃗ = ( β, β, . . . , β)
Quindi il problema è trovare il valore che minimizza la distanza euclidea tra i punti e . Poiché i possibili valori di giacciono tutti sulla linea parallela a per definizione, questo equivale a trovare la proiezione vettoriale di su .βyβ⃗ β⃗ 1⃗ = ( 1 , 1 , . . . , 1 )y1⃗
È davvero possibile visualizzarlo solo quando , ma ecco un esempio in cui . Come mostrato, proiettando su ottengono come previsto.k=2y=(2,6)1⃗ (4,4)
Per mostrare che questa proiezione produce sempre la media (anche quando ), possiamo applicare la formula per la proiezione :k>2
β⃗ β=proj1⃗ y=y⋅1⃗ |1⃗ |21⃗ =∑ki=1yik