Qual è il significato delle doppie barre e 2 in basso nei minimi quadrati ordinari?

Ho visto questa notazione per i minimi quadrati ordinari qui .

min_{w} {‖ X w - y ‖}_{2}^{2}

$\min_w \left\| Xw - y \right\|^2_2$

Non ho mai visto le doppie barre e le 2 in basso. Cosa significano questi simboli? Hanno una terminologia specifica per loro?

— Aseem Bansal
fonte

L'uso delle doppie barre indica semplicemente che stiamo usando la norma L2.

— Michael R. Chernick,

@MichaelChernick e il 2? Fa parte della "norma L2"?

— Aseem Bansal,

Sì, come L2, c'è anche L1.

— Jon

Penso che

X_{w}

$X_w$ dovrebbe essere

X w

$Xw$ poiché

w

$w$ è un vettore

— ilanman,

@ilanman Sì, questo è ciò che era nella notazione prima della modifica. L'ho cambiato di nuovo

— Aseem Bansal il

Stai parlando della -norm (norma euclidea) del vettore ( ). Se questo ti è estraneo, brevemente, il -norm di un vettore è: $\ell_2$ $Xw - y$ $\ell_p$ $u \in \mathbb{R}^{n}$

‖ u ‖_{p} = (\sum_{i = 1}^{n} | u_{i} |^{p})^{\frac{1}{p}}

$\|u\|_p = \big(\sum_{i=1}^{n} |u_i|^p\big)^{\frac1p}$

Quindi nel tuo caso che è coerente con la somma dei residui quadrati per una regressione lineare. Nel contesto dei problemi di regressione, lo vedrai anche molto nei calcoli dell'errore quadratico medio (MSE) e nella regressione della cresta . $\|u\|_2^2 = (\big(\sum\limits_{i=1}^{n} |u_i|^2\big)^{\frac12})^2 = \sum\limits_{i=1}^{n} u_i^2$

Questa è una norma comune (tra le altre ragioni, è matematicamente conveniente), quindi quando è ovvio dal contesto, vedrai i inferiori omessi e solo . $2$ $\|u\|^2$

Come menzionato nei commenti, potresti anche vedere -norm: $\ell_1$

‖ u ‖_{1} = \sum_{i = 1}^{n} | u_{i} |

$\|u\|_1 = \sum_{i=1}^{n} |u_i|$

Che corrisponde al valore assoluto. Ancora una volta, vedrai questo in errore assoluto medio (MAE) o problemi lazo .

Altre norme popolari:

-norm: distanza di Hamming , o # di non zeri in un vettore, ovvero nel calcolo della sparsità di un vettore. Tecnicamente questa non è una norma (è una funzione di cardinalità), perché nella definizione hai un termine , ma ha la forma di una norma, quindi la chiamiamo una.
- Questa norma è la norma ideale utilizzata nell'indurre la scarsità per i problemi di regressione poiché vogliamo davvero azzerare i coefficienti, tuttavia calcolare la regolarizzazione è NP-difficile, quindi invece la approssimiamo con che è risolvibile tramite la programmazione lineare. È anche popolare nel Sensing compresso . $\ell_0$ $\ell_1$
$\ell_{\infty}$ -norm: = per $\underset{i} {\text{max}}$ $\{|x_i|\}$ $i = 1, ..., n$
$\|A\|_F$ : norma Frobenius (euclidea), applicata a una matrice $A \in \mathbb{R}^{n\times m} = \sqrt{\sum \limits_{i=1}^{n}\sum \limits_{j=1}^{m}|a_{ij}|^2}$

— ilanman
fonte

Il link a wolfram alpha è stato davvero utile.

— Aseem Bansal,

Lei scrive che il (pseudo) norma conta il numero di zeri in un vettore-hai forse dire che il numero di non -Zero voci? (Questo sarebbe più coerente con quello che ho visto, e significherebbe anche che sarebbe la distanza di Hamming tra e , invece di essere meno che distanza.)

ℓ_{0}

$\ell_0$

‖ u ‖_{0}

$\lVert u \rVert_{0}$

u

$u$

0 \in R^{n}

$0 \in \mathbb R^n$

n

$n$

— wchargin

Errore di ortografia: "Frobenius".

— Hobbs

Invece di "questa è una norma comune" avrei appena detto "L2 è la norma";)

— user541686