"Deep Noether's Theorem": Costruire nei vincoli di simmetria

Se ho un problema di apprendimento che dovrebbe avere una simmetria intrinseca, c'è un modo per sottoporre il mio problema di apprendimento a un vincolo di simmetria per migliorare l'apprendimento?

Ad esempio, se sto facendo il riconoscimento delle immagini, potrei desiderare la simmetria rotazionale 2D. Ciò significa che la versione ruotata di un'immagine dovrebbe ottenere lo stesso risultato dell'originale.

O se sto imparando a giocare a tic-tac-toe, la rotazione di 90 gradi dovrebbe produrre lo stesso gioco.

Qualche ricerca è stata fatta su questo?

machine-learning

— aidan.plenert.macdonald
fonte

Si Alcuni; ad esempio, Reti convoluzionali equivalenti di gruppo ( codice ), Reti armoniche: traduzione profonda e equivalenza di rotazione , Reti equivarianti a rotazione profonda , Sfruttare la simmetria ciclica in reti neurali convoluzionali ecc. Non si vede ancora molto allo stato brado.

— Emre,

@Emre Thanks! Conosci qualche lavoro fuori dalla CNN?

— aidan.plenert.macdonald

No, ho solo una conoscenza superficiale di questa nicchia. Tuttavia, le CNN sembrano un ambiente naturale ...

— Emre,

Vorrei anche menzionare la tesi di dottorato di Risi Kondor, Metodi teorici di gruppo nell'apprendimento automatico (pdf)

— Emre,

Dal commento di Emre sopra, la Sezione 4.4 dei metodi teorici di Gruppo nell'apprendimento automatico di Risi Kondor contiene informazioni dettagliate e prove sulla creazione di metodi del kernel che hanno intrinsecamente simmetrie. Lo riassumerò in un modo speranzosamente intuitivo (sono un fisico, non un matematico!).

La maggior parte degli algoritmi ML ha una moltiplicazione matriciale come,

\begin{aligned} s_{i} & = \sum_{j} W_{i j} x_{j} \\ = \sum_{j} W_{i j} ({\vec{e}}_{j} \cdot \vec{x}) \end{aligned}

$\begin{align} s_i &= \sum_j W_{ij}~x_j \\ &= \sum_j W_{ij}~(\vec{e}_j \cdot \vec{x}) \end{align}$ con

\vec{x}

$\vec{x}$ essendo l'input e

W_{i j}

$W_{ij}$ essendo i pesi che desideriamo allenare.

Metodo del kernel

Inserisci il regno dei metodi del kernel e lascia che l'algoritmo gestisca l'input tramite,

\begin{aligned} s_{i} & = \sum_{j} W_{i j} k (e_{j}, x) \end{aligned}

$\begin{align} s_i &= \sum_j W_{ij}~k(e_j,~x) \end{align}$ dove ora generalizziamo

x, e_{j} \in X

$x, e_j \in \mathcal{X}$ .

Prendi in considerazione un gruppo $G$ che agisce $\mathcal{X}$ attraverso $x \rightarrow T_g(x)$ per $g \in G$ . Un modo semplice per rendere invariante il nostro algoritmo in questo gruppo è creare un kernel,

\begin{aligned} k^{G} (x, y) & = \frac{1}{| G |} \sum_{g \in G} k (x, T_{g} (y)) \end{aligned}

$\begin{align} k^G(x, y) &= \frac{1}{|G|} \sum_{g \in G} k(x, T_g(y)) \end{align}$ con

k (x, y) = k (T_{g} (x), T_{g} (y))

$k(x, y) = k(T_g(x), T_g(y))$ .

Così,

\begin{aligned} k^{G} (x, T_{h} (y)) & = \frac{1}{| G |} \sum_{g \in G} k (x, T_{g h} (y)) \\ = \frac{1}{| G |} \sum_{g \in G} k (x, T_{g} (y)) \\ = \frac{1}{| G |} \sum_{g \in G} k (T_{g} (x), y) \end{aligned}

$\begin{align} k^G(x, T_h(y)) &= \frac{1}{|G|} \sum_{g \in G} k(x, T_{gh}(y)) \\ &= \frac{1}{|G|} \sum_{g \in G} k(x, T_{g}(y)) \\ &= \frac{1}{|G|} \sum_{g \in G} k(T_{g}(x), y) \end{align}$

Per $k(x, y) = x \cdot y$ che funziona per tutte le rappresentazioni unitarie,

\begin{aligned} k^{G} (x, T_{h} (y)) & = [\frac{1}{| G |} \sum_{g \in G} T_{g} (x)] \cdot y \end{aligned}

$\begin{align} k^G(x, T_h(y)) &= \left[ \frac{1}{|G|} \sum_{g \in G} T_{g}(x) \right] \cdot y \end{align}$

Che offre una matrice di trasformazione che può simmetrizzare l'input nell'algoritmo.

SO (2) Esempio

In realtà solo il gruppo a cui è associato $\frac{\pi}{2}$ rotazioni per semplicità.

Eseguiamo la regressione lineare sui dati $(\vec{x}_i, y_i) \in \mathbb{R}^2 \times \mathbb{R}$ dove ci aspettiamo una simmetria rotazionale.

Il nostro problema di ottimizzazione diventa,

\begin{aligned} min_{W_{j}} & \sum_{i} \frac{1}{2} (y_{i} - {\tilde{y}}_{i})^{2} \\ {\tilde{y}}_{i} & = \sum_{j} W_{j} k_{G} (e_{j}, x_{i}) + b_{i} \end{aligned}

$\begin{align} \min_{W_{j}} &\sum_i \frac{1}{2} (y_i - \tilde{y}_i)^2 \\ \tilde{y}_i &= \sum_j W_{j} k_G(e_j, x_i) + b_i \end{align}$

Il nocciolo $k(x, y) = \| x - y \|^2$ soddisfa . Puoi anche usare e una varietà di kernel. $k(x, y) = k(T_g(x), T_g(y))$ $k(x, y) = x \cdot y$

Pertanto,

\begin{aligned} k_{G} (e_{j}, x_{i}) & = \frac{1}{4} \sum_{n = 1}^{4} ‖ R (n π / 2) {\vec{e}}_{j} - {\vec{x}}_{i} ‖^{2} \\ = \frac{1}{4} \sum_{n = 1}^{4} (\cos (n π / 2) - {\vec{x}}_{i 1})^{2} + (\sin (n π / 2) - {\vec{x}}_{i 2})^{2} \\ = \frac{1}{4} [2 {\vec{x}}_{i 1}^{2} + 2 {\vec{x}}_{i 2}^{2} + (1 - {\vec{x}}_{i 1})^{2} + (1 - {\vec{x}}_{i 2})^{2} + (1 + {\vec{x}}_{i 1})^{2} + (1 + {\vec{x}}_{i 2})^{2}] \\ = {\vec{x}}_{i 1}^{2} + {\vec{x}}_{i 2}^{2} + 1 \end{aligned}

$\begin{align} k_G(e_j, x_i) &= \frac{1}{4} \sum_{n=1}^4 \| R(n\pi/2)~\vec{e}_j - \vec{x}_i \|^2 \\ &= \frac{1}{4} \sum_{n=1}^4 ( \cos(n\pi/2) - \vec{x}_{i1} )^2 + ( \sin(n\pi/2) - \vec{x}_{i2} )^2 \\ &= \frac{1}{4} \left[ 2 \vec{x}_{i1}^2 + 2 \vec{x}_{i2}^2 + (1 - \vec{x}_{i1} )^2 + (1 - \vec{x}_{i2} )^2 + (1 + \vec{x}_{i1} )^2 + (1 + \vec{x}_{i2} )^2 \right] \\ &= \vec{x}_{i1}^2 + \vec{x}_{i2}^2 + 1 \end{align}$

Nota che non è necessario riassumere perché è lo stesso per entrambi. Quindi il nostro problema diventa, $j$

\begin{aligned} min_{W} & \sum_{i} \frac{1}{2} (y_{i} - {\tilde{y}}_{i})^{2} \\ {\tilde{y}}_{i} & = W [{\vec{x}}_{i 1}^{2} + {\vec{x}}_{i 2}^{2} + 1] + b_{i} \end{aligned}

$\begin{align} \min_{W} &\sum_i \frac{1}{2} (y_i - \tilde{y}_i)^2 \\ \tilde{y}_i &= W \left[ \vec{x}_{i1}^2 + \vec{x}_{i2}^2 + 1 \right] + b_i \end{align}$

Il che produce la simmetria sferica attesa!

Tic-Tac-Toe

Codice di esempio può essere visto qui . Mostra come possiamo creare una matrice che codifichi la simmetria e la utilizzi. Nota che questo è davvero un male quando lo eseguo davvero! Lavorare con altri kernel al momento.

— aidan.plenert.macdonald
fonte

Bel lavoro, Aidan! Se hai tempo, puoi scrivere un post sul blog più dettagliato. La comunità sarà più interessata.

— Emre,

Non sono sicuro di quale comunità ti riferisca, ma ho iniziato a scrivere di più. Volevo trovare un modo per stimare il kernel ottimale dato un set di dati. Così ho ottimizzato l'entropia nello spazio del kernel per ottenere in modo intuitivo un nuovo set di funzionalità che sono simmetricamente vincolate e anche al massimo entropiche (cioè informative). Ora che sia l'approccio giusto. Non posso dire. Solo un avvertimento, la matematica è un po 'un lavoro di hacking in questo momento e un po' uscito da Stat Mech. overleaf.com/read/kdfzdbyhpbbq

— aidan.plenert.macdonald

Esiste un approccio significativo quando il gruppo di simmetria non è noto?

— Leitasat,

@leitasat Come fai a sapere che è simmetrico se non conosci il gruppo?

— aidan.plenert.macdonald,

@ aidan.plenert.macdonald dai dati. Diciamo che abbiamo 1000 serie da 100 immagini ciascuna, e all'interno di ogni serie ci sono immagini di un oggetto da diversi punti di vista. Può un algoritmo "imparare l'idea" della simmetria SO (3) e usarla su oggetti mai visti prima?

— Leitasat,

Si scopre che questo è solo lo studio della teoria invariante applicata all'apprendimento automatico

— aidan.plenert.macdonald
fonte