Ottimizzazione e apprendimento automatico

13

Volevo sapere quanta parte dell'apprendimento automatico richiede ottimizzazione. Da quello che ho sentito la statistica è un argomento matematico importante per le persone che lavorano con l'apprendimento automatico. Allo stesso modo, quanto è importante che qualcuno che lavora con l'apprendimento automatico apprenda l'ottimizzazione convessa o non convessa?

machine-learning optimization

— Ronald Grayson
fonte

2

"lavorare con l'apprendimento automatico" è un concetto vago: lavorare per sviluppare metodi ML migliori significherà una risposta, lo sviluppo di sistemi ML che utilizzano metodi noti è una cosa completamente diversa.

— Peteris,

28

Il modo in cui lo guardo è che le statistiche / l'apprendimento automatico ti dicono cosa dovresti ottimizzare e l'ottimizzazione è come lo fai realmente.

Ad esempio, si consideri la regressione lineare con dove e . Le statistiche ci dice che questo è (spesso) un modello di buona, ma abbiamo trovato la nostra stima attuale risolvendo un problema di ottimizzazione $Y = X\beta + \varepsilon$ $E(\varepsilon) = 0$ $Var(\varepsilon) = \sigma^2I$ $\hat \beta$

\hat{β} = {argmin}_{B \in R^{p}} | | Y - X B | |^{2} .

$\hat \beta = \textrm{argmin}_{b \in \mathbb R^p} ||Y - Xb||^2.$

Le proprietà di sono noti a noi attraverso le statistiche in modo sappiamo che questo è un buon problema di ottimizzazione da risolvere. In questo caso si tratta di una facile ottimizzazione ma questo mostra ancora il principio generale. $\hat \beta$

Più in generale, gran parte di machine learning può essere visto come risolvere dove sto scrivendo questo senza regolarizzazione ma che potrebbe essere facilmente aggiunto.

\hat{f} = {argmin}_{f \in F} \frac{1}{n} Σ_{io = 1}^{n} L (y_{io}, f (X_{io}))

$\hat f = \textrm{argmin}_{f \in \mathscr F} \frac 1n \sum_{i=1}^n L(y_i, f(x_i))$

Un'enorme quantità di ricerche nella teoria dell'apprendimento statistico (SLT) ha studiato le proprietà di questi argminima, indipendentemente dal fatto che siano asintoticamente ottimali, in che modo si relazionano con la complessità di e molte altre cose del genere. Ma quando si vuole realmente ottenere , spesso si finisce con un'ottimizzazione difficile ed è tutta una serie separata di persone che studiano il problema. Penso che la storia di SVM sia un buon esempio qui. Abbiamo le persone SLT come Vapnik e Cortes (e molte altre) che hanno dimostrato come SVM sia un buon problema di ottimizzazione da risolvere. Ma poi furono altri come John Platt e gli autori di LIBSVM a renderlo possibile nella pratica. $\mathscr F$ $\hat f$

Per rispondere alla tua domanda esatta, conoscere qualche ottimizzazione è sicuramente utile, ma generalmente nessuno è un esperto in tutte queste aree, quindi impari il più possibile, ma alcuni aspetti saranno sempre una sorta di scatola nera per te. Forse non hai studiato correttamente i risultati SLT alla base del tuo algoritmo ML preferito, o forse non conosci il funzionamento interno dell'ottimizzatore che stai utilizzando. È un viaggio che dura tutta la vita.

— JLD
fonte

3

Vale la pena menzionare esplicitamente en.wikipedia.org/wiki/Empirical_risk_minimization

— Emre

13

In pratica, molti pacchetti si occupano dell'ottimizzazione e della maggior parte dei dettagli matematici per te. Ad esempio, TensorFlow può eseguire backprop + discesa gradiente stocastica per allenare automaticamente le reti neurali (devi solo specificare il tasso di apprendimento). Gli strumenti ML di scikit-learn generalmente non richiedono che tu sappia effettivamente cose su come si verifica effettivamente l'ottimizzazione, ma forse imposti solo alcuni parametri di ottimizzazione e si occuperà del resto (ad esempio il numero di iterazioni per cui l'ottimizzatore esegue). Ad esempio, puoi addestrare un SVM senza conoscere la matematica in scikit-learn: basta inserire i dati, il tipo di kernel e andare avanti.

Detto questo, conoscere l'ottimizzazione di base (ad esempio a livello di ottimizzazione convessa di Boyd e Vandenberghe / programmazione non lineare di Bertsekas) può essere utile nella progettazione e analisi di algoritmi / problemi, specialmente se si sta lavorando su argomenti teorici. Oppure implementando tu stesso gli algoritmi di ottimizzazione.

Si noti che i metodi di ottimizzazione dei libri di testo hanno spesso bisogno di modifiche per funzionare effettivamente in contesti moderni; ad esempio, potresti non utilizzare la classica discesa gradiente stocastica di Robbins-Munroe, ma una variante con accelerazione più rapida. Tuttavia, è possibile ottenere alcuni approfondimenti lavorando con i problemi di ottimizzazione.

— Batman
fonte