I vantaggi di affrontare un problema formulando una funzione di costo globalmente ottimizzabile


9

Questa è una domanda piuttosto generale (cioè non necessariamente specifica per la statistica), ma ho notato una tendenza nell'apprendimento automatico e nella letteratura statistica in cui gli autori preferiscono seguire il seguente approccio:

Approccio 1 : ottenere una soluzione a un problema pratico formulando una funzione di costo per la quale è possibile (ad esempio dal punto di vista computazionale) trovare una soluzione globale ottimale (ad esempio formulando una funzione di costo convesso).

piuttosto che:

Approccio 2 : ottenere una soluzione allo stesso problema formulando una funzione di costo per la quale potremmo non essere in grado di ottenere una soluzione ottimale a livello globale (ad esempio, possiamo ottenere solo una soluzione localmente ottimale per essa).

Si noti che rigorosamente parlando i due problemi sono diversi; l'ipotesi è che possiamo trovare la soluzione globalmente ottimale per la prima, ma non per la seconda.

Altre considerazioni a parte (ovvero velocità, facilità di implementazione, ecc.), Sto cercando:

  1. Una spiegazione di questa tendenza (ad esempio argomenti matematici o storici)
  2. Vantaggi (pratici e / o teorici) per seguire l'approccio 1 anziché 2 quando si risolve un problema pratico.

Risposte:


3

Ritengo che l'obiettivo dovrebbe essere quello di ottimizzare la funzione che ti interessa. Se questo è il numero di classificazioni errate - e non una probabilità binomiale, diciamo - allora dovresti provare a ridurre al minimo il numero di classificazioni errate. Tuttavia, per il numero di ragioni pratiche menzionate (velocità, attuazione, instabilità ecc.), Questo potrebbe non essere così facile e potrebbe anche essere impossibile. In tal caso, scegliamo di approssimare la soluzione.

Conosco sostanzialmente due strategie di approssimazione; o elaboriamo algoritmi che tentano di approssimare direttamente la soluzione del problema originale, oppure riformuliamo il problema originale come un problema più direttamente risolvibile (ad esempio rilassamenti convessi).

Un argomento matematico per preferire un approccio rispetto all'altro è se possiamo capire a) le proprietà della soluzione effettivamente calcolata eb) quanto bene la soluzione approssima la soluzione del problema a cui siamo effettivamente interessati.

Conosco molti risultati nelle statistiche in cui possiamo dimostrare le proprietà di una soluzione a un problema di ottimizzazione. A me sembra più difficile analizzare la soluzione di un algoritmo, in cui non hai una formulazione matematica di ciò che calcola (ad esempio, che risolve un determinato problema di ottimizzazione). Certamente non pretenderò che non puoi, ma sembra essere un vantaggio teorico , se riesci a dare una chiara formulazione matematica di ciò che calcoli.

Non mi è chiaro se tali argomenti matematici apportino vantaggi pratici all'approccio 1 rispetto all'approccio 2. Esistono certamente persone là fuori che non hanno paura di una funzione di perdita non convessa .


Grazie per il riferimento al discorso di Yann LeCun. Non vedo l'ora di vederlo.
Amelio Vazquez-Reina

1

@NRH ha fornito una risposta a questa domanda (oltre 5 anni fa), quindi offrirò solo un Approccio 3, che combina gli Approcci 1 e 2.

Approccio 3 :

  1. Formulare e risolvere all'ottimalità globale un problema convesso o comunque ottimizzabile a livello globale (non necessariamente convesso), che è "vicino" al problema che si desidera veramente risolvere.
  2. Utilizzare la soluzione globalmente ottimale dal passaggio 1 come soluzione iniziale (iniziale) a un problema di ottimizzazione non convesso che si desidera veramente risolvere (o che si desidera risolvere più del problema risolto nel passaggio 1). Spero che la tua soluzione di partenza sia nella "regione di attrazione" per l'ottimale globale rispetto al metodo di soluzione impiegato per risolvere il problema di ottimizzazione non convessa che vuoi veramente risolvere.

Fornisci un esempio concreto.
horaceT

Non è esattamente il caso di Mark, ma un approccio comune in molti problemi di visione artificiale è di usare la non convessità graduata per ottenere una sequenza di "buoni" optima locali sui problemi correlati. Un esempio concreto è il flusso ottico da grossolano a fine in cui per una coppia di immagini, viene utilizzato un allineamento su larga scala per seminare la ricerca su scale più fini, spostandosi attraverso una coppia di piramidi di immagini .
GeoMatt22

yun'eBXyun'un'+BBXun'=eun'un'optiomun'l,B=BBoptiomun'lcome valori iniziali per i minimi quadrati non lineari. I problemi sono simili, ma gli errori vengono trattati in modo diverso. Esistono molti problemi in cui si desidera una penalità non convessa (per il passaggio 2), ma potrebbe essere sostituita con una penalità convessa per il passaggio 1. Sono anche possibili più iterazioni.
Mark L. Stone,

@ GeoMatt22 Quello che hai descritto è simile nello spirito e si sovrappone a quelli che sono chiamati metodi di omotopia, in cui viene tracciato un percorso per la soluzione del problema che vuoi veramente risolvere risolvendo una serie di problemi in cui un parametro, come un vincolo vincolato viene gradualmente modificato e risolti i problemi successivi, per i quali il primo problema è facile da risolvere da zero. In effetti, il primo problema potrebbe essere convesso o comunque suscettibile di soluzione, ma i problemi successivi potrebbero non esserlo, anche se la loro soluzione ottimale potrebbe essere continua nel parametro.
Mark L. Stone,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.