KKT in breve graficamente


13

Obbiettivo

Conferma se la comprensione di KKT è corretta o meno. Cerca ulteriori spiegazioni e conferme su KKT.

sfondo

Cercare di capire le condizioni di KKT, in particolare quella complementare, che emerge sempre di punto in bianco negli articoli SVM. Non ho bisogno di un elenco di formule astratte ma ho bisogno di una spiegazione concreta, intuitiva e grafica.

Domanda

Se P, che minimizza la funzione di costo f (X), è all'interno del vincolo (g (P)> = 0), è la soluzione. Sembra che KKT non sia rilevante in questo caso.

inserisci qui la descrizione dell'immagine

Sembra che KKT dica se P non è all'interno del vincolo, quindi la soluzione X dovrebbe soddisfare di seguito nella figura. Si tratta di KKT o mi mancano altri aspetti importanti?

inserisci qui la descrizione dell'immagine

Altri chiarimenti

  1. F (x) deve essere convesso per l'applicazione di KKT?
  2. G (x) dovrebbe essere lineare per l'applicazione di KKT?
  3. Λ dovrebbe essere necessario in λ * g (X) = 0? Perché g (X) = 0 o g (Xi) = 0 non è sufficiente?

Riferimenti


Aggiornamento 1

Grazie per le risposte ma ancora fatica a capire. Concentrati sulla necessità solo qui:

La condizione (2) nella risposta di Matthew Gunn sul punto non ottimale (nel cerchio verde) e KKT non sarà soddisfatta lì? E il punto sarebbe identificato guardando Hessian come nella risposta di Mark L. Stone?

Suppongo che un'altra situazione siano i punti di sella, ma lo stesso vale?

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine user23658


1
Questa domanda può attirare più attenzione sul sito di matematica; Le condizioni di KKT non sono necessariamente "statistiche". Gli statistici prendono in prestito questi e altri risultati dall'analisi numerica per risolvere interessanti problemi statistici, ma questa è più una questione di matematica.
user23658

1
(1) Se i vincoli non si legano, il problema di ottimizzazione con i vincoli ha la stessa soluzione del problema di ottimizzazione senza i vincoli. (2) Né devono essere convessi né g devono essere lineari affinché le condizioni di KKT siano necessarie in modo ottimale. (3) Sono necessarie condizioni speciali (ad es. Problema convesso in cui si trova la condizione di Slater) affinché le condizioni KKT siano sufficienti per un ottimale. fg
Matthew Gunn,

2
L'idea di base della condizione di allentamento complementare (cioè dove g ( x ) 0 è un vincolo) è che se il vincolo è lento (cioè g ( x ) < 0 ) alla x ottimale , allora la penalità λ per stringere il vincolo è 0. E se c'è una penalità positiva λ per stringere il vincolo, allora il vincolo deve essere vincolante (cioè g ( x ) = 0λg(x)=0g(x)0g(x)<0xλλg(x)=0). Se il traffico scorre senza intoppi, il pedaggio sul ponte per un'altra auto è zero. E se il pedaggio del ponte λ > 0 , il ponte deve essere al limite di capacità. λλ>0
Matthew Gunn,

1
Il teorema di KKT di base afferma che se le condizioni di KKT non sono soddisfatte in un punto , il punto x non è ottimale. Le condizioni KKT sono necessarie per un ottimale ma non sufficiente. (Ad esempio, se la funzione ha punti di sella, minimi locali ecc ... le condizioni KKT possono essere soddisfatte ma il punto non è ottimale!) Per alcune classi di problemi (ad es. Problema convesso in cui si trova la condizione di Slater), il KKT le condizioni diventano condizioni sufficienti . xx
Matthew Gunn,

Risposte:


8

L'idea di base delle condizioni di KKT come condizioni necessarie per un ottimale è che se non si mantengono in un punto fattibile , allora esiste una direzione δ che migliorerà l'obiettivo f senza aumentare (e quindi possibilmente violare) i vincoli. (Se le condizioni KKT non valgono su x, allora x non può essere ottimale, quindi le condizioni KKT sono necessarie affinché un punto sia ottimale.)xδfxx

Immagina di avere il problema di ottimizzazione:

minimize (over x)f(x)subject toj{1k}gj(x)0

Dove e ci sono vincoli k .xRnk

Condizioni KKT e Farkas Lemma

Sia un vettore di colonna che indica il gradiente di f valutato in x .f(x)fx

Applicato a questa situazione, Farkas Lemma afferma che per ogni punto vale esattamente una delle seguenti affermazioni:xRn

  1. Esiste tale che k j = 1 λ jg j ( x ) = - f ( x ) e λ 0λRkj=1kλjgj(x)=f(x)λ0
  2. Esiste tale che j δ g j ( x ) 0 e δ f ( x ) < 0δRnjδgj(x)0δf(x)<0

Cosa significa questo? Significa che per ogni punto possibile , sia:x

  • La condizione (1) è valida e le condizioni KKT sono soddisfatte.
  • La condizione (2) vale ed esiste una direzione fattibile che migliora la funzione obiettivo f senza aumentare i vincoli g j . (es. puoi migliorare f passando da x a x + ϵ δ )δfgjfxx+ϵδ

La condizione (1) afferma che esistono moltiplicatori non negativi tali che le condizioni KKT sono soddisfatte al punto x . (Dal punto di vista geometrico, dice che - f si trova nel cono convesso definito dai gradienti dei vincoli.)λxf

La condizione (2) afferma che nel punto esiste una direzione δ per spostarsi (localmente) in modo tale che:xδ

  • Spostarsi nella direzione riduce la funzione obiettivo (poiché il prodotto punto di f ( x ) e δ è inferiore a zero).δf(x)δ
  • Spostarsi nella direzione non aumenta il valore dei vincoli (perché il prodotto punto di g j ( x ) e δ è minore o uguale a zero per tutti i vincoli j ).δgj(x)δj

(Geometricamente, la direzione fattibile definisce un iperpiano di separazione tra il vettore - f ( x ) e il cono convesso definito dai vettori g j ( x ) .)δf(x)gj(x)

(Nota: per mappare questo in Farkas Lemma , definire la matrice )A=[g1,g2,,gk]

Questo argomento ti dà la necessità (ma non la sufficienza) delle condizioni KKT in modo ottimale. Se le condizioni KKT non sono soddisfatte (e le qualifiche dei vincoli sono soddisfatte), è possibile migliorare l'obiettivo senza violare i vincoli.

Il ruolo delle qualifiche dei vincoli

Cosa può andare storto? È possibile ottenere situazioni degenerate in cui i gradienti dei vincoli non descrivono accuratamente le direzioni possibili in cui muoversi.

È possibile scegliere tra una moltitudine di qualifiche di vincolo diverse che consentiranno all'argomento di cui sopra di funzionare.

L'interpretazione minima e massima (imho la più intuitiva)

Forma il lagrangiano

L(x,λ)=f(x)+j=1kλjgj(x)

fgjLλi

La soluzione al problema di ottimizzazione originale è equivalente a:

minxmaxλL(x,λ)

Questo è:

  1. xL
  2. λx

g2λ2

Debole dualità

f(x,y)

x^,y^minxf(x,y^)f(x^,y^)maxyf(x^,y)

x^y^

maxyminxf(x,y)minxmaxyf(x,y)

maxλminxL(x,λ)minxmaxλL(x,λ)

maxλminxL(x,λ)

Forte dualità

In determinate condizioni speciali (es. Problema convesso in cui si trova la condizione di Slater), si ha una forte dualità (cioè la proprietà del punto di sella).

maxλminxL(x,λ)=minxmaxλL(x,λ)

Questo bellissimo risultato implica che puoi invertire l'ordine del problema.

  1. λ

  2. xL

λ


Apprezzo le informazioni e i collegamenti per colmare le lacune della comprensione. Mi permetta di confermare. Condizione (1) significa che KKT afferma che un punto X deve essere una soluzione, deve soddisfare λ * g (X) = 0, λ> = 0 e la lunghezza del gradiente di g (X) è λ volte di quella di f (X), altrimenti troveremo il gradiente della direzione dei punti f (X) dove si trova la f (X ') più piccola?
lun

3
La condizione slater è (solo) una qualifica di vincolo che può essere applicata a problemi di ottimizzazione convessa, ovvero rende necessario KKT. La convessità rende KKT sufficiente. Quindi la condizione Slater per il problema dell'ottimizzazione convessa in cui la funzione e i vincoli oggettivi sono convessi e continuamente differenziabili rende KKT necessario e sufficiente per il minimo globale. La condizione più slanciata è che esiste almeno un punto fattibile (cioè soddisfare tutti i vincoli) che si trova all'interno rigoroso di tutti i vincoli non lineari (qualsiasi cosa si accompagna a vincoli lineari, purché fattibili).
Mark L. Stone,

5

f (x) essendo convesso è necessario affinché KKT sia sufficiente affinché x sia il minimo locale. Se f (x) o -g (x) non sono convessi, x KKT soddisfacente potrebbe essere minimo locale, punto di sella o massimo locale.

g (x) essendo lineare, insieme a f (x) essendo continuamente differenziabili è sufficiente per le condizioni di KKT necessarie per il minimo locale. g (x) essendo lineare significa che la qualifica di vincolo di Linearità affinché KKT sia consapevole per il minimo locale è soddisfatta. Tuttavia, ci sono altre qualifiche di vincolo meno restrittive che sono sufficienti affinché le condizioni KKT siano necessarie per il minimo locale. Vedi la sezione Condizioni di regolarità (o qualifiche di vincolo) di https://en.wikipedia.org/wiki/Karush%E2%80%93Kuhn%E2%80%93Tucker_conditions .

Se un minimo locale non ha vincoli "attivi" (quindi nel caso di un solo vincolo di disuguaglianza, tale vincolo non è soddisfatto dell'uguaglianza), i moltiplicatori di Lagrange associati a tali vincoli devono essere zero, nel qual caso KKT si riduce alla condizione che il gradiente dell'obiettivo = 0. In tal caso, non vi è alcun "costo" zero per il valore obiettivo ottimale di un serraggio epsilon del vincolo.

Ulteriori informazioni :

La funzione e i vincoli oggettivi sono convessi e la differenziazione continua implica che KKT è sufficiente per il minimo globale.

Se la funzione e i vincoli oggettivi sono continuamente differenziabili e i vincoli soddisfano una qualifica di vincolo, KKT è necessario per un minimo locale.

Se la funzione e i vincoli oggettivi sono continuamente differenziabili, convessi e vincoli soddisfano una qualifica di vincolo, KKT è necessario e sufficiente per un minimo globale.

ZZTHZHZ

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.