Considera la seguente equazione differenziale dove è lo stato e la variabile di controllo. La soluzione è data da dove è lo stato iniziale dato.
Ora considera il seguente programma
Dire che ho risolto il HJB per . Il controllo ottimale è quindi dato da Otterrò traiettorie ottimali per lo stato e il controllo .u ∗ = arg max u [ F ( x , u ) + V ′ ( x ) f ( x , u ) ] . { ( x ∗ ( t ) , u ∗ ( t ) ) : t ∈ [ 0 , ∞ ) }
L' articolo della wiki dice
... ma quando risolto su tutto lo spazio degli stati, l'equazione di HJB è una condizione necessaria e sufficiente per un ottimale.
In Bertsekas (2005) Programmazione dinamica e controllo ottimale , Vol 1, 3a ed., Nella Proposizione 3.2.1 afferma che la soluzione per è la funzione costo-and-go ottimale e che l' associato è ottimale. Tuttavia, lo dichiara esplicitamente come teorema di sufficienza.u ∗
In realtà, voglio solo assicurarmi che se ho risolto l'HJB e recuperato le traiettorie di stato e controllo associate, non devo preoccuparmi di ulteriori condizioni di ottimalità.
Soluzione
Ho tentato
Penso di essere stato in grado di derivare le condizioni necessarie dal principio massimo dall'equazione HJB stessa.
Definisci l'hamiltoniano
allora abbiamo
che è
Definire una funzione arbitraria con . Ora correggi q (x
dove è un parametro. Inserisci il termine nell'hamiltoniano massimizzato che indica ρ V ( x ∗ + ε q ) = H ( x ∗ + ε q , u ∗ , V ′ ( x ∗ + ε q ) ) .
A abbiamo la soluzione ottimale. Quindi differenzia su per ottenere una condizione del primo ordine ε ρ V ′ q = H x q + H V ′ V ″ q .
Ora definisci la variabile aggiunta con
Differenzia nel tempo
e nota che
Collega tutto al foc che dà
È praticamente. Quindi risolvere l'HJB è davvero necessario e sufficiente (omesso qui) per l'ottimalità. Qualcuno dovrebbe aggiungerlo al wiki. Potrebbe risparmiare tempo per le persone che pensano a tali problemi (non sarà molto credo).
Tuttavia, manca la condizione di trasversalità .
II tentativo
Definisci il payoff funzionale
Nota che per definizione di . Aggiungi il termine neutro alla funzione di payoff
L'integrazione per parti del termine corretto con rhs produce
Sostituisci quel termine
Definisci
che dà
FOC per il massimoJ ε = ∫ ∞ 0 e - ρ t [ H x q + H u p + q ( ˙ λ - ρ λ ) ] d t - lim t → ∞ e - ρ t λ ( t ) q
Poiché e non sono vincolati, dobbiamo avere