Risolvere l'equazione di Hamilton-Jacobi-Bellman; necessario e sufficiente per l'ottimalità?


13

Considera la seguente equazione differenziale dove è lo stato e la variabile di controllo. La soluzione è data da dove è lo stato iniziale dato.

x˙(t)=f(x(t),u(t))
xu
x(t)=x0+0tf(x(s),u(s))ds.
x0:=x(0)

Ora considera il seguente programma

V(x0):=maxu0eρtF(x(t),u(t))dts.t. x˙(t)=f(x(t),u(t))x(0)=x0
dove ρ>0 indica la preferenza temporale, V() è il valore e F() una funzione oggettiva. Un'applicazione economica classica è il modello Ramsey-Cass-Koopmans di crescita ottimale. L'equazione Hamilton-Jacobi-Bellman è data da
ρV(x)=maxu[F(x,u)+V(x)f(x,u)],t[0,).

Dire che ho risolto il HJB per . Il controllo ottimale è quindi dato da Otterrò traiettorie ottimali per lo stato e il controllo .u = arg max u [ F ( x , u ) + V ( x ) f ( x , u ) ] . { ( x ( t ) , u ( t ) ) : t [ 0 , ) }V

u=argmaxu[F(x,u)+V(x)f(x,u)].
{(x(t),u(t)):t[0,)}

L' articolo della wiki dice

... ma quando risolto su tutto lo spazio degli stati, l'equazione di HJB è una condizione necessaria e sufficiente per un ottimale.

In Bertsekas (2005) Programmazione dinamica e controllo ottimale , Vol 1, 3a ed., Nella Proposizione 3.2.1 afferma che la soluzione per è la funzione costo-and-go ottimale e che l' associato è ottimale. Tuttavia, lo dichiara esplicitamente come teorema di sufficienza.u Vu

In realtà, voglio solo assicurarmi che se ho risolto l'HJB e recuperato le traiettorie di stato e controllo associate, non devo preoccuparmi di ulteriori condizioni di ottimalità.

Soluzione

Ho tentato

Penso di essere stato in grado di derivare le condizioni necessarie dal principio massimo dall'equazione HJB stessa.

Definisci l'hamiltoniano

H(x,u,V(x)):=F(x,u)+V(x)f(x,u)

allora abbiamo

ρV(x)=maxuH(x,u,V(x))

che è

ρV(x)=H(x,u,V(x)).

Definire una funzione arbitraria con . Ora correggi q (q:[0,)Rxq(0)=limtq(t)=0

x=x+εq

dove è un parametro. Inserisci il termine nell'hamiltoniano massimizzato che indica ρ V ( x + ε q ) = H ( x + ε q , u , V ( x + ε q ) ) .εR

ρV(x+εq)=H(x+εq,u,V(x+εq)).

A abbiamo la soluzione ottimale. Quindi differenzia su per ottenere una condizione del primo ordine ε ρ V q = H x q + H V V q .ε=0ε

ρVq=Hxq+HVVq.

Ora definisci la variabile aggiunta con

λ=V(x).

Differenzia nel tempo

λ˙=Vx˙.

e nota che

HV=f(x,u)=x˙.

Collega tutto al foc che dà

ρλ=Hx+λ˙.

È praticamente. Quindi risolvere l'HJB è davvero necessario e sufficiente (omesso qui) per l'ottimalità. Qualcuno dovrebbe aggiungerlo al wiki. Potrebbe risparmiare tempo per le persone che pensano a tali problemi (non sarà molto credo).

Tuttavia, manca la condizione di trasversalità .

limteρtλ(t)=0

II tentativo

Definisci il payoff funzionale

J(u):=0eρtF(x,u)dt

Nota che per definizione di . Aggiungi il termine neutro alla funzione di payoff

0eρtλ[f(x,u)x˙]dt=0
x˙=f(x,u)
J(u)=0eρt[F(x,u)+λf(x,u)]dt0eρtλx˙dt=0eρtH(x,u,λ)0eρtλx˙dt

L'integrazione per parti del termine corretto con rhs produce

0eρtλx˙dt=[eρtλ(t)x(t)]00eρtx(λ˙ρλ)dt

Sostituisci quel termine

J(u)=0eρt[H(x,u,λ)+x(λ˙ρλ)]dtlimteρtλ(t)x(t)+λ(0)x(0)

Definisci

x=x+εqu=u+εp

che dà

J(ε)=0eρt[H(x+εq,u+εp,λ)+(x+εq)(λ˙ρλ)]dtlimteρtλ(t)[x(t)+εq(t)]+λ(0)x(0)

FOC per il massimoJ ε = 0 e - ρ t [ H x q + H u p + q ( ˙ λ - ρ λ ) ] d t - lim t e - ρ t λ ( t ) qJε=0

Jε=0eρt[Hxq+Hup+q(λ˙ρλ)]dtlimteρtλ(t)q(t)=0

Poiché e non sono vincolati, dobbiamo avere qp

Hu=0Hx=ρλλ˙limteρtλ(t)=0

hai già identificato le condizioni necessarie e sufficienti?
Jamzy,

In quale contesto economico emerge?
Stan Shunpike,


1
Penso che questo thread sia più adatto a math.stackexchange.com poiché non è realmente collegato a econ. Una mod può trasferirlo.
clueless

Non sono sicuro di ciò che viene chiesto qui: se per Bertsekas la risoluzione di HJB è sufficiente , non devi "preoccuparti di ulteriori condizioni di ottimalità". Il "solo sufficiente" contro "necessario e sufficiente" sorgerebbe nel caso in cui HJB non fosse risolto, nel qual caso si direbbe "questo non significa che non vi sia soluzione". A proposito, i tuoi tentativi I e II sono contenuti preziosi qui: il primo mostra un collegamento tra HJB e Optimal Control, il secondo mostra come si possono ricavare i FOC di controllo ottimale.
Alecos Papadopoulos,

Risposte:


1

(Questo forse dovrebbe essere considerato un commento.)

Se hai risolto l'equazione di HJB, è sufficiente ottenere la soluzione ottimale. Quindi non "devi preoccuparti di altre condizioni di ottimalità", che credo sembrano rispondere alla tua domanda.

Sembra che tu sia preoccupato per il componente "necessario" del teorema. Il lato della necessità dell'istruzione è il seguente: se esiste una soluzione ottimale, deve esistere una soluzione all'equazione di HJB.

Non ho lavorato con questo particolare problema, ma la risposta in generale è che non ci aspettiamo di avere una funzione differenziabile V. Pertanto non abbiamo una soluzione all'equazione come è affermato. Invece, dobbiamo esaminare i derivati ​​generalizzati e convertire l'equazione di HJB in una disuguaglianza. In tal caso, potresti ottenere una "soluzione di viscosità". Se estendiamo l'uso di derivati ​​generalizzati, potrebbe essere possibile dimostrare che esiste sempre una soluzione del genere. Dando un'occhiata alle tue prove, non ti aiuteranno nelle condizioni di necessità, dato che stai assumendo la differenziabilità.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.