Sto lavorando a un vecchio set di problemi (che purtroppo non ho soluzioni per) e mi sono bloccato. È un modello dinamico di imprenditorialità e invenzione. Sto cercando una guida su questo modello, oltre a riferimenti o documenti che ne parlano. Ecco la modella
Ogni periodo puoi scegliere di avviare un'attività. La scelta nel periodo $ t $ è $ b_t \ in \ {0, 1 \} $, dove $ b_t = 1 $ sta cercando di inventare qualcosa, quindi è un problema di scelta discreta. Hai qualche parametro di abilità $ p $. In ogni periodo che inventi, la tua invenzione `` riesce '' con probabilità $ p $ e ottieni $ v = 1 $. Altrimenti fallisce e ottieni $ v = 0 $.
Se non inventi in un periodo $ t $ lavori e guadagni un po 'di $ w $. La persona ha un'utilità lineare a vita come questa
\ Begin {equation} \ sum_ {t = 0} ^ \ infty \ beta ^ t [b_t I \ {\ text {invenzione riuscita} \} + (1 - b_t) w] \ End {equation}
$ I $ è la funzione di indicatore. Il problema è noi (e l'agente) non sappiamo $ p $ . Sanno solo che è distribuito con a distribuzione beta con i parametri $ a $ e $ b $ e devono informarsi nel tempo. io so come aggiornare il precedente a seconda che l'invenzione abbia successo o meno (se la persona ha scelto di inventare in un periodo $ t $).
Il set di problemi mi chiede di impostare l'equazione di Bellman e usare l'iterazione della funzione valore per risolvere numericamente il problema, ma è lì che mi sono bloccato. Qualcuno può darmi una spinta nella giusta direzione per come iniziare?
L'equazione generale di Bellman è qualcosa del genere
\ Begin {equation} V (b) = \ max_ {b '} (u (b) + \ beta E V (b')) \ End {equation} $ b $ è la scelta dell'agente nel periodo corrente e $ b '$ è la scelta degli agenti nel periodo successivo. Non riesco a capire come incorporare l'aggiornamento bayesiano del precedente nell'aspettativa, tuttavia, poiché il valore del precedente che entra nel periodo $ t $ e quindi il valore del posteriore alla fine di quel periodo dipende dalla storia di invenzioni riuscite o fallite.
Per es. la persona inizia con il precedente su $ p $ come la media della distribuzione beta, che è $ a / (a + b) $, ma se sceglie di inventare nel prossimo periodo e ha successo, il aggiornamenti della distribuzione beta al posteriore che ha significato $ (a + 1) / (a + 1 + b) $ . Eccetera.