Un processo decisionale markoviano ha effettivamente a che fare con il passaggio da uno stato a un altro e viene utilizzato principalmente per la pianificazione e il processo decisionale .
La teoria
Ripetendo rapidamente la teoria, un MDP è:
MDP = ⟨ S, A , T, R , γ⟩
SUNTPr ( s'| s,a)Rγ
Quindi, per usarlo, devi avere predefinito:
- Stati : questi possono riferirsi ad esempio a mappe della griglia in robotica, o ad esempio porta aperta e porta chiusa .
- Azioni : un insieme fisso di azioni, come ad esempio andare a nord, sud, est, ecc. Per un robot o aprire e chiudere una porta.
- Probabilità di transizione : la probabilità di passare da uno stato a un altro dato un'azione. Ad esempio, qual è la probabilità di una porta aperta se l'azione è aperta . In un mondo perfetto il successivo potrebbe essere 1.0, ma se si tratta di un robot, potrebbe non riuscire a gestire correttamente la maniglia della porta. Un altro esempio nel caso di un robot in movimento sarebbe l'azione a nord , che nella maggior parte dei casi lo porterebbe nella cella della griglia a nord di esso, ma in alcuni casi avrebbe potuto spostarsi troppo e raggiungere, ad esempio, la cella successiva.
- Premi : sono usati per guidare la pianificazione. Nel caso dell'esempio della griglia, potremmo voler andare in una determinata cella e la ricompensa sarà più alta se ci avviciniamo. Nel caso dell'esempio della porta, una porta aperta potrebbe dare un'alta ricompensa.
Una volta definito l'MDP, è possibile apprendere una politica eseguendo Iterazione valore o Iterazione politica che calcola la ricompensa prevista per ciascuno degli stati. La politica fornisce quindi a ogni stato la migliore azione (dato il modello MDP) da fare.
In sintesi, un MDP è utile quando si desidera pianificare una sequenza efficiente di azioni in cui le azioni non possono essere sempre efficaci al 100%.
Le tue domande
Può essere usato per predire le cose?
La definirei pianificazione, non prevedere ad esempio una regressione .
Se sì, quali tipi di cose?
Vedi esempi .
Riesce a trovare modelli tra infinite quantità di dati?
| S|
Cosa può fare questo algoritmo per me.
Vedi esempi .
Esempi di applicazioni di MDP
- White, DJ (1993) menziona un ampio elenco di applicazioni:
- Raccolta: quanti membri di una popolazione devono essere lasciati per la riproduzione.
- Agricoltura: quanto piantare in base al tempo e allo stato del suolo.
- Risorse idriche: mantenere il corretto livello dell'acqua nei bacini idrici.
- Ispezione, manutenzione e riparazione: quando sostituire / ispezionare in base all'età, alle condizioni, ecc.
- Acquisto e produzione: quanto produrre in base alla domanda.
- Code: ridurre i tempi di attesa.
- ...
- Finanza: decidere quanto investire in azioni.
- Robotica:
E ci sono molti altri modelli. Un modello ancora più interessante è il processo decisionale markoviano parzialmente osservabile in cui gli stati non sono completamente visibili e, invece, le osservazioni vengono utilizzate per avere un'idea dello stato attuale, ma questo non rientra nell'ambito di questa domanda.
Informazioni aggiuntive
Un processo stocastico è Markoviano (o ha la proprietà Markov) se la distribuzione di probabilità condizionale degli stati futuri dipende solo dallo stato corrente e non da quelli precedenti (cioè non da un elenco di stati precedenti).