Esempi di vita reale dei processi decisionali di Markov

Ho visto molti video tutorial e sono uguali. Questo ad esempio: https://www.youtube.com/watch?v=ip4iSMRW5X4

Spiegano stati, azioni e probabilità che vanno bene. La persona lo spiega bene, ma non riesco proprio a capire cosa potrebbe essere utilizzato nella vita reale. Non ho ancora trovato alcun elenco. Quello più comune che vedo sono gli scacchi.

Può essere usato per predire le cose? Se sì, quali tipi di cose? Riesce a trovare modelli tra infiniti quantitativi di dati? Cosa può fare questo algoritmo per me.

Bonus: sembra anche che l'MDP abbia a che fare con il passaggio da uno stato all'altro, è vero?

markov-process

— Karl Morrison
fonte

Un processo decisionale markoviano ha effettivamente a che fare con il passaggio da uno stato a un altro e viene utilizzato principalmente per la pianificazione e il processo decisionale .

La teoria

Ripetendo rapidamente la teoria, un MDP è:

MDP = ⟨ S, A, T, R, γ ⟩

$\text{MDP} = \langle S,A,T,R,\gamma \rangle$

$S$ $A$ $T$ $Pr(s'|s, a)$ $R$ $\gamma$

Quindi, per usarlo, devi avere predefinito:

Stati : questi possono riferirsi ad esempio a mappe della griglia in robotica, o ad esempio porta aperta e porta chiusa .
Azioni : un insieme fisso di azioni, come ad esempio andare a nord, sud, est, ecc. Per un robot o aprire e chiudere una porta.
Probabilità di transizione : la probabilità di passare da uno stato a un altro dato un'azione. Ad esempio, qual è la probabilità di una porta aperta se l'azione è aperta . In un mondo perfetto il successivo potrebbe essere 1.0, ma se si tratta di un robot, potrebbe non riuscire a gestire correttamente la maniglia della porta. Un altro esempio nel caso di un robot in movimento sarebbe l'azione a nord , che nella maggior parte dei casi lo porterebbe nella cella della griglia a nord di esso, ma in alcuni casi avrebbe potuto spostarsi troppo e raggiungere, ad esempio, la cella successiva.
Premi : sono usati per guidare la pianificazione. Nel caso dell'esempio della griglia, potremmo voler andare in una determinata cella e la ricompensa sarà più alta se ci avviciniamo. Nel caso dell'esempio della porta, una porta aperta potrebbe dare un'alta ricompensa.

Una volta definito l'MDP, è possibile apprendere una politica eseguendo Iterazione valore o Iterazione politica che calcola la ricompensa prevista per ciascuno degli stati. La politica fornisce quindi a ogni stato la migliore azione (dato il modello MDP) da fare.

In sintesi, un MDP è utile quando si desidera pianificare una sequenza efficiente di azioni in cui le azioni non possono essere sempre efficaci al 100%.

Le tue domande

Può essere usato per predire le cose?

La definirei pianificazione, non prevedere ad esempio una regressione .

Se sì, quali tipi di cose?

Vedi esempi .

Riesce a trovare modelli tra infinite quantità di dati?

$|S|$

Cosa può fare questo algoritmo per me.

Vedi esempi .

Esempi di applicazioni di MDP

White, DJ (1993) menziona un ampio elenco di applicazioni:
- Raccolta: quanti membri di una popolazione devono essere lasciati per la riproduzione.
- Agricoltura: quanto piantare in base al tempo e allo stato del suolo.
- Risorse idriche: mantenere il corretto livello dell'acqua nei bacini idrici.
- Ispezione, manutenzione e riparazione: quando sostituire / ispezionare in base all'età, alle condizioni, ecc.
- Acquisto e produzione: quanto produrre in base alla domanda.
- Code: ridurre i tempi di attesa.
- ...
Finanza: decidere quanto investire in azioni.
Robotica:

E ci sono molti altri modelli. Un modello ancora più interessante è il processo decisionale markoviano parzialmente osservabile in cui gli stati non sono completamente visibili e, invece, le osservazioni vengono utilizzate per avere un'idea dello stato attuale, ma questo non rientra nell'ambito di questa domanda.

Informazioni aggiuntive

Un processo stocastico è Markoviano (o ha la proprietà Markov) se la distribuzione di probabilità condizionale degli stati futuri dipende solo dallo stato corrente e non da quelli precedenti (cioè non da un elenco di stati precedenti).

— agold
fonte

Questa è probabilmente la risposta più chiara che abbia mai visto su Cross Validated.

— Hidden Markov Model,

Qualche possibilità che tu possa correggere i collegamenti? Alcuni di essi sembrano rotti o obsoleti.

— ComputerScientist,

Quindi, qualsiasi processo che ha il states, actions, transition probabilitiese rewardsdefinite, sarebbe stato definito come Markoviano?

— Suhail Gupta,