Markov Decision Processes - 马科夫决策过程

标签： mdp reinforcement learning 发表于：2018-08-29 阅读次数：726

目录

目录
MDP模型元素

MDP模型元素

状态集合S
行为结合A
奖励函数R(s, a)
状态转移矩阵T
- 确定性转移S×A→S
- 概率性转移S×A→Prob(S)
行为策略π：S -> A

在状态ss下的应采取的最佳行为aa:a=π(s)