Toggle navigation
远鸿博客
首页
最新
标签
投稿
轻览
搜索
Markov Decision Processes - 马科夫决策过程
标签:
mdp
 
reinforcement learning
 
发表于:2018-08-29
阅读次数:726
目录
目录
MDP模型元素
MDP模型元素
状态集合S
行为结合A
奖励函数R(s, a)
状态转移矩阵T
确定性转移S×A→S
概率性转移S×A→Prob(S)
行为策略π:S -> A
在状态ss下的应采取的最佳行为aa:a=π(s)
博文推荐
1
PID控制器
2
旋转数组的最小数字
3
推荐系统中的召回算法
4
OCPC
5
Facebook AEO
6
DPA广告
7
动态规划
8
tensorflow 性能调优 timeline
9
模型的可训练性
10
近线召回
11
RIG(相对信息增益)
12
Hinge Loss
13
设计模式——建造者(Builder)模式
14
MLE - 最大似然估计
15
聚类和矩阵分解
16
批处理和流处理
17
实验分析
18
kubernetes架构介绍
19
Learning to Rank
20
搜索引擎