描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 是国际标准书号ISBN: 28515502
《强化学习》
系统梳理强化学习的相关理论和知识
《统计强化学习:现代机器学习方法》
日本人工智能领域知名学者杉山将教授所著,学习和研究强化学习技术的重要参考书籍。
《强化学习》
本书共有19章,分为六大部分,详细介绍了强化学习中各领域的基本理论和新进展,内容包括:MDP、动态规划、蒙特卡罗方法、批处理强化学习、TD学习、Q学习、策略迭代的小二乘法、迁移学习、贝叶斯强化学习、、一阶逻辑MDP、层次式强化学习、演化计算、预测性定义状态表示、去中心化的部分可观察MDP、博弈论和多学习器强化学习等内容,并阐述强化学习与心理和神经科学、游戏领域、机器人领域的关系和应用,后提出未来发展趋势及研究热点问题,有助于年轻的研究者了解整个强化学习领域,发现新的研究方向。本书适合作为高等院校机器学习相关课程的参考书,也可作为人工智能领域从业技术人员的参考用书。
《统计强化学习:现代机器学习方法》
本书从现代机器学习的视角介绍了统计强化学习的基本概念和实用算法。它涵盖了各种类型的强化学习方法,包括基于模型的方法和与模型无关的方法,策略迭代和策略搜索方法。
《强化学习》
译者序
序言
前言
作者清单
第一部分 绪论
第1章 强化学习和马尔可夫决策过程 2
1.1 简介 2
1.2 时序决策 3
1.2.1 接近时序决策 4
1.2.2 在线学习与离线学习 4
1.2.3 贡献分配 5
1.2.4 探索–运用的平衡 5
1.2.5 反馈、目标和性能 5
1.2.6 表达 6
1.3 正式的框架 6
1.3.1 马尔可夫决策过程 7
1.3.2 策略 9
1.3.3 最优准则和减量 9
1.4 价值函数和贝尔曼方程 10
1.5 求解马尔可夫决策过程 12
1.6 动态规划:基于模型的解决方案 13
1.6.1 基本的动态规划算法 13
1.6.2 高效的动态规划算法 17
1.7 强化学习:无模型的解决方案 19
1.7.1 时序差分学习 20
1.7.2 蒙特卡罗方法 23
1.7.3 高效的探索和价值更新 24
1.8 总结 27
参考文献 27
第二部分 高效的解决方案框架
第2章 批处理强化学习 32
2.1 简介 32
2.2 批处理强化学习问题 33
2.2.1 批处理学习问题 33
2.2.2 增长批处理学习问题 34
2.3 批处理强化学习算法的基础 34
2.4 批处理强化学习算法 37
2.4.1 基于核的近似动态规划 37
2.4.2 拟合Q迭代 39
2.4.3 基于最小二乘的策略迭代 40
2.4.4 识别批处理算法 41
2.5 批处理强化学习理论 42
2.6 批处理强化学习的实现 43
2.6.1 神经拟合Q迭代 44
2.6.2 控制应用中的神经拟合Q迭代算法 45
2.6.3 面向多学习器的批处理强化学习 46
2.6.4 深度拟合Q迭代 48
2.6.5 应用/发展趋势 49
2.7 总结 50
参考文献 50
第3章 策略迭代的最小二乘法 53
3.1 简介 53
3.2 预备知识:经典策略迭代算法 54
3.3 近似策略评估的最小二乘法 55
3.3.1 主要原则和分类 55
3.3.2 线性情况下和矩阵形式的方程 57
3.3.3 无模型算法的实现 60
3.3.4 参考文献 62
3.4 策略迭代的在线最小二乘法 63
3.5 例子:car-on-the-hill 64
3.6 性能保障 66
3.6.1 渐近收敛性和保证 66
3.6.2 有限样本的保证 68
3.7 延伸阅读 73
参考文献 74
第4章 学习和使用模型 78
4.1 简介 78
4.2 什么是模型 79
4.3 规划 80
4.4 联合模型和规划 82
4.5 样本复杂度 84
4.6 分解域 86
4.7 探索 88
4.8 连续域 91
4.9 实证比较 93
4.10 扩展 95
4.11 总结 96
参考文献 97
第5章 强化学习中的迁移:框架和概观 101
5.1 简介 101
5.2 强化学习迁移的框架和分类 102
5.2.1 迁移框架 102
5.2.2 分类 104
5.3 固定状态–动作空间中从源到目标迁移的方法 108
5.3.1 问题形式化 108
5.3.2 表示迁移 109
5.3.3 参数迁移 110
5.4 固定状态–动作空间中跨多任务迁移的方法 111
5.4.1 问题形式化 111
5.4.2 实例迁移 111
5.4.3 表示迁移 112
5.4.4 参数迁移 113
5.5 不同状态–动作空间中从源到目标任务迁移的方法 114
5.5.1 问题形式化 114
5.5.2 实例迁移 115
5.5.3 表示迁移 115
5.5.4 参数迁移 116
5.6 总结和开放性问题 116
参考文献 117
第6章 探索的样本复杂度边界 122
6.1 简介 122
6.2 预备知识 123
6.3 形式化探索效率 124
6.3.1 探索的样本复杂度和PAC-MDP 124
6.3.2 遗憾最小化 125
6.3.3 平均损失 127
6.3.4 贝叶斯框架 127
6.4 通用PAC-MDP定理 128
6.5 基于模型的方法 130
6.5.1 Rmax 130
6.5.2 Rmax的泛化 132
6.6 无模型方法 138
6.7 总结 141
参考文献 141
第三部分 建设性的表征方向
第7章 连续状态和动作空间中的强化学习 146
7.1 简介 146
7.1.1 连续域中的马尔可夫决策过程 147
7.1.2 求解连续MDP的方法 148
7.2 函数逼近 149
7.2.1 线性函数逼近 150
7.2.2 非线性函数逼近 153
7.2.3 更新参数 154
7.3 近似强化学习 157
7.3.1 数值逼近 157
7.3.2 策略逼近 162
7.4 双极车杆实验 168
7.5 总结 171
参考文献 171
第8章 综述:求解一阶逻辑马尔可夫决策过程 179
8.1 关系世界中的顺序决策简介 179
8.1.1 马尔可夫决策过程:代表性和可扩展性 180
8.1.2 简短的历史和与其他领域的联系 181
8.2 用面向对象和关系扩展马尔可夫决策过程 183
8.2.1 关系表示与逻辑归纳 183
8.2.2 关系型马尔可夫决策过程 184
8.2.3 抽象问题和求解 184
8.3 基于模型的解决方案 186
8.3.1 贝尔曼备份的结构 186
8.3.2 确切的基于模型的算法 187
8.3.3 基于近似模型的算法 190
8.4 无模型的解决方案 192
8.4.1 固定泛化的价值函数学习 192
8.4.2 带自适应泛化的价值函数 193
8.4.3 基于策略的求解技巧 196
8.5 模型、层级、偏置 198
8.6 现在的发展 201
8.7 总结和展望 203
参考文献 204
第9章 层次式技术 213
9.1 简介 213
9.2 背景 215
9.2.1 抽象动作 215
9.2.2 半马尔可夫决策问题 216
9.2.3 结构 217
9.2.4 状态抽象 218
9.2.5 价值函数分解 219
9.2.6 优化 220
9.3 层次式强化学习技术 220
9.3.1 选项 221
9.3.2 HAMQ学习 222
9.3.3 MAXQ 223
9.4 学习结构 226
9.5 相关工作和当前研究 228
9.6 总结 230
参考文献 230
第10章 针对强化学习的演化计算 235
10.1 简介 235
10.2 神经演化 237
10.3 TWEANN 239
10.3.1 挑战 239
10.3.2 NEAT 240
10.4 混合方法 241
10.4.1 演化函数近似 242
10.4.2 XCS 243
10.5 协同演化 245
10.5.1 合作式协同演化 245
10.5.2 竞争式协同演化 246
10.6 生成和发展系统 247
10.7 在线方法 249
10.7.1 基于模型的技术 249
10.7.2 在线演化计算 250
10.8 总结 251
参考文献 251
第四部分 概率模型
第11章 贝叶斯强化学习 260
11.1 简介 260
11.2 无模型贝叶斯强化学习 261
11.2.1 基于价值函数的算法 261
11.2.2 策略梯度算法 264
11.2.3 演员–评论家算法 266
11.3 基于模型的贝叶斯强化学习 268
11.3.1 由POMDP表述的贝叶斯强化学习 268
11.3.2 通过动态规划的贝叶斯强化学习 269
11.3.3 近似在线算法 271
11.3.4 贝叶斯多任务强化学习 272
11.3.5 集成先验知识 273
11.4 有限样本分析和复杂度问题 274
11.5 总结和讨论 275
参考文献 275
第12章 部分可观察的马尔可夫决策过程 279
12.1 简介 279
12.2 部分可观察环境中的决策 280
12.2.1 POMDP模型 280
12.2.2 连续和结构化的表达 281
12.2.3 优化决策记忆 282
12.2.4 策略和价值函数 284
12.3 基于模型的技术 285
12.3.1 基于MDP的启发式解决方案 285
12.3.2 POMDP的值迭代 286
12.3.3 确切的值迭代 288
12.3.4 基于点的值迭代方法 290
12.3.5 其他近似求解方法 291
12.4 无先验模型的决策 292
12.4.1 无记忆技术 292
12.4.2 学习内部记忆 292
12.5 近期研究趋势 294
参考文献 295
第13章 预测性定义状态表示 300
13.1 简介 300
13.1.1 状态是什么 301
13.1.2 哪一个状态表示 301
13.1.3 为什么使用预测性定义模型 302
13.2 PSR 303
13.2.1 历史及测试 303
13.2.2 测试的预测 304
13.2.3 系统动态向量 304
13.2.4 系统动态矩阵 305
13.2.5 充分的数据集 305
13.2.6 状态 306
13.2.7 更新状态 306
13.2.8 线性PSR 307
13.2.9 线性PSR与POMDP的关联 307
13.2.10 线性PSR的理论结果 308
13.3 PSR模型学习 308
13.3.1 发现问题 308
13.3.2 学习问题 309
13.3.3 估计系统动态矩阵 309
13.4 规划与PSR 309
13.5 PSR的扩展 310
13.6 其他具有预测性定义状态的模型 311
13.6.1 可观测算子模型 311
13.6.2 预测线性高斯模型 312
13.6.3 时序差分网络 312
13.6.4 分集自动机 312
13.6.5 指数族PSR 313
13.6.6 转换PSR 313
13.7 总结 313
参考文献 314
第14章 博弈论和多学习器强化学习 317
14.1 简介 317
14.2 重复博弈 319
14.2.1 博弈论 319
14.2.2 重复博弈中的强化学习 322
14.3 顺序博弈 325
14.3.1 马尔可夫博弈 326
14.3.2 马尔可夫博弈中的强化学习 327
14.4 在多学习器系统中的稀疏交互 330
14.4.1 多等级学习 330
14.4.2 协调学习与稀疏交互 331
14.5 延伸阅读 334
参考文献 334
第15章 去中心化的部分可观察马尔可夫决策过程 338
15.1 简介 338
15.2 Dec-POMDP框架 339
15.3 历史状态与策略 340
15.3.1 历史状态 341
15.3.2 策略 341
15.3.3 策略的结构 342
15.3.4 联合策略的质量 343
15.4 有限域的Dec-POMDP的解决方案 344
15.4.1 穷举搜索和Dec-POMDP复杂性 344
15.4.2 交替最大化 344
15.4.3 Dec-POMDP的最优价值函数 345
15.4.4 前推法:启发式搜索 348
15.4.5 后推法:动态规划 350
15.4.6 其他有限域的方法 353
15.5 延伸阅读 353
15.5.1 一般化和特殊问题 353
15.5.2 有限Dec-POMDP 354
15.5.3 强化学习 355
15.5.4 通信 356
参考文献 356
第五部分 其他应用领域
第16章 强化学习与心理和神经科学之间的关系 364
16.1 简介 364
16.2 经典(巴甫洛夫)条件反射 365
16.2.1 行为 365
16.2.2 理论 366
16.2.3 小结和其他注意事项 367
16.3 操作性(工具性)条件反射 368
16.3.1 动作 368
16.3.2 理论 369
16.3.3 基于模型的控制与无模型的控制 370
16.3.4 小结和其他注意事项 371
16.4 多巴胺 371
16.4.1 多巴胺作为奖励预测误差 372
16.4.2 多巴胺的强化信号的作用 372
16.4.3 小结和其他注意事项 373
16.5 基底神经节 373
16.5.1 基底神经节概述 374
16.5.2 纹状体的神经活动 374
16.5.3 皮质基神经节丘脑循环 375
16.5.4 小结和其他注意事项 377
16.6 总结 378
参考文献 378
第17章 游戏领域的强化学习 387
17.1 简介 387
17.1.1 目标和结构 387
17.1.2 范围 388
《统计强化学习:现代机器学习方法》
译者序
序
前言
作者简介
第一部分 简介
第1章 强化学习介绍3
1.1 强化学习3
1.2 数学形式化8
1.3 本书结构11
1.3.1 模型无关策略迭代11
1.3.2 模型无关策略搜索12
1.3.3 基于模型的强化学习13
第二部分 模型无关策略迭代
第2章 基于值函数近似的策略迭代17
2.1 值函数17
2.1.1 状态值函数17
2.1.2 状态-动作值函数18
2.2 最小二乘策略迭代19
2.2.1 瞬时奖赏回归20
2.2.2 算法21
2.2.3 正则化23
2.2.4 模型选择25
2.3 本章小结26
第3章 值函数近似中的基函数设计27
3.1 图中的高斯核27
3.1.1 MDP-诱导图27
3.1.2 通用高斯核28
3.1.3 测地线高斯核29
3.1.4 扩展到连续状态空间30
3.2 图解说明30
3.2.1 配置30
3.2.2 测地线高斯核31
3.2.3 通用高斯核33
3.2.4 图拉普拉斯特征基33
3.2.5 扩散小波35
3.3 数值示例35
3.3.1 机器人手臂控制35
3.3.2 机器人导航39
3.4 本章小结46
第4章 策略迭代中的样本重用47
4.1 形式化47
4.2 离策略值函数近似48
4.2.1 片段重要性加权49
4.2.2 每次决策的重要性加权50
4.2.3 自适应的每次决策重要性加权50
4.2.4 图解说明51
4.3 展平参数的自动选择54
4.3.1 重要性加权交叉验证54
4.3.2 图解说明55
4.4 样本重用策略迭代56
4.4.1 算法56
4.4.2 图解说明56
4.5 数值示例58
4.5.1 倒立摆58
4.5.2 小车爬山61
4.6 本章小结64
第5章 策略迭代中的主动学习65
5.1 主动学习的高效探索65
5.1.1 问题配置65
5.1.2 泛化误差的分解66
5.1.3 估计泛化误差67
5.1.4 设计采样策略68
5.1.5 图解说明69
5.2 主动策略迭代72
5.2.1 具有主动学习的样本重用策略迭代72
5.2.2 图解说明73
5.3 数值示例74
5.4 本章小结76
第6章 鲁棒策略迭代79
6.1 策略迭代中的鲁棒性和可靠性79
6.1.1 鲁棒性79
6.1.2 可靠性80
6.2 最小绝对策略迭代81
6.2.1 算法81
6.2.2 图解说明81
6.2.3 性质82
6.3 数值示例83
6.4 可能的拓展88
6.4.1 Huber损失88
6.4.2 pinball损失89
6.4.3 deadzone-linear损失90
6.4.4 切比雪夫逼近90
6.4.5 条件风险值91
6.5 本章小结92
第三部分 模型无关策略搜索
第7章 梯度上升的直接策略搜索95
7.1 形式化95
7.2 梯度方法96
7.2.1 梯度上升96
7.2.2 方差约简的基线减法98
7.2.3 梯度估计量的方差分析99
7.3 自然梯度法101
7.3.1 自然梯度上升101
7.3.2 图解说明103
7.4 计算机图形中的应用:艺术家智能体104
7.4.1 东方山水画绘画104
7.4.2 状态、动作和瞬时奖赏的设计106
7.4.3 实验结果111
7.5 本章小结113
第8章 期望最大化的直接策略搜索117
8.1 期望最大化方法117
8.2 样本重用119
8.2.1 片段重要性加权119
8.2.2 每次决策的重要性加权122
8.2.3 自适应的每次决策重要性加权123
8.2.4 展平参数的自动选择123
8.2.5 样本重用的加权奖赏回归125
8.3 数值示例125
8.4 本章小结131
第9章 策略优先搜索133
9.1 形式化133
9.2 基于参数探索的策略梯度134
9.2.1 策略优先的梯度上升134
9.2.2 方差约简的基线减法135
9.2.3 梯度估计量的方差分析136
9.2.4 数值示例138
9.3 策略优先搜索中的样本重用142
9.3.1 重要性加权142
9.3.2 基线减法的方差约简144
9.3.3 数值示例146
9.4 本章小结153
第四部分 基于模型的强化学习
第10章 转移模型估计157
10.1 条件密度估计157
10.1.1 基于回归的方法157
10.1.2 ε-邻域核密度估计158
10.1.3 最小二乘条件密度估计159
10.2 基于模型的强化学习161
10.3 数值示例162
10.3.1 连续型链条游走162
10.3.2 人形机器人控制167
10.4 本章小结171
第11章 转移模型估计的维度约简173
11.1 充分维度约简173
11.2 平方损失条件熵173
11.2.1 条件独立174
11.2.2 利用SCE进行维度约简175
11.2.3 SCE与平方损失互信息的关系176
11.3 数值示例176
11.3.1 人工和标准数据集176
11.3.2 人形机器人179
11.4 本章小结182
参考文献183
《强化学习》
强化学习在越来越多的实际问题中取得了突破性成果。基于强化学习的AlphaGo围棋程序连挫人类围棋冠军,赚足了眼球,而随后出现的新一代AlphaGo Zero则以100:0大败AlphaGO。AlphaGo是谷歌旗下DeepMind公司研发的人工智能下棋软件,主要由策略网络(Policy Network)、快速走子(Fast Rollout)、价值网络(Value Network)三个部分组成,并通过蒙特卡罗树搜索(Monte Carlo Tree Search)把三个部分有机连接,形成一个完整的系统。升级版的AlphaGo Zero最大限度地降低了人类棋谱的先验知识,完全通过强化学习的自我对弈提升棋力,青出于蓝而胜于蓝。现在强化学习的主攻热点转向了游戏以及机器人领域,强化学习在解决更多实际问题方面大有可为,同时也激发起强化学习研究领域的活力和热度。
强化学习是机器学习中与监督学习以及无监督学习平行的一种类型,它是(自主)智能体完成与外界环境交互任务的重要手段,通过最大化奖励函数的学习方法获取从环境状态到行为的映射函数。强化学习成为一个独立研究分支已有超过50年的历史,而20世纪80年代提出的马尔可夫决策过程(Markov Decision Process,MDP)构成了现代强化学习的基本描述框架。之后强化学习在理论、算法、应用上取得了长足的发展。对于真正想要在强化学习领域进行创新研究的学者而言,需要扎扎实实地研读强化学习方面的经典书籍和
文献。
本书的编著者开篇就提出了目标:写一本值得向同学、同事及领域研究者推荐的讨论强化学习最新技术的好书。本书的特色鲜明,值得一读。第一是主题新颖。本书主要聚焦于发生在2000年到2012年间的最新发展。我们可以从第二~四部分看到发生在强化学习领域的最新动向和最新技术。撰写本书的作者以年轻学者为主,这也从一个侧面印证了本书的新颖度。第二是体例完整、涵盖的研究领域广泛。本书包含19章,其中第1章对强化学习的基本算法和框架做了全面的介绍,之后的17章对常规解决框架、构建性问题表示、概率建模手段以及经典应用领域进行详细评述,而最后一章则纵览全书进行讨论和发散。第三是组织精巧。内容从前到后具有一定的递增性,但又保持了各部分的相对独立性,方便读者根据兴趣选读相应篇章。最后,本书时刻围绕前沿性和开放性问题。作者在大胆发表自己的真知烁见的同时,不忘客观地审视当前的不足。这是本书不同于市面上很多书籍的重要特质。所以本书可以让你迅速跟上强化学习的发展现状。
本书的翻译工作由中国科学院计算机网络信息中心的赵地研究员发起并组建翻译团队。其中赵地研究员负责第1、2和8章的翻译工作,中国科学院大学的刘莹教授负责前言、第3~7章和第12章的翻译任务,清华大学的邓仰东教授承担第9~11章的翻译工作,湘潭大学的欧阳建权教授主持第13~16章的翻译,最后第17~19章的翻译由哈尔滨工业大学的苏统华教授完成。除了每章的负责人,还有很多研究生参与了部分翻译工作,特此向他们表示感谢。
本书几乎涵盖了经典强化学习的全部内容,甚至包括作为深度强化学习萌芽的重要成果DFQ。但毕竟因时间问题未能及时顾及最近几年才发展出来的更多深度强化学习技术。我们的翻译团队也期待能在未来再次合作,推出围绕深度强化学习的专著。
由于本书涉及的广度和深度较大,加上译者水平有限,译文中难免存在一些问题,真诚地希望读者朋友们批评指正。
最后要向机械工业出版社的朱劼编辑和唐晓琳编辑表示深深的谢意,她们在流程管理和文字编辑上提供的帮助对于本书的顺利出版至关重要。
2018年4月
强化学习研究者们经常会被学生或同事问:“最近有没有一些强化学习方面的好书可以推荐给我?”
我们编写这本书的目的就是给这个问题提供一个答案。
一本关于强化学习的书
10年前上面的问题是很容易回答的,在那个时候,有两本时兴的权威书籍。一本是由Rich Sutton和Andy Barto在1998年编写的优秀的强化学习导论书籍。这本书从人工智能的角度出发,采用教科书式的写作风格,一直被广泛使用(截至目前引用了一万次)。另一本是1996年由Dimitri Bertsekas和John Tsitsiklis撰写的《神经动力学编程》(neuro-dynamic programming)。这本书从运筹学的角度出发,以精确的数学方法讲述了动态规划和强化学习,特别强调了求近似解的体系结构。其中Sutton和Barto总是最大化回报,谈及价值函数、回报,并偏向于使用π增加的字母表中的{V, Q, S, A, T, R}部分;而Bertsekas和 Tsitsiklis谈及代价函数(cost-to-go-functions),总是最小化成本,并且使用希腊符号μ增加的字母表中的{J, G, I, U}部分。尽管它们有着表面(符号)差异、不同的写作风格和背景,可能这些书的读者也不同,但这两本书都试图对这个令人兴奋的新研究领域进行全面介绍,并成功地做到了这一点。当时运筹学和人工智能方法在行为优化方面的深入合并仍然在进行,这种交叉产生了丰硕的成果。最近,虽然已引入了Q学习和TD学习等强大的思想和算法,但仍有很多未知有待探索。
例如,算法和函数逼近器的组合的收敛问题出现了。包括算法收敛性、保证性能所需的样本数量以及强化学习技术在更大的智能体系结构中的适用性等许多理论和实验问题都没有得到解答。事实上,出现了许多新的问题并导致了越来越多的研究问题,这些都有待聪明的、年轻的博士生们来回答。尽管Sutton和Barto、Bertsekas和Tsitsiklis都很擅长介绍这个领域,并充分地描述了它的基本方法论和问题,但是,这个领域变得如此之大,需要新的教科书来记录所有新的研究进展。所以,这本书就是尝试填补这个空白的。
这是第一本介绍强化学习各主要子领域研究进展的书。但是,我们也提到其他一些有趣的介绍或描述各种强化学习主题的书籍。这些书包括Leslie Kaelbling于1996年编辑的合集和Puterman编著的马尔可夫决策过程手册的新版本。其他几本书涉及近似动态规划的相关概念。最近,又出现了一些关于马尔可夫决策过程、强化学习、函数逼近和强化学习的关系型知识表示的书籍。针对那些对强化学习课程感兴趣的人员,上述书只是强化学习相关著作的一部分。
强化学习:一个逐渐成熟的领域
在过去的15年中,强化学习领域发展迅猛。然而最近的书中并没有反映出这段时间的最新研究,而是更多地关注丰富的、坚实的理论研究,提升算法的适用性、向上扩展性、与(概率)人工智能的结合,以及大脑理论和一般的适应性系统的联系。现代强化学习的创始人之一Richard Sutton,在1999年提出了强化学习发展的三个不同部分:过去、现在和未来。
过去的强化学习指的是1985年以前,在这个阶段,试错学习(trial-and-error learning)的思想得到了发展。这个时期强调使用积极探索的学习器(agent,也称智能体),并开发了利用标量回报信号来指定学习器目标的关键思想,称为回报假说。这些方法通常只学习策略,一般不能有效地处理延迟回报。
现在的强化学习指的是价值函数形成的时期。价值函数是强化学习的核心,几乎所有的方法都集中在价值函数的逼近上,以便计算(最优)策略。价值函数假说认为价值函数的逼近是智能化的主要目的。
目前,我们正处于强化学习的未来阶段。Sutton对这个时期的方向做出了预测,并写道:“正如现在强化学习离开回报的最终目标向价值函数迈了一步,未来的强化学习可能会进一步把重点放在研究能够对价值函数进行估计的结构上……在心理学中,积极创造世界的表征的开发思维的方法称为建构主义。我预计在未来几十年中,强化学习将集中在建构主义上。”事实上,正如我们在本书中所看到的那样,这一领域的许多新进展都与能够实现价值函数逼近的新结构有关。此外,许多进展都是关于这些新结构的性能及收敛的性质、能力和保证的。贝叶斯框架、高效线性逼近、关系型知识表示以及分层和多学习器性质的分解都构成了当今强化学习方法中所采用的新结构。
目前强化学习是一个已经确立的研究领域,通常归于机器学习。然而,由于其专注于行为学习,它与心理学、运筹学、数学优化等其他领域有着许多联系。在人工智能领域,它与概率论和决策论规划有很大的重叠,因为它与规划社区(例如国际自动规划系统会议(ICAPS))有许多共同的目标。在最新的国际规划竞赛(IPC)中,源于强化学习文献的方法已经参赛,并且在概率规划问题和最近的“学习规划”(learning for planning)方面都有着非常好的表现。
强化学习的研究在人工智能的广泛领域中几乎随处可见,因为它既是行为优化的一般方法,也是一套计算工具。现在所有主要的人工智能期刊都发表关于强化学习的文章,并且已经持续很长时间了。强化学习的应用领域从机器人、电脑游戏到网络路由和自然语言对话系统,强化学习论文也出现在跟这些主题相关的论坛上。大量的论文每年(或每两年)出现在人工智能领域的顶级会议上(如IJCAI、ECAI和AAAI),还有许多统计机器学习领域的顶级会议上(如UAI、ICML、ECML和NIPS)。此外,关于人工生命(Alife)、自适应行为(SAB)、机器人(ICRA、IROS、RSS)、神经网络和进化计算(如IJCNN和ICANN)的会议也有强化学习的研究工作。最后但同样重要的一点是,在过去的10年中,所有主要的人工智能会议都出现了许多专业化的强化学习研讨会和教程。
尽管强化学习已经为其他许多领域做出了巨大贡献,并且强化学习的论文无处不在,但强化学习领域的现状使得它很自然地在强化学习方法的某个特定焦点上形成论坛。欧洲强化学习研讨会(EWRL)已经逐渐成为这样一个论坛,每隔一年就会有一次相当大的发展,2008年在南锡举办并在2011年与ECML一起举办。此外,IEEE自适应动态规划与强化学习(ADPRL)研讨会也成为研究人员展示和讨论其最新研究成果的一个会议。EWRL和ADPRL一起表明,这一领域已经有了很大的进展,需要有自己的社区和事件。
在强化学习的实践方面以及更重要的是在基准、评估和比较方面也有了很多进展。除了规划比赛(例如IPC)之外,一些强化学习比赛也已成功举办。参赛者不仅在几个经典领域进行竞赛(例如平衡杆),而且在电脑游戏“俄罗斯方块”和“超级马里奥”等新兴领域进行竞赛。这些比赛可以促进代码共享和重用,建立该领域的基准,并用于评估和比较具有挑战性的领域中的算法。另一个代码和解决方案重用的倡导者是RL-Glue框架,它提供了一个抽象的强化学习框架,用于在研究人员之间共享方法。RL-Glue适用于大多数常用的编程语言,从而为实验提供了系统和语言独立的软件框架。比赛和RL-Glue促进了强化学习领域的成熟,使得可以应用更好的科学方法来测试、比较和重用强化学习方法。
本书的目的和目标读者
如前所述,我们试图让本书回答这个问题:“你会推荐什么样的书来学习目前的强化学习?”每个可能提出这个问题的人都是本书的潜在读者,这包括博士和硕士生、强化学习的研究人员,以及其他任何想了解强化学习领域的研究人员。书中关于当前强化学习主要研究领域的文献为研究人员提供了一个很好的起点去继续拓展该领域,把强化学习应用到新问题,并将主要的行为学习技术引入到他们自己的智能系统和机器人中。
当我们开始编著本书时,我们首先创建了一个长长的主题列表,并对它们进行了分组,最后选出了近20个比较大的强化学习子领域,这些子领域在过去10年里发布了许多新成果。这些子领域不仅包括比较成熟的子领域(如演进强化学习),还包括更新的主题(如关系型知识表示方法、贝叶斯学习和规划框架)。此外,我们还专门用了一章来介绍分层方法,形成了第一个子领域——它是在前面提到的两本书之后出现的,因此当时没有讨论。
本书的理念是让所有的作者反映这个领域青春和活跃的本质。为此,我们主要选择并邀请了刚开始工作的年轻研究人员。他们中的许多人最近刚获得博士学位,这就确保了他们在自己的强化学习子领域是活跃的专家,并对这个子领域充满了想法和热情。而且,这也给了他们一个在更大的研究领域内推广其子领域研究成果的好机会。此外,我们还邀请了几位经验丰富的研究人员,他们在强化学习的几个子领域取得了先进的研究成果。这一切使得关于这个主题的不同观点得到了很好的结合。正如我们所希望的那样,提交的内容初稿质量非常高。为了有一套确保高质量内容的完整程序,编辑组成员连同一批专家作为审稿人,对每章进行了至少三次审核。成书内容得到了进一步的改进,而且使书中包含了每个子领域的大量的参考文献。
本书的最终版本包含19章,其中第1章包含强化学习的基础知识、动态规划、马尔可夫决策过程和基础的算法(如Q学习和值迭代)。最后一章回顾了书中的内容,讨论了遗漏的东西,并指出了进一步研究的方向。另外,这一章还包含个人对这个领域的思考和预测。构成本书核心的17章中,每一章都是自成一体的,包含对强化学习子领域的介绍和概述。下面我们将会给出本书结构及各章的概要。本书共有30位作者,他们分别来自于不同的机构和不同的国家。
本书结构
这本书包含了19篇关于强化学习基础概念和各个子领域的综述,并分为四个主要的类别,我们接下来会对这些类别进行简要的说明。第1章由Martijn van Otterlo和Marco Wiering执笔,涵盖对基础概念与算法的介绍性材料。这一章讨论马尔可夫决策过程,及其对应的基于模型的和无模型的求解算法。这一章的目的是给读者提供一个快速了解强化学习方法主要构成的概述,同时该章也为其余各章提供了必要的背景知识。本书中的所有综述都建立在第1章的背景介绍的基础之上。本书的最后一章也是由Marco Wiering和Martijn van Otterlo执笔的,它回顾本书各章的内容,并列举了本书尚未讨论到的主题以及未来的研究发展方向。另外,通过汇总其他章部分作者的简要表述,列举了个人对强化学习领域的一些思考与预测。本书共有六个部分,其主体为第二~五部分,我们接下来将分别对它们进行简要的介绍。
第一部分(第1章)
这一部分对基础概念与算法进行了概述。
第二部分(第2~6章)
这一部分包含5章,介绍当前强化学习中使用的解决方案框架。其中所用到的大部分技术都能依据章节中定义的框架进行理解,尽管这些新方法侧重于以更加复杂的形式使用样本、世界模型等。
第2章由Sascha Lange、Thomas Gabel和Martin Riedmiller执笔,对价值函数逼近的上下文批处理强化学习方法进行了综述。这种方法能够利用高度优化的回归技术从海量的数据中学习到鲁棒的、精确的价值函数。第3章由Lucian Bu?oniu、Alessandro Lazaric、Mohammad Ghavamzadeh、Rémi Munos、Robert Babu?ka和Bart De Schutter执笔,综合论述了强化学习在策略学习的鲁棒线性逼近技术方面的最新发展趋势。这些技术建立在一系列坚实的数学技巧之上,有这些数学基础的支撑,我们才可以建立学习速度、逼近精确度以及上下界的保证。第4章由Todd Hester和Peter Stone执笔,描述学习现实世界的模型的多种方法,以及这些模型如何加速强化学习。学习好的模型可以用来做更高效的值更新、做规划以及更有效的探索。世界模型代表着关于世界的一般知识,正因为如此,才有可能迁移到其他相关的任务上。第5章由Alessandro Lazaric执笔,详细介绍强化学习中的知识迁移。当遇到几个相关的任务时,一旦学会了,各种各样的事情可以在随后的任务中重用。例如,策略可以重用,但取决于两个相关任务的状态或动作空间是否不同,需要应用其他方法。该章不仅考察了现有的方法,而且试图把它们放在一个更普适的框架中。第6章由Lihong Li执笔,对强化学习样本复杂度的技术和结果进行了综述。对于所有的算法,了解需要多少个样本(与世界进行交互的例子)才能保证任务的最小性能是非常重要的。在过去的10年中,鉴于利用严谨的数学方式研究这一重要方面出现了许多新的成果,该章提供这些成果的概述。
第三部分(第7~10章)
这一部分包含4章,其中表征及其构建和使用是重点内容。如前所述,建设性的技术的一个主要方面是实现价值函数逼近的结构(或针对该问题的策略)。强化学习的几个主要新发展方向是寻找新的表征框架以用于在挑战性的新环境中学习行为。
第7章由Hado van Hasselt执笔,描述了包含连续变量的问题表征的诸多技术。这在很长一段时间内都是强化学习的主要组成部分,例如通过使用神经函数逼近器。然而,该领域的一些新发展已经试图更严格地捕捉处理连续状态和动作的算法的性质,或者已经将这样的技术应用于新的领域。我们特别感兴趣的是处理连续动作的新技术,因为这些新技术能有效地使适用动作的数量无限大,并需要复杂的技术来计算最优策略。第8章由Martijn van Otterlo执笔,描述了10年前开始的强化学习的一个新的表征方向。该章涵盖了所有比状态和行为的命题(或属性–值)表达更加严格的表征。这些表征包括在逻辑编程和一阶逻辑中发现的模型。这样的表征可以用对象和关系来表示世界,并且在一系列更广泛的领域中开辟了强化学习的可能性。这些表征开启了许多新的途径来泛化价值函数、策略以及世界模型,并且需要逻辑机器学习和知识表示的方法来实现。第9章由Bernhard Hengst执笔,综述一个具有代表性的研究方向,而这里说的表征指的是某个任务的结构分解,以及隐含的马尔可夫决策过程等方面。20世纪90年代末出现了许多分层方法,从那以后产生了大量的技术。这些技术包括新的任务分解、价值函数和策略,以及许多交互中自动学习的任务分解技术。第10章由Shimon Whiteson执笔,综述良好的策略结构(和价值函数)的演进查询。这种演进算法对于迭代式的、增量式的强化学习方法一直是很好的替代,而且两种方法都可以用来优化复杂行为。演进算法特别适合非马尔可夫问题和难以计算梯度的策略结构。 除此之外,该章还介绍应用在行为学习中的演进神经网络。
第四部分(第11~15章)
目前的人工智能已经变得越来越具有统计和概率的特点。概率图形模型领域的研究成果已经被广泛使用,并且这些模型的结果(无论在理论上还是计算上)都有效地应用于许多子领域,这与强化学习没有什么不同。有几个大的子领域在普遍使用概率模型,如贝叶斯网络,这种具有普遍性的表征和计算技术促使概率模型与其他相似的模型建立了丰富的联系。
第11章由Nikos Vlassis、Mohammad Ghavamzadeh、Shie Mannor和Pascal Poupart执笔,综述用于强化学习的贝叶斯技术。在不确定情况下,学习时序决策可以映射至贝叶斯空间,其中,交互痕迹提供样例(证据),贝叶斯推理和学习可以通过一种严格的概率方式来寻找最优决策。第12章由Matthijs Spaan执笔,综述了部分可观察的问题的表征和技术,这些问题通常被映射到例如动态贝叶斯网络的概率框架中,并且需要概率推断来推测潜在的隐藏(未观察的)状态。该章同时综述了基于模型的和无模型的方法。鉴于POMDP通常根据某种形式的历史(或记忆)的置信状态来建模,由David Wingate执笔的第13章综述了最近的一类侧重于未来的新方法。这些技术维护一个置信状态,用于根据对未来事件的概率预测做出行为选择。该章介绍了几种技术,其中这些预测用简洁的方式表示,并根据经验进行更新。到目前为止,大多数方法都集中在预测(或评估)问题上,而控制方面的论述很少。第14章由Ann Nowé、Peter Vrancx和Yann-Micha?l De Hauwere执笔,转移到一系列更通用的问题——多个学习器的学习和交互。该章综述博弈论和多学习器方法,介绍用于优化多学习器的技术。第15章由Frans Oliehoek执笔,综述由多个学习器组成的基于模型的技术,这些学习器合作解决由POMDP分解的大任务。这种模型出现在如何优化不同地点传感器共同提供世界重要信息方式的问题中。该章主要介绍POMDP方法和多学习器的情况。
第五部分(第16~18章)
正如我们在前言开始所说的那样,强化学习是一种在人工智能的许多其他领域用来优化行为的方法。因此,除了本书前面部分介绍的许多先进的算法之外,我们还将包括强化学习取得成功的一些应用领域。这一部分的特色是介绍机器人和游戏,还有一章介绍了将强化学习与认知神经科学联系起来的研究方向。
第16章由Ashvin Shah执笔,综述了强化学习方法与认知和神经科学之间的关系。最初,许多强化学习的技术来源于心理学方面的见解,例如Skinner、Thorndike和Watson等的见解,还有心理学和强化学习之间的交叉领域。最近,由于脑科学理论的进步,尤其是因为测试和测量脑部活动(功能核磁共振成像、脑电图等)已经变得更成熟,很多研究试图解释有关大脑的强化学习方面的研究成果、学习技术,即哪些算法确实出现在大脑中,或者受大脑内部运作启发而提出新的算法。第17章由István Szita执笔,综述游戏中使用的强化学习。在这里“游戏”比前面关于博弈论的章节中的更通用。实际上,该章中的游戏相当于棋盘游戏,如西洋双陆棋和跳棋,还包括角色扮演和实时策略游戏等电脑游戏。游戏通常是一个令人兴奋的强化学习算法的测试平台(例如参见上述强化学习竞赛中的“俄罗斯方块”和“马里奥”),除了举出很多例子外,该章还试图勾勒出强化学习在游戏中的应用。第18章由Jens Kober和Jan Peters执笔,严谨地描述了强化学习在机器人中的应用。由于机器人技术在真实的物理世界中工作,产生了许多有挑战性的问题。大量的噪声数据、真实机器人的训练和测试缓慢、模拟器与现实世界之间的实际差距以及扩展到高维空间等,这些都是这里所讨论的具有挑战性的问题。机器人技术是一个令人兴奋的领域,因为将人类置于其中的可能性可以为仿生学创造额外的机会,从示范中学习,并让人类作为机器人的教师。
第六部分(第19章)
这一部分对全书进行总结,并展望了强化学习的未来。
致谢
编写这样的一本书不是一件一蹴而就的事情。许多人为此付出了非常多的努力。首先,我们要感谢所有的作者们,他们付出专业知识、时间以及创造力对各自的子领域进行了精彩的论述。撰写综述通常需要付出格外多的努力,因为这需要你非常了解某个主题,而且需要你将所有相关的工作放在更加通用的框架中。作为编辑,我们非常高兴地看到作者们圆满完成了这个困难但却非常有用的任务。
我们想感谢的第二群人是审稿人,他们为我们提供了非常透彻且非常具有建设性的评论,使得这本书更加完美。我们感谢那些同意在书中写下自己名字的审稿人,非常感谢你们的帮助:Andrea Bonarini, Prasad Tadepalli, Sarah Ostentoski, Rich Sutton, Daniel Kudenko, Jesse Hoey, Christopher Amato, Damien Ernst, Remi Munos, Johannes Fuernkrantz, Juergen Schmidhuber, Thomas Rückstiess, Joelle Pineau, Dimitri Bertsekas, John Asmuth, Lisa Torrey, Yael Niv, Te Thamrongrattanarit, Michael Littman和Csaba Szepesvari。
非常感谢Rich Sutton为本书写下序言。我们都认为他是强化学习领域的领军人物,而且,我们都钦佩他在所有方面为这个领域所做出的巨大贡献。他在强化学习刚刚兴起的时候就开始研究,并且不断地提出新颖的、有创造性的方法让学习器去学习。感谢Rich先生!
如果能够把编辑这样一本书纳入日常科学生活中,那会更加方便。在这方面,Martijn要感谢比利时鲁汶大学和荷兰奈梅亨大学的支持。Marco也非常感谢荷兰格罗宁根大学提供同样的支持。
最后,我们要感谢读者选择了这本书并开始阅读。我们希望这本书能够为你提供帮助,并希望你即将开始的工作会被纳入随后的强化学习书籍中。
Marco Wiering,荷兰格罗宁根大学人工智能系
Martijn van Otterlo,荷兰奈梅亨大学
2011年11月
作者清单
Reinforcement Learning: State-of-the-Art
Robert Babu?ka
荷兰代尔夫特理工大学代尔夫特系统与控制中心
e-mail: [email protected]
Lucian Bus?oniu
法国洛林大学自动控制研究中心(CRAN)
e-mail: [email protected]
Thomas Gabel
德国弗莱堡大学工程学院
e-mail: [email protected]
Mohammad Ghavamzadeh
法国INRIA Lille-Nord SequeL团队
e-mail: [email protected]
Hado van Hasselt
荷兰数学和计算机中心 (Centrum Wiskunde en Informatica, CWI)
e-mail: [email protected]
Yann-Micha?l De Hauwere
比利时布鲁塞尔自由大学
e-mail: [email protected]
Bernhard Hengst
澳大利亚新南威尔士大学计算机科学与工程学院
e-mail: [email protected]
Todd Hester
得克萨斯大学奥斯汀分校计算机科学系
e-mail: [email protected]
Jens Kober
德国达姆施塔特工业大学智能自治系统研究所,
德国马克斯普朗克智能系统研究所机器人学习实验室
e-mail: [email protected]
Sascha Lange
德国弗莱堡大学工程学院
e-mail: [email protected]
Alessandro Lazaric
法国INRIA Lille-Nord SequeL团队
e-mail: [email protected]
Lihong Li
美国雅虎研究院
e-mail: [email protected]
Shie Mannor
以色列理工学院
e-mail: [email protected]
Rémi Munos
法国INRIA Lille-Nord SequeL团队
e-mail: [email protected]
Frans Oliehoek
麻省理工学院计算机科学与人工智能实验室(CSAIL)
e-mail: [email protected]
Ann Nowé
比利时布鲁塞尔自由大学
e-mail: [email protected]
Martijn van Otterlo
荷兰奈梅亨大学
e-mail: [email protected]
Jan Peters
德国达姆施塔特工业大学智能自治系统研究所,
德国马克斯普朗克智能系统研究所机器人学习实验室
e-mail: [email protected]
Pascal Poupart
加拿大滑铁卢大学
e-mail: [email protected] of Contributors XXXI
Martin Riedmiller
德国弗莱堡大学工程学院
e-mail: [email protected]
Bart De Schutter
荷兰代尔夫特理工大学代尔夫特系统与控制中心
e-mail: [email protected]
Ashvin Shah
英国谢菲尔德大学心理学系
e-mail: [email protected]
Matthijs Spaan
葡萄牙里斯本技术大学系统与机器人研究所
e-mail: [email protected]
Peter Stone
得克萨斯大学奥斯汀分校计算机科学系
e-mail: [email protected]
István Szita
加拿大阿尔伯塔大学
e-mail: [email protected]
Nikos Vlassis
卢森堡大学系统生物医学研究中心,
卢森堡OneTree公司
e-mail: [email protected],[email protected]
Peter Vrancx
比利时布鲁塞尔自由大学
e-mail: [email protected]
Shimon Whiteson
荷兰阿姆斯特丹大学信息学研究所
e-mail: [email protected]
Marco Wiering
荷兰格罗宁根大学人工智能系
e-mail: [email protected]
David Wingate
麻省理工学院
e-mail: [email protected]
评论
还没有评论。