描述
开 本: 32开纸 张: 纯质纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787122452825丛书名: 人工智能超入门丛书
1.本书以通俗易懂的语言风格讲解了强化学习的关键核心知识;2.本书涵盖强化学习多种关键算法,如动态规划、马尔科夫、贝尔曼方程、蒙特卡洛、深度强化学习等;3.本书搭配实例和实现代码,读者可以直接上手实操。
“人工智能超入门丛书”致力于面向人工智能各技术方向零基础的读者,内容涉及数据素养、机器学习、视觉感知、情感分析、搜索算法、强化学习、知识图谱、专家系统等方向。本丛书体系完整、内容简洁、语言通俗,综合介绍了人工智能相关知识,并辅以程序代码解决问题,使得零基础的读者能够快速入门。《强化学习:人工智能如何知错能改》是“人工智能超入门丛书”中的分册,以科普的形式讲解了强化学习的核心知识,内容生动有趣,带领读者走进强化学习的世界。本书包含强化学习方向的基础知识,如动态规划、时序差分等,让读者在开始学习时对强化学习有初步的认识;之后,通过对马尔可夫决策过程及贝尔曼方程的解读,逐渐过渡到强化学习的关键内容;同时,本书也重点解析了策略迭代与价值迭代两种核心算法,也对蒙特卡洛方法、时序差分算法、深度强化学习及基于策略的强化学习算法进行了深度剖析。本书内容结构完整、逻辑清晰、层层递进,并配有相关实例与代码,让读者在阅读学习过程中能够加深理解。本书适合强化学习及人工智能方向的初学者阅读学习,也可供高等院校人工智能及计算机类专业的师生参考。
第1章 强化学习概述 001
1.1 什么是强化学习 002
1.1.1 初识强化学习 002
1.1.2 强化学习的关键要素 005
1.1.3 监督、无监督与强化学习 007
1.2 三条主线 009
1.2.1 试错 009
1.2.2 动态规划 011
1.2.3 时序差分 012
1.3 强化学习的方法与应用 014
1.3.1 强强联合之深度强化学习 014
1.3.2 强化学习的跨界赋能 017
1.3.3 强化学习的分类 021
第2章 马尔可夫与贝尔曼方程 024
2.1 “随机”那些事儿 025
2.1.1 概率的基本概念 025
2.1.2 网格迷宫的探索 031
2.1.3 探索的策略与奖励 034
2.1.4 探索的足迹 037
2.2 马尔可夫大家族 040
2.2.1 马尔可夫过程 040
2.2.2 马尔可夫奖励过程 043
2.2.3 马尔可夫决策过程 044
2.3 贝尔曼方程 046
2.3.1 价值函数与动作价值函数 046
2.3.2 贝尔曼方程 050
2.3.3 贝尔曼最优方程 052
第3章 动态规划 056
3.1 动态规划基础与环境 057
3.1.1 动态规划基础 057
3.1.2 环境:冰湖 059
3.2 策略迭代算法 063
3.2.1 原理 063
3.2.2 代码 067
3.3 价值迭代算法 072
3.3.1 原理 072
3.3.2 代码 074
第4章 蒙特卡洛 078
4.1 随机变量的数字特征 080
4.1.1 期望 080
4.1.2 方差 082
4.2 蒙特卡洛方法与应用 083
4.2.1 圆面积的估计 084
4.2.2 均值估计 087
4.3 蒙特卡洛与强化学习 091
4.3.1 原理 091
4.3.2 环境:21点 101
4.3.3 代码 102
第5章 时序差分 107
5.1 时序差分 108
5.1.1 时序差分基础 108
5.1.2 环境:悬崖漫步 116
5.2 Sarsa算法 118
5.2.1 原理 118
5.2.2 代码 120
5.3 Q-Learning算法 124
5.3.1 原理 124
5.3.2 代码 127
第6章 深度强化学习 134
6.1 DQN入门 135
6.1.1 DQN的基本概念 135
6.1.2 环境:车杆 139
6.2 BP神经网络 强化学习 141
6.2.1 原理 141
6.2.2 代码 145
6.3 卷积神经网络 强化学习 157
6.3.1 原理 157
6.3.2 代码 162
6.4 DQN的改进 167
第7章 策略学习 170
7.1 策略梯度算法 171
7.1.1 策略梯度原理 171
7.1.2 REINFORCE算法 173
7.1.3 代码 176
7.2 Actor-Critic算法 184
7.2.1 原理 184
7.2.2 环境:LunarLander 189
7.2.3 代码 190
7.3 其他基于策略的算法 197
附录 203
附录A 环境设置与行为探索 204
A.1 Gym库与环境设置 204
A.2 具有人类偏好的多智能体强化学习 206
附录B 博弈与策略 209
B.1 什么是博弈 209
B.2 混合策略博弈 212
B.3 序贯博弈 215
B.4 无限博弈与有限博弈 216
附录C 收益衡量 222
C.1 理性收益:期望价值 223
C.2 效用收益:期望效用 226
C.3 情感收益:前景理论 228
新一代人工智能的崛起深刻影响着国际竞争格局,人工智能已经成为推动国家与人类社会发展的重大引擎。2017年,国务院发布《新一代人工智能发展规划》,其中明确指出:支持开展形式多样的人工智能科普活动,鼓励广大科技工作者投身人工智能知识的普及与推广,全面提高全社会对人工智能的整体认知和应用水平。实施全民智能教育项目,在中小学阶段设置人工智能相关课程,逐步推广编程教育,鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广。
为了贯彻落实《新一代人工智能发展规划》,国家有关部委相继颁布出台了一系列政策。截至2022年2月,全国共有440所高校设置了人工智能本科专业,387所高等职业教育(专科)学校设置了人工智能技术服务专业,一些高校甚至已经在积极探索人工智能跨学科的建设。在高中阶段,“人工智能初步”已经成为信息技术课程的选择性必修内容之一。在2022年实现“从0到 1”突破的义务教育阶段信息科技课程标准中,明确要求在7~9年级需要学习“人工智能与智慧社会”相关内容,实际上,1~6年级阶段信息技术课程的不少内容也与人工智能关系密切,是学习人工智能的基础。
人工智能是一门具有高度交叉属性的学科,笔者认为其交叉性至少体现在三个方面:行业交叉、学科交叉、学派交叉。在大数据、算法、算力三驾马车的推动下,新一代人工智能已经逐步开始赋能各个行业。人工智能也在助力各学科的研究,近几年,《自然》等顶级刊物不断刊发人工智能赋能学科的文章,如人工智能推动数学、化学、生物、考古、设计、音乐以及美术等的发展。人工智能内部的学派也在不断交叉融合,像知名的AlphaGo,就是集三大主流学派优势,并且现在这种不同学派间取长补短的研究开展得如火如荼。总之,未来的学习、工作与生活中,人工智能赋能的身影将无处不在,因此掌握一定的人工智能知识与技能将大有裨益。
从笔者长期从事人工智能教学、研究经验来看,有些人对人工智能还存在一定的误区。比如将编程与人工智能直接画上了等号,又或是认为人工智能就只有深度学习等。实际上,人工智能的知识体系十分庞大,内容涵盖相当广泛,不但有逻辑推理、知识工程、搜索算法等相关内容,还涉及机器学习、深度学习以及强化学习等算法模型。当然,了解人工智能的起源与发展、人工智能的道德伦理对正确认识人工智能和树立正确的价值观也是十分必要的。
通过对人工智能及其相关知识的系统学习,可以培养数学思维(mathematical thinking)、逻辑思维(reasoning thinking)、计算思维(computational thinking)、艺术思维(artistic thinking)、创新思维(innovative thinking)与数据思维(data thinking),即 MRCAID。然而遗憾的是,目前市场上既能较综合介绍人工智能相关知识,又能辅以程序代码解决问题,同时还能迅速入门的图书并不多见。因此笔者编写了本系列图书,以期实现体系内容较全、配合程序操练及上手简单方便等特点。
本书将带您走进强化学习的奇妙世界。强化学习,作为人工智能领域的一个重要分支,近年来在理论研究和实际应用中都取得了显著进展。本书旨在为读者提供一个全面而深入的强化学习概览,从历史背景到未来趋势,从基本概念到复杂算法。
第1章介绍强化学习的基本概念和关键要素,并比较它与监督学习、无监督学习的区别。本章还探讨了三个强化学习的主要方法:试错、动态规划和时序差分,以及它们与深度学习和跨界应用中的融合,旨在让读者能够快速了解强化学习的相关内容。第2章探讨了马尔可夫决策过程和贝尔曼方程,这两个概念是理解和实施强化学习算法的基石。通过探索网格迷宫等例子,来直观理解这些数学工具的实际应用。本章介绍的动态规划是解决强化学习问题的一种经典方法。第3章详细介绍了策略迭代和价值迭代这两种核心算法,并通过实例和代码演示来加深理解。第4章开始转向无模型的强化学习方法。蒙特卡洛方法在强化学习中的应用广泛,本章不仅解释了其在强化学习中的基本原理,还通过21点这样的游戏环境,展示了蒙特卡洛方法在强化学习中的应用,如何从经验中直接学习策略而无须环境模型。第5章仍然探讨无模型的强化学习方法,引入时序差分的概念。时序差分是强化学习中的核心算法之一,它结合了蒙特卡洛方法的样本效率和动态规划的引导特性。本章给出了Sarsa算法和Q-Learning算法的原理,并通过悬崖漫步的实际案例来阐释这些概念。第6章重点介绍了强化学习与深度学习的结合,这是强化学习一个热门的研究领域,本章介绍了DQN及其变种,此外还讨论了神经网络如何提升强化学习算法的性能。第7章讨论了基于策略的强化学习算法,如策略梯度算法、REINFORCE算法以及Actor-Critic算法。这些算法在处理高维动作空间时显示出了其独特的优势。本书的附录部分包含了Gym库的使用、博弈理论以及如何衡量收益的相关内容。
本书的出版要感谢曾提供热情指导与帮助的院士、教授、中小学教师等专家学者,也要感谢与笔者一起并肩参与写作的其他作者,同时还要感谢化学工业出版社编辑老师们的热情支持与一丝不苟的工作态度。
在本书的出版过程中,未来基因(北京)人工智能研究院、腾讯教育、阿里云、科大讯飞等机构给予了大力支持,在此一并表示感谢。
另外,还需要感谢北京航空航天大学的吴越博士以及清华大学本科生陈硕同学,他们也为本书做出了重要贡献。
最后,还要特别鸣谢西北工业大学计算机学院的张世周老师,张老师对本书提供的诸多宝贵建议和支持使得本书得以顺利完成,并在内容质量上得到了显著提升。
希望这本书能够帮助读者更好地快速理解和应用强化学习。由于笔者水平有限,书中内容不可避免会存在疏漏,欢迎广大读者批评指正并提出宝贵的意见。
龚超
2023年12月于清华大学
评论
还没有评论。