Name: 人工智能超入门丛书--强化学习：人工智能如何知错能改
SKU: 66b04234f0f2243a371baa22
Price: 40.99 EUR
Availability: InStock

描述

开本: 32开纸张: 纯质纸包装: 平装是否套装: 否国际标准书号ISBN: 9787122452825丛书名: 人工智能超入门丛书

编辑推荐

1.本书以通俗易懂的语言风格讲解了强化学习的关键核心知识；2.本书涵盖强化学习多种关键算法，如动态规划、马尔科夫、贝尔曼方程、蒙特卡洛、深度强化学习等；3.本书搭配实例和实现代码，读者可以直接上手实操。

内容简介

“人工智能超入门丛书”致力于面向人工智能各技术方向零基础的读者，内容涉及数据素养、机器学习、视觉感知、情感分析、搜索算法、强化学习、知识图谱、专家系统等方向。本丛书体系完整、内容简洁、语言通俗，综合介绍了人工智能相关知识，并辅以程序代码解决问题，使得零基础的读者能够快速入门。《强化学习：人工智能如何知错能改》是“人工智能超入门丛书”中的分册，以科普的形式讲解了强化学习的核心知识，内容生动有趣，带领读者走进强化学习的世界。本书包含强化学习方向的基础知识，如动态规划、时序差分等，让读者在开始学习时对强化学习有初步的认识；之后，通过对马尔可夫决策过程及贝尔曼方程的解读，逐渐过渡到强化学习的关键内容；同时，本书也重点解析了策略迭代与价值迭代两种核心算法，也对蒙特卡洛方法、时序差分算法、深度强化学习及基于策略的强化学习算法进行了深度剖析。本书内容结构完整、逻辑清晰、层层递进，并配有相关实例与代码，让读者在阅读学习过程中能够加深理解。本书适合强化学习及人工智能方向的初学者阅读学习，也可供高等院校人工智能及计算机类专业的师生参考。

作者简介

龚超，工学博士，清华大学日本研究中心主任助理，中日创新中心主任研究员，深圳清华大学研究院下一代互联网研发中心核心成员，海口经济学院雅和人居工程学院客座教授。中国高科技产业化研究会理事、中国自动化学会普及工作委员会委员、中国人工智能学会中小学工作委员会委员、中国青少年宫协会特聘专家、未来基因（北京）人工智能研究院首席专家、教育信息化教学应用实践共同体项目特聘专家，多家500强企业数字化转型领域高级顾问。研究方向为人工智能优化算法、人工智能在数字化转型中的应用等。著有15本人工智能相关图书，在国内外期刊上发表文章共计70余篇。王冀，工学博士，西北工业大学计算机学院助理教授，研究方向为关键数据提取及图像编码，在本领域优秀期刊、会议发表论文20余篇，参与起草行业及团体标准2项，出版专著4部。曾获PCSJ学会WBVC竞赛特别奖、图像信息媒体学会优秀发表奖。梁霄，中国人民大学附属中学教师，任信息学竞赛教练，本科毕业于清华大学电子工程系，博士毕业于清华大学计算机系。截至2024年6月，指导学生许庭强以世界第一的成绩获得2023国际信息学奥林匹克竞赛金牌，指导学生黄洛天以总分第一名获得2023年APIO国际金牌，指导6人次获得NOI金牌（全部为国家集训队）。此外还开设了多门人工智能相关课程，致力于探索计算机科学的中小学教育。贵宁，本科毕业于清华大学自动化系，目前在清华大学深圳研究生院智能机器人实验室攻读硕士学位。研究方向集中于鲁棒强化学习及其在机器人领域的应用。在硕士学习期间，专注于强化学习与大模型在机器人技术上的实际应用，积累了丰富的经验。

目　　录

第1章　强化学习概述 001
1.1　什么是强化学习 002
1.1.1　初识强化学习 002
1.1.2　强化学习的关键要素 005
1.1.3　监督、无监督与强化学习 007
1.2　三条主线 009
1.2.1　试错 009
1.2.2　动态规划 011
1.2.3　时序差分 012
1.3　强化学习的方法与应用 014
1.3.1　强强联合之深度强化学习 014
1.3.2　强化学习的跨界赋能 017
1.3.3　强化学习的分类 021

第2章　马尔可夫与贝尔曼方程 024
2.1　“随机”那些事儿 025
2.1.1　概率的基本概念 025
2.1.2　网格迷宫的探索 031
2.1.3　探索的策略与奖励 034
2.1.4　探索的足迹 037
2.2　马尔可夫大家族 040
2.2.1　马尔可夫过程 040
2.2.2　马尔可夫奖励过程 043
2.2.3　马尔可夫决策过程 044
2.3　贝尔曼方程 046
2.3.1　价值函数与动作价值函数 046
2.3.2　贝尔曼方程 050
2.3.3　贝尔曼最优方程 052

第3章　动态规划 056
3.1　动态规划基础与环境 057
3.1.1　动态规划基础 057
3.1.2　环境：冰湖 059
3.2　策略迭代算法 063
3.2.1　原理 063
3.2.2　代码 067
3.3　价值迭代算法 072
3.3.1　原理 072
3.3.2　代码 074

第4章　蒙特卡洛 078
4.1　随机变量的数字特征 080
4.1.1　期望 080
4.1.2　方差 082
4.2　蒙特卡洛方法与应用 083
4.2.1　圆面积的估计 084
4.2.2　均值估计 087
4.3　蒙特卡洛与强化学习 091
4.3.1　原理 091
4.3.2　环境：21点 101
4.3.3　代码 102

第5章　时序差分 107
5.1　时序差分 108
5.1.1　时序差分基础 108
5.1.2　环境：悬崖漫步 116
5.2　Sarsa算法 118
5.2.1　原理 118
5.2.2　代码 120
5.3　Q-Learning算法 124
5.3.1　原理 124
5.3.2　代码 127

第6章　深度强化学习 134
6.1　DQN入门 135
6.1.1　DQN的基本概念 135
6.1.2　环境：车杆 139
6.2　BP神经网络强化学习 141
6.2.1　原理 141
6.2.2　代码 145
6.3　卷积神经网络强化学习 157
6.3.1　原理 157
6.3.2　代码 162
6.4　DQN的改进 167

第7章　策略学习 170
7.1　策略梯度算法 171
7.1.1　策略梯度原理 171
7.1.2　REINFORCE算法 173
7.1.3　代码 176
7.2　Actor-Critic算法 184
7.2.1　原理 184
7.2.2　环境：LunarLander 189
7.2.3　代码 190
7.3　其他基于策略的算法 197

附录 203
附录A　环境设置与行为探索 204
A.1　Gym库与环境设置 204
A.2　具有人类偏好的多智能体强化学习 206
附录B　博弈与策略 209
B.1　什么是博弈 209
B.2　混合策略博弈 212
B.3　序贯博弈 215
B.4　无限博弈与有限博弈 216
附录C　收益衡量 222
C.1　理性收益：期望价值 223
C.2　效用收益：期望效用 226
C.3　情感收益：前景理论 228

前　　言

新一代人工智能的崛起深刻影响着国际竞争格局，人工智能已经成为推动国家与人类社会发展的重大引擎。2017年，国务院发布《新一代人工智能发展规划》，其中明确指出：支持开展形式多样的人工智能科普活动，鼓励广大科技工作者投身人工智能知识的普及与推广，全面提高全社会对人工智能的整体认知和应用水平。实施全民智能教育项目，在中小学阶段设置人工智能相关课程，逐步推广编程教育，鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广。
为了贯彻落实《新一代人工智能发展规划》，国家有关部委相继颁布出台了一系列政策。截至2022年2月，全国共有440所高校设置了人工智能本科专业，387所高等职业教育（专科）学校设置了人工智能技术服务专业，一些高校甚至已经在积极探索人工智能跨学科的建设。在高中阶段，“人工智能初步”已经成为信息技术课程的选择性必修内容之一。在2022年实现“从0到 1”突破的义务教育阶段信息科技课程标准中，明确要求在7～9年级需要学习“人工智能与智慧社会”相关内容，实际上，1～6年级阶段信息技术课程的不少内容也与人工智能关系密切，是学习人工智能的基础。
人工智能是一门具有高度交叉属性的学科，笔者认为其交叉性至少体现在三个方面：行业交叉、学科交叉、学派交叉。在大数据、算法、算力三驾马车的推动下，新一代人工智能已经逐步开始赋能各个行业。人工智能也在助力各学科的研究，近几年，《自然》等顶级刊物不断刊发人工智能赋能学科的文章，如人工智能推动数学、化学、生物、考古、设计、音乐以及美术等的发展。人工智能内部的学派也在不断交叉融合，像知名的AlphaGo，就是集三大主流学派优势，并且现在这种不同学派间取长补短的研究开展得如火如荼。总之，未来的学习、工作与生活中，人工智能赋能的身影将无处不在，因此掌握一定的人工智能知识与技能将大有裨益。
从笔者长期从事人工智能教学、研究经验来看，有些人对人工智能还存在一定的误区。比如将编程与人工智能直接画上了等号，又或是认为人工智能就只有深度学习等。实际上，人工智能的知识体系十分庞大，内容涵盖相当广泛，不但有逻辑推理、知识工程、搜索算法等相关内容，还涉及机器学习、深度学习以及强化学习等算法模型。当然，了解人工智能的起源与发展、人工智能的道德伦理对正确认识人工智能和树立正确的价值观也是十分必要的。
通过对人工智能及其相关知识的系统学习，可以培养数学思维（mathematical thinking）、逻辑思维（reasoning thinking）、计算思维（computational thinking）、艺术思维（artistic thinking）、创新思维（innovative thinking）与数据思维（data thinking），即 MRCAID。然而遗憾的是，目前市场上既能较综合介绍人工智能相关知识，又能辅以程序代码解决问题，同时还能迅速入门的图书并不多见。因此笔者编写了本系列图书，以期实现体系内容较全、配合程序操练及上手简单方便等特点。
本书将带您走进强化学习的奇妙世界。强化学习，作为人工智能领域的一个重要分支，近年来在理论研究和实际应用中都取得了显著进展。本书旨在为读者提供一个全面而深入的强化学习概览，从历史背景到未来趋势，从基本概念到复杂算法。
第1章介绍强化学习的基本概念和关键要素，并比较它与监督学习、无监督学习的区别。本章还探讨了三个强化学习的主要方法：试错、动态规划和时序差分，以及它们与深度学习和跨界应用中的融合，旨在让读者能够快速了解强化学习的相关内容。第2章探讨了马尔可夫决策过程和贝尔曼方程，这两个概念是理解和实施强化学习算法的基石。通过探索网格迷宫等例子，来直观理解这些数学工具的实际应用。本章介绍的动态规划是解决强化学习问题的一种经典方法。第3章详细介绍了策略迭代和价值迭代这两种核心算法，并通过实例和代码演示来加深理解。第4章开始转向无模型的强化学习方法。蒙特卡洛方法在强化学习中的应用广泛，本章不仅解释了其在强化学习中的基本原理，还通过21点这样的游戏环境，展示了蒙特卡洛方法在强化学习中的应用，如何从经验中直接学习策略而无须环境模型。第5章仍然探讨无模型的强化学习方法，引入时序差分的概念。时序差分是强化学习中的核心算法之一，它结合了蒙特卡洛方法的样本效率和动态规划的引导特性。本章给出了Sarsa算法和Q-Learning算法的原理，并通过悬崖漫步的实际案例来阐释这些概念。第6章重点介绍了强化学习与深度学习的结合，这是强化学习一个热门的研究领域，本章介绍了DQN及其变种，此外还讨论了神经网络如何提升强化学习算法的性能。第7章讨论了基于策略的强化学习算法，如策略梯度算法、REINFORCE算法以及Actor-Critic算法。这些算法在处理高维动作空间时显示出了其独特的优势。本书的附录部分包含了Gym库的使用、博弈理论以及如何衡量收益的相关内容。
本书的出版要感谢曾提供热情指导与帮助的院士、教授、中小学教师等专家学者，也要感谢与笔者一起并肩参与写作的其他作者，同时还要感谢化学工业出版社编辑老师们的热情支持与一丝不苟的工作态度。
在本书的出版过程中，未来基因（北京）人工智能研究院、腾讯教育、阿里云、科大讯飞等机构给予了大力支持，在此一并表示感谢。
另外，还需要感谢北京航空航天大学的吴越博士以及清华大学本科生陈硕同学，他们也为本书做出了重要贡献。
最后，还要特别鸣谢西北工业大学计算机学院的张世周老师，张老师对本书提供的诸多宝贵建议和支持使得本书得以顺利完成，并在内容质量上得到了显著提升。
希望这本书能够帮助读者更好地快速理解和应用强化学习。由于笔者水平有限，书中内容不可避免会存在疏漏，欢迎广大读者批评指正并提出宝贵的意见。

龚超
2023年12月于清华大学

抢先评论了 “人工智能超入门丛书–强化学习：人工智能如何知错能改” 取消回复

还没有评论。

人工智能超入门丛书–强化学习：人工智能如何知错能改

一本书入门强化学习，动态规划、时序差分、马尔科夫与贝尔曼方程、蒙特卡洛深度强化学习等轻松学懂并提高

作者:龚超、王冀、梁霄、贵宁著出版社:化学工业出版社出版时间:2024年08月

ISBN: 9787122452825

年中特卖用“SALE15”折扣卷全场书籍85折！可与三本88折，六本78折的优惠叠加计算！全球包邮!

描述

抢先评论了 “人工智能超入门丛书–强化学习：人工智能如何知错能改” 取消回复

评论

人工智能超入门丛书–强化学习：人工智能如何知错能改

一本书入门强化学习，动态规划、时序差分、马尔科夫与贝尔曼方程、蒙特卡洛深度强化学习等轻松学懂并提高

作者:龚超、王冀、梁霄、贵宁 著 出版社:化学工业出版社 出版时间:2024年08月

ISBN: 9787122452825

年中特卖用“SALE15”折扣卷全场书籍85折！可与三本88折，六本78折的优惠叠加计算！全球包邮!

描述

抢先评论了 “人工智能超入门丛书–强化学习：人工智能如何知错能改” 取消回复

评论

相关产品

TensorFlow：实战Google深度学习框架（第2版）

Python深度学习

人工智能的未来（揭示人类思维的奥秘）

现代控制理论（第3版）

作者:龚超、王冀、梁霄、贵宁著出版社:化学工业出版社出版时间:2024年08月