Name: TensorFlow2强化学习手册
SKU: 65b04495f0f2241c90765262
Price: 58.99 EUR
Availability: InStock

描述

开本: 16开纸张: 胶版纸包装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302643388丛书名: 中外学者论AI

产品特色

编辑推荐

通过本书，读者可以：
l使用全新的TensorFlow和Keras API从头开始构建深度强化学习智能体；
l使用最少代码实现先进的深度强化学习算法；
l在模拟环境中培训深度强化学习智能体，以执行加密货币、股票交易和建筑能源优化等现实世界的任务；
l使用TensorFlow创建桌面应用程序、云服务、Web和移动应用程序，将强化学习智能体部署到云端，构建跨平台应用程序；
使用分布式DNN模型训练加快代理开发。

内容简介

本书首先介绍深度强化学习的基础知识以及TensorFlow 2.x的**主要版本。随后介绍OpenAI Gym、基于模型的RL和无模型的RL，并学习如何开发基本代理。深入介绍发现如何实施高级深度强化学习算法，例如行动者批评、深度确定性策略梯度、深度Q网络、近端策略优化以及深度循环Q网络，以训练RL代理。同时，本书通过构建用于自动完成任务的加密货币交易代理，股票/股票交易代理和智能代理等实例，探索现实世界中的强化学习。最后，本书介绍如何使用TensorFlow 2.x将深度强化学习代理部署到云并构建跨平台应用程序。

作者简介

陈翔，中山大学电子与信息工程学院教授，电子与信息工程实验教学中心副主任，深圳清华大学研究院兼职主任研究员，深圳空天通信终端应用技术工程实验室副主任。主要研究方向为5G移动通信与网络、卫星通信、软件无线电，在国内外知名期刊和会议上发表论文80余篇，获授权发明专利40余项，获2017年度中国电子学会优秀科技工作者称号。
王玺钧，中山大学电子与信息工程学院副教授。主要研究方向包括智能物联网、无人机通信和群智学习，发表论文90余篇，参撰著作1部，获授权发明专利40余项。

目　　录

第 1 章使用 TensorFlow 2.x 开发深度强化学习的基本模块 1
1.1 技术要求 1
1.2 构建训练强化学习智能体的环境和奖励机制 1
1.2.1 前期准备 2
1.2.2 实现步骤 2
1.2.3 工作原理 8
1.3 针对离散动作空间和离散决策问题实现基于神经网络的强化学习策略 8
1.3.1 前期准备 9
1.3.2 实现步骤 9
1.3.3 工作原理 13
1.4 针对连续动作空间和连续控制问题实现基于神经网络的强化学习策略 13
1.4.1 前期准备 14
1.4.2 实现步骤 14
1.4.3 工作原理 19
1.5 将 OpenAI Gym 作为强化学习的训练环境 20
1.5.1 前期准备 20
1.5.2 实现步骤 20
1.5.3 工作原理 22
1.6 构建神经网络智能体 22
1.6.1 前期准备 23
1.6.2 实现步骤 23
1.6.3 工作原理 26
1.7 构建神经网络进化智能体 27
1.7.1 前期准备 27
1.7.2 实现步骤 27
1.7.3 工作原理 34
1.8 参考资料 34
第 2 章基于价值、策略和行动者-评论家的深度强化学习算法实现. 35
2.1 技术要求 35
2.2 构建用于训练强化学习智能体的随机环境 35
2.2.1 前期准备 36
2.2.2 实现步骤 37
2.2.3 工作原理 42
2.3 构建基于价值的强化学习智能体算法 42
2.3.1 前期准备 43
2.3.2 实现步骤 43
2.3.3 工作原理 46
2.4 实现时序差分学习 47
2.4.1 前期准备 47
2.4.2 实现步骤 48
2.4.3 工作原理 52
2.5 构建强化学习中的蒙特卡洛预测和控制算法 53
2.5.1 前期准备 54
2.5.2 实现步骤 54
2.5.3 工作原理 58
2.6 实现 SARSA 算法和对应的强化学习智能体 59
2.6.1 前期准备 59
2.6.2 实现步骤 59
2.6.3 工作原理 61
2.7 构建基于 Q 学习的智能体 62
2.7.1 前期准备 62
2.7.2 实现步骤 63
2.7.3 工作原理 64
2.8 实现策略梯度 65
2.8.1 前期准备 65
2.8.2 实现步骤 66
2.8.3 工作原理 70
2.9 实现行动者-评论家算法 70
2.9.1 前期准备 70
2.9.2 实现步骤 71
2.9.3 工作原理 74
第 3 章高级强化学习算法的实现 75
3.1 技术要求 75
3.2 实现 Deep Q 学习算法、DQN 和 Double-DQN 智能体 75
3.2.1 前期准备 76
3.2.2 实现步骤 76
3.2.3 工作原理 81
3.3 实现 Dueling DQN 智能体 81
3.3.1 前期准备 81
3.3.2 实现步骤 82
3.3.3 工作原理 86
3.4 实现 Dueling Double DQN 算法和 DDDQN 智能体 86
3.4.1 前期准备 87
3.4.2 实现步骤 87
3.4.3 工作原理 91
3.5 实现深度递归 Q 学习算法和 DRQN 智能体 91
3.5.1 前期准备 91
3.5.2 实现步骤 92
3.5.3 工作原理 96
3.6 实现异步优势行动者-评论家算法和 A3C 智能体 96
3.6.1 前期准备 96
3.6.2 实现步骤 97
3.6.3 工作原理 104
3.7 实现近端策略优化算法和 PPO 智能体 104
3.7.1 前期准备 104
3.7.2 实现步骤 105
3.7.3 工作原理 112
3.8 实现深度确定性策略梯度算法和 DDPG 智能体 112
3.8.1 前期准备 112
3.8.2 实现步骤 113
3.8.3 工作原理 119
第 4 章现实世界中的强化学习——构建加密货币交易智能体 120
4.1 技术要求 120
4.2 使用真实市场数据搭建一个比特币交易强化学习平台 120
4.2.1 前期准备 121
4.2.2 实现步骤 121
4.2.3 工作原理 127
4.3 使用价格图表搭建一个以太坊交易强化学习平台 128
4.3.1 前期准备 128
4.3.2 实现步骤 129
4.3.3 工作原理 135
4.4 为强化学习智能体搭建一个高级的加密货币交易平台 135
4.4.1 前期准备 135
4.4.2 实现步骤 136
4.4.3 工作原理 140
4.5 使用强化学习训练一个加密货币交易智能体 141
4.5.1 前期准备 141
4.5.2 实现步骤 141
4.5.3 工作原理 153
第 5 章现实世界中的强化学习——建立股票/股份交易智能体 154
5.1 技术要求 154
5.2 使用真实的证券交易所数据搭建一个股票市场交易强化学习平台 155
5.2.1 前期准备 155
5.2.2 实现步骤 155
5.2.3 工作原理 159
5.3 使用价格图表搭建一个股票市场交易强化学习平台 159
5.3.1 前期准备 160
5.3.2 实现步骤 160
5.3.3 工作原理 165
5.4 搭建一个高级的股票交易强化学习平台以训练智能体模仿专业交易员 165
5.4.1 前期准备 165
5.4.2 实现步骤 166
5.4.3 工作原理 171
第 6 章现实世界中的强化学习——构建智能体来完成您的待办事项 173
6.1 技术要求 173
6.2 为现实世界的强化学习搭建学习环境 174
6.2.1 前期准备 174
6.2.2 实现步骤 174
6.2.3 工作原理 181
6.3 构建一个强化学习智能体来完成网络上的任务——行动号召 181
6.3.1 前期准备 182
6.3.2 实现步骤 182
6.3.3 工作原理 192
6.4 构建一个用于可视化页面的自动登录机器人 193
6.4.1 前期准备 194
6.4.2 实现步骤 194
6.4.3 工作原理 202
6.5 训练一个强化学习智能体来自动为您的行程预订航班 203
6.5.1 前期准备 203
6.5.2 实现步骤 204
6.5.3 工作原理 211
6.6 训练一个强化学习智能体来管理您的电子邮件 212
6.6.1 前期准备 212
6.6.2 实现步骤 213
6.6.3 工作原理 217
6.7 训练一个强化学习智能体来自动管理您的社交媒体账户 218
6.7.1 前期准备 218
6.7.2 实现步骤 219
6.7.3 工作原理 226
第 7 章在云端部署深度强化学习智能体 228
7.1 技术要求 228
7.2 实现强化学习智能体的运行组件 228
7.2.1 前期准备 229
7.2.2 实现步骤 229
7.2.3 工作原理 234
7.3 建立强化学习环境模拟器的服务 234
7.3.1 前期准备 235
7.3.2 实现步骤 235
7.3.3 工作原理 241
7.4 使用远程模拟服务器训练强化学习智能体 242
7.4.1 前期准备 242
7.4.2 实现步骤 242
7.4.3 工作原理 246
7.5 测试/评估强化学习智能体 246
7.5.1 前期准备 247
7.5.2 实现步骤 247
7.5.3 工作原理 250
7.6 组装强化学习智能体进行部署——一个交易机器人 250
7.6.1 前期准备 251
7.6.2 实现步骤 251
7.6.3 工作原理 256
7.7 将强化学习智能体部署到云端——交易机器人即服务 256
7.7.1 前期准备 257
7.7.2 实现步骤 257
7.7.3 工作原理 259
第 8 章使用分布式训练加速深度强化学习智能体开发 261
8.1 技术要求 261
8.2 使用 TensorFlow 2.x 的分布式深度学习模型——多 GPU 训练 261
8.2.1 前期准备 262
8.2.2 实现步骤 262
8.2.3 工作原理 268
8.3 纵向扩展与横向扩展——多机、多 GPU 训练 268
8.3.1 前期准备 269
8.3.2 实现步骤 269
8.3.3 工作原理 272
8.4 大规模训练深度强化学习智能体——多 GPU PPO 智能体 272
8.4.1 前期准备 272
8.4.2 实现步骤 272
8.4.3 工作原理 284
8.5 为加速训练的分布式深度强化学习的基础模块 284
8.5.1 前期准备 284
8.5.2 实现步骤 285
8.5.3 工作原理 290
8.6 使用 Ray、Tune 和 RLLib 进行大规模的深度强化学习智能体训练 291
8.6.1 前期准备 291
8.6.2 实现步骤 291
8.6.3 工作原理 296
第 9 章深度强化学习智能体的多平台部署 297
9.1 技术要求 297
9.2 使用 TensorFlow Lite 组装用于移动和物联网设备的深度强化学习智能体 297
9.2.1 前期准备 298
9.2.2 实现步骤 298
9.2.3 工作原理 303
9.3 在移动设备上部署强化学习智能体 304
9.3.1 前期准备 305
9.3.2 实现步骤 306
9.3.3 工作原理 313
9.4 使用 TensorFlow.js 为 Web 和 Node.js 组装深度强化学习智能体 313
9.4.1 前期准备 313
9.4.2 实现步骤 314
9.4.3 工作原理 318
9.5 将深度强化学习智能体部署为服务 318
9.5.1 前期准备 319
9.5.2 实现步骤 319
9.5.3 工作原理 323
9.6 为跨平台部署组装深度强化学习智能体 323
9.6.1 前期准备 323
9.6.2 实现步骤 324
9.6.3 工作原理 330

前　　言

深度强化学习能够构建超越计算机视觉或感知的智能体、产品和服务来执行操作。TensorFlow 2.x 是最流行的深度学习框架的最新版本，用于开发和训练深度神经网络（Deep Neural Network，DNN）。

本书首先介绍了深度强化学习的基础知识和TensorFlow 2.x的最新主要版本。接下来的内容涵盖了OpenAI Gym、基于模型的强化学习和无模型的强化学习，以及学习如何开发基本智能体。接着，读者将了解如何实现高级的深度强化学习算法，如行动者-评论家、深度确定性策略梯度、深度Q网络、近端策略优化、深度循环Q网络和软行动者-评论家等算法，以训练强化学习智能体。读者还将通过构建加密货币交易智能体、股票/股份交易智能体和用于自动完成任务的智能体来探索现实世界中的强化学习。最后，读者将了解如何将深度强化学习智能体部署到云端，以及如何使用TensorFlow 2.x为Web端、移动端和其他平台构建跨平台应用程序。

通过本书，可以使用TensorFlow 2.x从头开始进行简单易懂的实现，读者可以更深入理解深度强化学习算法。

本书的目标读者

本书是面向希望使用TensorFlow 2.x从零开始构建、训练和部署自己的强化学习系统的机器学习应用开发者、人工智能和应用人工智能研究人员、数据科学家、深度学习从业者和了解强化学习基础知识的学生。

本书涵盖的内容

第1章，使用TensorFlow 2.x开发深度强化学习的基本模块，提供了为具有离散和连续动作空间的强化学习应用构建强化学习环境、基于深度神经网络的强化学习智能体、进化神经智能体以及其他基本模块的初始教程。

第2章，基于价值、策略和行动者-评论家的深度强化学习算法实现，包含实现基于价值迭代的学习智能体的方法，并将强化学习中几个基础算法（如蒙特卡洛控制、SARSA和Q学习、行动者-评论家以及策略梯度算法）的实现分解为简单的步骤。

第3章，高级强化学习算法的实现，提供了使用深度Q网络（Deep Q-Network，DQN）、双重与竞争深度Q网络（Double and Dueling Deep Q-Network，DDDQN）、深度循环Q网络（Deep Recurrent Q-Network，DRQN）、异步优势行动者-评论家（Asynchronous Advantage Actor-Critic，A3C）、近端策略优化（Proximal Policy Optimization，PPO）以及深度确定性策略梯度（Deep Deterministic Policy Gradient，DDPG）算法实现完整智能体训练系统的简明方法。

第4章，现实世界中的强化学习——构建加密货币交易智能体，展示了如何使用来自Gemini等交易所的真实市场数据在自定义强化学习环境中实现和训练一个软行动者-评论家智能体，用于比特币和以太币交易，其中包括表格和视觉（图像）的状态/观测以及离散和连续的动作空间。

第5章，现实世界中的强化学习——构建股票/股份交易智能体，涵盖了如何在由真实的股票市场交易数据支撑的自定义强化学习环境中训练高级的强化学习智能体，使用可视化价格图表和/或表格票证数据等在股票市场上进行交易以获取利润。

第6章，现实世界中的强化学习——构建智能体来完成您的待办事项，提供了构建、训练和测试基于视觉的强化学习智能体来完成Web上的任务的方法，以帮助您自动完成任务，如单击网页上的弹出/确认对话框、登录各种网站、查找并预订最便宜的行程机票、整理您的电子邮件收件箱，以及在社交媒体网站上点赞/分享/转发帖子以与您的关注者互动。

第7章，在云端部署深度强化学习智能体，提供了工具和详细信息，帮助读者领先一步使用深度强化学习提前建立基于云的模拟即服务和智能体/机器人即服务程序。通过部署交易机器人即服务，学习如何使用在云端运行的远程模拟器来训练强化学习智能体，组装强化学习智能体的运行组件，以及将深度强化学习智能体部署到云端。

第8章，使用分布式训练加速深度强化学习智能体开发，包含了使用TensorFlow 2.x进行深度神经网络模型的分布式训练以加速深度强化学习智能体开发的方法。您将了解如何在单台机器和机器集群上利用多个CPU和GPU来纵向/横向扩展您的深度强化学习智能体训练，以及如何利用Ray、Tune和RLLib进行大规模加速训练。

第9章，深度强化学习智能体的多平台部署，提供了可自定义的模板，读者可以利用这些模板来为自己的用例构建和部署深度强化学习应用程序。读者将了解如何以各种实际使用的格式（如TensorFlow Lite、TensorFlow.js和ONNX）导出用于服务/部署的强化学习智能体模型，并了解如何利用NVIDIA Triton或构建您自己的解决方案来启动可实际使用的、基于强化学习的人工智能服务。读者还可以在手机和Web应用程序中部署强化学习智能体，并学习如何在Node.js应用程序中部署强化学习机器人。

书尽其用的建议

本书的代码已经在Ubuntu 18.04和Ubuntu 20.04 上进行了广泛的测试，而且可以在安装了Python 3.6 的Ubuntu后续版本中正常工作。在安装Python 3.6 的情况下，搭配每项内容开始时列出的必要Python 工具包，本书的代码也同样可以在Windows和macOS X上运行。

建议创建和使用一个名为tf2rl-cookbook的Python虚拟环境安装工具包以及运行本书的代码。推荐读者安装Miniconda或 Anaconda 管理Python虚拟环境。

建议对GitHub存储库加注星标并进行分叉，以便接收代码的更新和改进。此外，建议读者在GitHub本书讨论区分享自己的成果，并与其他读者和社区进行互动。

示例代码文件的下载

扫描下方二维码下载全书示例代码。

彩色图像的下载

本书提供了书中图像的PDF文件，包含本书中使用的屏幕截图/图表的彩色图像，可以扫描下方二维码下载。

使用的约定

本书中使用了许多文本约定。

Code in text：表示文本中使用的代码字。下面是一个示例：“我们将从实现Actor类中的save方法开始，以将Actor模型导出为TensorFlow的SavedModel格式。”

代码块的设置如下：

def save(self, model_dir: str, version: int = 1):

actor_model_save_dir = os.path.join(model_dir, “actor”, str(version), “model.savedmodel”)

self.model.save(actor_model_save_dir, save_format=”tf”)

print(f”Actor model saved at:{actor_model_save_dir}”)

对于代码块的特定部分，相关行或项将以粗体显示：

译者注：此处原书也未体现粗体。

if args.agent != “SAC”:

print(f”Unsupported Agent: {args.agent}. Using SAC Agent”)

args.agent = “SAC”

# Create an instance of the Soft Actor-Critic Agent

agent = SAC(env.observation_space.shape, env.action_space)

任何命令行输入或输出都按如下方式给出：

(tfrl-cookbook)praveen@desktop:~/tensorflow2-reinforcement-learning-cookbook/src/ch7-cloud-deploy-deep-rl-agents$ python 3_training_rl_agents_using_remote_sims.py

粗体（Bold）：表示新术语、重要词或屏幕上看到的词。例如，菜单或对话框中的单词会像这样出现在文本中。例如，“单击打开现有项目（Open an Existing Project）选项，可以看到一个弹出窗口，询问选择文件系统上的目录。导航到第9章的内容，并选择9.2_rl_android_app。”

提示或重要说明

像这样出现。

抢先评论了 “TensorFlow2强化学习手册” 取消回复

还没有评论。

TensorFlow2强化学习手册

深刻理解深度强化学习，基于TensorFlow探索现实世界中的强化学习。提供全书代码

作者:[美]普拉文·帕拉尼萨米(Praveen Palanisamy) 著陈翔王玺钧译出版社:清华大学出版社出版时间:2023年12月

ISBN: 9787302643388

年中特卖用“SALE15”折扣卷全场书籍85折！可与三本88折，六本78折的优惠叠加计算！全球包邮!

描述

抢先评论了 “TensorFlow2强化学习手册” 取消回复

评论

TensorFlow2强化学习手册

深刻理解深度强化学习，基于TensorFlow探索现实世界中的强化学习。提供全书代码

作者:[美]普拉文·帕拉尼萨米(Praveen Palanisamy) 著 陈翔 王玺钧 译 出版社:清华大学出版社 出版时间:2023年12月

ISBN: 9787302643388

年中特卖用“SALE15”折扣卷全场书籍85折！可与三本88折，六本78折的优惠叠加计算！全球包邮!

描述

抢先评论了 “TensorFlow2强化学习手册” 取消回复

评论

相关产品

Linux命令行与shell脚本编程大全 第3版

鸟哥的Linux私房菜:服务器架设篇(第3版)（超级畅销书第三次改版升级，适用于各种主流Linux版本！决战大数据时代！IT技术人员不得不读！）

嵌入式Linux应用开发完全手册（附光盘）

Git版本控制管理（第2版）

作者:[美]普拉文·帕拉尼萨米(Praveen Palanisamy) 著陈翔王玺钧译出版社:清华大学出版社出版时间:2023年12月

Linux命令行与shell脚本编程大全第3版