描述
开 本: 16开纸 张: 胶版纸包 装: 精装是否套装: 否国际标准书号ISBN: 9787030770950丛书名: 新-代人工智能理论、技术及应用丛书
内容简介
《游戏人工智能方法》尝试总结近年来游戏人工智能方向的优秀研究工作,以及作者的一些探索成果。主要内容包括游戏人工智能的背景、**的游戏人工智能方法、DeepMind针对棋牌和视频类游戏的人工智能方法,以及作者团队针对即时游戏的人工智能方法,如格斗游戏、星际争霸的宏观生产和微观操作等。从理论分析到算法设计到编程实现,旨在为读者提供一个针对不同游戏人工智能问题的系统性论述。
目 录
目录
“新一代人工智能理论、技术及应用丛书”序
前言
第1章游戏人工智能介绍1
1.1引言1
1.1.1游戏人工智能背景和意义1
1.1.2游戏人工智能研究发展1
1.2回合制游戏人工智能3
1.2.1棋类游戏人工智能发展历程3
1.2.2牌类游戏人工智能发展历程4
1.2.3棋牌类游戏人工智能测试平台5
1.3即时制游戏人工智能7
1.3.1即时制游戏平台和竞赛7
1.3.2雅达利游戏8
1.3.3**人称视角游戏9
1.3.4即时策略游戏10
1.4游戏人工智能的关键性挑战与研究思路12
1.5游戏人工智能的未来发展趋势与展望13
1.5.1基于深度强化学习方法的策略模型泛化性14
1.5.2构建高效鲁棒合理的前向推理模型14
1.5.3增强模型的环境适应和学习优化性能14
1.5.4从虚拟环境到实际应用的迁移15
1.6本章小结15
参考文献15
第2章基本游戏人工智能方法20
2.1引言20
2.2**博弈树模型20
2.2.1极小化极大算法20
2.2.2α-β剪枝算法21
2.3统计前向规划22
2.3.1蒙特卡罗树搜索算法23
2.3.2滚动时域演化算法26
2.4强化学习27
2.4.1蒙特卡罗算法29
2.4.2时间差分强化学习算法30
2.4.3策略梯度学习算法31
2.5深度强化学习33
2.5.1深度Q网络及其扩展34
2.5.2异步优势执行器-评价器算法及其扩展38
2.5.3策略梯度深度强化学习40
2.5.4面向对抗博弈的深度强化学习43
2.6本章小结45
参考文献45
第3章DeepMind游戏人工智能方法51
3.1引言51
3.2AlphaGo51
3.2.1算法概述52
3.2.2计算机围棋的发展历史与现状52
3.2.3原理分析53
3.2.4性能分析56
3.2.5评价57
3.3AlphaGoZero.58
3.3.1算法概述58
3.3.2深度神经网络结构61
3.3.3蒙特卡罗树搜索61
3.3.4训练流程64
3.3.5讨论65
3.4AlphaZero和MuZero66
3.4.1AlphaZero概述67
3.4.2MuZero概述68
3.4.3算法解析70
3.4.4性能分析72
3.5AlphaStar74
3.5.1星际争霸研究意义74
3.5.2算法概述75
3.5.3算法解析76
3.5.4性能分析78
3.6本章小结81
参考文献82
第4章两人零和马尔可夫博弈的极小化极大Q网络算法85
4.1引言85
4.2两人零和马尔可夫博弈的基本知识86
4.2.1两人零和马尔可夫博弈86
4.2.2纳什均衡或极小化极大均衡86
4.2.3极小化极大价值和极小化极大方程86
4.2.4线性规划求解极小化极大解87
4.3动态规划求解贝尔曼极小化极大方程88
4.3.1值迭代88
4.3.2策略迭代88
4.3.3广义策略迭代89
4.4极小化极大Q网络算法90
4.4.1Q函数神经网络90
4.4.2在线学习90
4.4.3M2QN算法在查表法下的收敛性92
4.5仿真实验94
4.5.1足球博弈94
4.5.2守护领土96
4.5.3格斗游戏98
4.6本章小结101
参考文献101
第5章格斗游戏的对手模型和滚动时域演化算法104
5.1引言104
5.2基于滚动时域演化的统计前向规划建模105
5.2.1格斗游戏问题定义105
5.2.2滚动时域演化算法105
5.3基于自适应对手模型的神经网络建模107
5.3.1对手模型建模107
5.3.2监督学习式对手模型107
5.3.3强化学习式对手模型108
5.4实验设计与测试结果110
5.4.1实验设置与测试平台110
5.4.2内部比较111
5.4.3对抗2018年格斗游戏程序113
5.4.4两种统计前向规划与对手建模结合的性能比较114
5.4.52019年格斗游戏竞赛结果115
5.4.62020年格斗游戏竞赛结果115
5.4.7性能指标分析116
5.4.8讨论121
5.5本章小结121
参考文献122
第6章星际争霸宏观生产的深度强化学习算法124
6.1引言124
6.2星际争霸宏观生产决策分析与建模125
6.2.1问题定义125
6.2.2输入状态特征126
6.2.3决策动作定义128
6.2.4决策神经网络模型结构128
6.2.5基于策略和价值混合式网络的决策系统优化方法129
6.3实验设置与结果分析132
6.3.1星际争霸宏观决策对抗优化场景132
6.3.2对抗优化场景下的实验结果133
6.3.3星际争霸学生天梯赛136
6.4本章小结136
参考文献136
第7章星际争霸微操的强化学习和课程迁移学习算法138
7.1引言138
7.2星际争霸微操任务分析与建模139
7.2.1问题定义139
7.2.2高维状态表示140
7.2.3动作定义141
7.2.4网络结构141
7.3基于强化学习的星际争霸多单位控制142
7.3.1共享参数多智能体梯度下降Sarsa(λ)算法143
7.3.2奖赏函数144
7.3.3帧跳跃145
7.3.4课程迁移学习145
7.4实验设置和结果分析146
7.4.1星际争霸微操场景设置146
7.4.2结果讨论147
7.4.3策略分析151
7.5本章小结154
参考文献154
第8章星际争霸微操的可变数量多智能体强化学习算法156
8.1引言156
8.2背景知识与相关工作156
8.2.1多智能体强化学习156
8.2.2联合观测动作价值函数分解158
8.2.3相关工作158
8.3可变数量多智能体强化学习162
8.3.1自加权混合网络162
8.3.2适应动作空间变化的智能体网络165
8.3.3可变网络的训练算法166
8.4星际争霸II微操实验169
8.4.1可变网络在星际争霸II微操环境的实验设置169
8.4.2可变网络实验结果170
8.4.3消融实验172
8.4.4可变网络策略分析174
8.5本章小结175
参考文献176
附录A强化学习符号表178
附录B主要词汇中英文对照表179
“新一代人工智能理论、技术及应用丛书”序
前言
第1章游戏人工智能介绍1
1.1引言1
1.1.1游戏人工智能背景和意义1
1.1.2游戏人工智能研究发展1
1.2回合制游戏人工智能3
1.2.1棋类游戏人工智能发展历程3
1.2.2牌类游戏人工智能发展历程4
1.2.3棋牌类游戏人工智能测试平台5
1.3即时制游戏人工智能7
1.3.1即时制游戏平台和竞赛7
1.3.2雅达利游戏8
1.3.3**人称视角游戏9
1.3.4即时策略游戏10
1.4游戏人工智能的关键性挑战与研究思路12
1.5游戏人工智能的未来发展趋势与展望13
1.5.1基于深度强化学习方法的策略模型泛化性14
1.5.2构建高效鲁棒合理的前向推理模型14
1.5.3增强模型的环境适应和学习优化性能14
1.5.4从虚拟环境到实际应用的迁移15
1.6本章小结15
参考文献15
第2章基本游戏人工智能方法20
2.1引言20
2.2**博弈树模型20
2.2.1极小化极大算法20
2.2.2α-β剪枝算法21
2.3统计前向规划22
2.3.1蒙特卡罗树搜索算法23
2.3.2滚动时域演化算法26
2.4强化学习27
2.4.1蒙特卡罗算法29
2.4.2时间差分强化学习算法30
2.4.3策略梯度学习算法31
2.5深度强化学习33
2.5.1深度Q网络及其扩展34
2.5.2异步优势执行器-评价器算法及其扩展38
2.5.3策略梯度深度强化学习40
2.5.4面向对抗博弈的深度强化学习43
2.6本章小结45
参考文献45
第3章DeepMind游戏人工智能方法51
3.1引言51
3.2AlphaGo51
3.2.1算法概述52
3.2.2计算机围棋的发展历史与现状52
3.2.3原理分析53
3.2.4性能分析56
3.2.5评价57
3.3AlphaGoZero.58
3.3.1算法概述58
3.3.2深度神经网络结构61
3.3.3蒙特卡罗树搜索61
3.3.4训练流程64
3.3.5讨论65
3.4AlphaZero和MuZero66
3.4.1AlphaZero概述67
3.4.2MuZero概述68
3.4.3算法解析70
3.4.4性能分析72
3.5AlphaStar74
3.5.1星际争霸研究意义74
3.5.2算法概述75
3.5.3算法解析76
3.5.4性能分析78
3.6本章小结81
参考文献82
第4章两人零和马尔可夫博弈的极小化极大Q网络算法85
4.1引言85
4.2两人零和马尔可夫博弈的基本知识86
4.2.1两人零和马尔可夫博弈86
4.2.2纳什均衡或极小化极大均衡86
4.2.3极小化极大价值和极小化极大方程86
4.2.4线性规划求解极小化极大解87
4.3动态规划求解贝尔曼极小化极大方程88
4.3.1值迭代88
4.3.2策略迭代88
4.3.3广义策略迭代89
4.4极小化极大Q网络算法90
4.4.1Q函数神经网络90
4.4.2在线学习90
4.4.3M2QN算法在查表法下的收敛性92
4.5仿真实验94
4.5.1足球博弈94
4.5.2守护领土96
4.5.3格斗游戏98
4.6本章小结101
参考文献101
第5章格斗游戏的对手模型和滚动时域演化算法104
5.1引言104
5.2基于滚动时域演化的统计前向规划建模105
5.2.1格斗游戏问题定义105
5.2.2滚动时域演化算法105
5.3基于自适应对手模型的神经网络建模107
5.3.1对手模型建模107
5.3.2监督学习式对手模型107
5.3.3强化学习式对手模型108
5.4实验设计与测试结果110
5.4.1实验设置与测试平台110
5.4.2内部比较111
5.4.3对抗2018年格斗游戏程序113
5.4.4两种统计前向规划与对手建模结合的性能比较114
5.4.52019年格斗游戏竞赛结果115
5.4.62020年格斗游戏竞赛结果115
5.4.7性能指标分析116
5.4.8讨论121
5.5本章小结121
参考文献122
第6章星际争霸宏观生产的深度强化学习算法124
6.1引言124
6.2星际争霸宏观生产决策分析与建模125
6.2.1问题定义125
6.2.2输入状态特征126
6.2.3决策动作定义128
6.2.4决策神经网络模型结构128
6.2.5基于策略和价值混合式网络的决策系统优化方法129
6.3实验设置与结果分析132
6.3.1星际争霸宏观决策对抗优化场景132
6.3.2对抗优化场景下的实验结果133
6.3.3星际争霸学生天梯赛136
6.4本章小结136
参考文献136
第7章星际争霸微操的强化学习和课程迁移学习算法138
7.1引言138
7.2星际争霸微操任务分析与建模139
7.2.1问题定义139
7.2.2高维状态表示140
7.2.3动作定义141
7.2.4网络结构141
7.3基于强化学习的星际争霸多单位控制142
7.3.1共享参数多智能体梯度下降Sarsa(λ)算法143
7.3.2奖赏函数144
7.3.3帧跳跃145
7.3.4课程迁移学习145
7.4实验设置和结果分析146
7.4.1星际争霸微操场景设置146
7.4.2结果讨论147
7.4.3策略分析151
7.5本章小结154
参考文献154
第8章星际争霸微操的可变数量多智能体强化学习算法156
8.1引言156
8.2背景知识与相关工作156
8.2.1多智能体强化学习156
8.2.2联合观测动作价值函数分解158
8.2.3相关工作158
8.3可变数量多智能体强化学习162
8.3.1自加权混合网络162
8.3.2适应动作空间变化的智能体网络165
8.3.3可变网络的训练算法166
8.4星际争霸II微操实验169
8.4.1可变网络在星际争霸II微操环境的实验设置169
8.4.2可变网络实验结果170
8.4.3消融实验172
8.4.4可变网络策略分析174
8.5本章小结175
参考文献176
附录A强化学习符号表178
附录B主要词汇中英文对照表179
评论
还没有评论。