描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121371264
突出应用和实践成果
本书面向的读者是学习和运用深度学习模型到具体应用场景的企业工程师、科研院所的学生和科研人员。目的是对深度学习模型和算法有了解后,重点应用和实践及快速部署在他们工作的领域并希望取得落地成果。
内容讲解由浅入深
本书*部分第二部分是基础,介绍了深度学习理论和常用工具及常见的深度学习模型。
第三部分是进阶内容,讲解应用于计算机视觉、自然语言处理及理解、和决策任务的高级深度学习模型。第四部分是工程实践、在线推理优化和未来展望。
高阶模型的应用分享
学术界和工业界*的高阶深度学习模型和实现及他们在互联网搜索、广告、对话机器人、电商等领域的应用。包括用于对话机器人的DeepProbe模型,用于单张照片产品识别和属性生成的VPR模型,用于信息检索和语义向量生成的DeepIntent模型,用于文本语义嵌入和匹配的FastText模型,生成对抗网络模型(GAN)以及它在图像生成和自然语言处理中的应用,强化学习模型的模型结构、训练算法和应用。这些模型和实现都已经应用在微软的众多产品中,获得了很好的效果。
本书作者都是微软人工智能及研究院的研究人员和应用科学家,具有深厚的机器学习背景,在一线针对产品需求和支持的场景进行了大量的深度学习模型及算法的研究和开发,在模型设计、训练、评估、部署、推理优化等模型开发全生命周期积累了丰富的经验。
本书分为4 部分,共13 章。其中第1 部分(第1、2 章)简要介绍了深度学习的现状、概念和实现工具。第2 部分(第3~5 章)以具体的实际应用展示基于深度学习技术进行工程实践和开发的流程和技巧。第3 部分(第6~12 章)介绍了学术界和工业界*的高阶深度学习模型的实现和应用。第4 部分(第13章)介绍了深度学习领域的一些前沿研究方向,并对深度学习的未来发展进行展望。
本书面向的读者是希望学习和运用深度学习模型到具体应用场景的企业工程师、科研院所的学生和科研人员。读者学习本书的目的是了解深度学习模型和算法基础后,快速部署到自己的工作领域,并取得落地成果。
第1 章
神经网络发展史 / 1
1.1 神经网络的早期雏形 / 3
1.1.1 联结主义和Hebb 学习规则 / 4
1.1.2 Oja 学习规则及主分量分析 / 5
1.1.3 早期的神经元模型 / 5
1.2 现代神经网络 / 6
1.2.1 反向传播算法 / 6
1.2.2 神经网络的通用函数近似性 / 8
1.2.3 深度的必要性 / 9
1.3 深度学习发展历史中的重要神经网络 / 10
1.3.1 深度神经网络的兴起 / 10
1.3.2 自组织特征映射 / 10
1.3.3 霍普菲尔德神经网络 / 11
1.3.4 玻尔兹曼机及受限玻尔兹曼机 / 12
1.3.5 深度信念网 / 14
1.3.6 其他深度神经网络 / 15
1.4 本章小结 / 15
参考文献 / 16
第2 章
深度学习开源框架 / 17
2.1 主流的深度学习开源框架 / 18
2.2 简单神经网络模型在不同框架上的实现对比 / 29
2.3 本章小结 / 44
参考文献 / 45
第3 章
多层感知机在自然语言处理方面的应用 / 46
3.1 词和文本模型的发展历程 / 47
3.2 Word2Vec 模型:基于上下文的分布式表达 / 49
3.2.1 Skip-Gram 算法的训练流程 / 50
3.2.2 Skip-Gram 算法的网络结构 / 53
3.2.3 代价函数 / 54
3.3 应用TensorFlow 实现Word2Vec 模型 / 58
3.3.1 定义计算图:训练语料库预处理 / 60
3.3.2 模型计算图的实现 / 63
3.4 Word2Vec 模型的局限及改进 / 66
3.5 本章小结 / 67
参考文献 / 68
第4 章
卷积神经网络在图像分类中的应用 / 69
4.1 图像识别和图像分类的发展 / 72
4.2 AlexNet / 73
4.2.1 网络模型结构 / 74
4.2.2 AlexNet 的具体改进 / 79
4.2.3 代价函数 / 83
4.3 应用TensorFlow 实现AlexNet / 83
4.3.1 读取训练图像集 / 83
4.3.2 模型计算图的实现 / 84
4.4 本章小结 / 85
参考文献 / 86
第5 章
递归神经网络 / 87
5.1 递归神经网络应用背景介绍 / 88
5.2 递归神经网络模型介绍 / 89
5.2.1 递归神经网络模型结构 / 89
5.2.2 双向递归神经网络 / 90
5.2.3 长短期记忆模型 / 91
5.3 递归神经网络展望 / 94
5.4 本章小结 / 95
参考文献 / 95
第6 章
DeepIntent 模型在信息检索领域的应用 / 96
6.1 信息检索在搜索广告中的应用发展 / 97
6.2 含有注意力机制的RNN 模型 / 99
6.2.1 网络模型结构 / 100
6.2.2 代价函数 / 104
6.3 应用TensorFlow 实现DeepIntent 模型 / 107
6.3.1 定义计算图 / 107
6.3.2 定义代价函数及优化算法 / 114
6.3.3 执行计算图进行训练 / 118
6.4 本章小结 / 119
参考文献 / 120
第7 章
图像识别及在广告搜索方面的应用 / 121
7.1 视觉搜索 / 122
7.2 方法和系统 / 124
7.2.1 图像DNN 编码器 / 124
7.2.2 利用Rich-CDSSM 降低维度 / 125
7.2.3 快速最近邻搜索系统 / 127
7.2.4 精密层 / 127
7.2.5 端到端服务系统 / 128
7.3 评测 / 129
7.4 用于演示的Visual Shopping Assistant 应用程序 / 131
7.5 相关工作 / 132
7.6 本章小结 / 133
第8 章
Seq2Seq 模型在聊天机器人中的应用 / 134
8.1 Seq2Seq 模型应用背景 / 135
8.2 Seq2Seq 模型的应用方法 / 136
8.3 含有注意力机制的多层Seq2Seq 模型 / 137
8.3.1 词嵌入层 / 137
8.3.2 可变深度LSTM 递归层 / 138
8.3.3 注意力机制层 / 139
8.3.4 投影层 / 139
8.3.5 损失函数(loss function)和端到端训练 / 140
8.4 信息导向的自适应序列采样 / 142
8.5 多轮项目推荐 / 143
8.6 熵作为信心的度量 / 143
8.6.1 直观的定义和讨论 / 143
8.6.2 序列后验估计的不确定性 / 145
8.6.3 信息导向的抽样:最大化预期信息增益的原则 / 145
8.6.4 Seq2Seq 模型的3 个应用程序 / 146
8.6.5 应用程序1:查询理解和重写 / 147
8.6.6 应用程序2:相关性评分 / 152
8.6.7 应用程序3:聊天机器人 / 156
8.7 本章小结 / 160
参考文献 / 160
第9 章
word2vec 的改进:fastText 模型 / 162
9.1 fastText 模型的原理 / 163
9.1.1 回顾Skip-Gram 算法 / 163
9.1.2 subword 模型 / 164
9.1.3 subword 形态 / 167
9.1.4 分层softmax / 168
9.1.5 fastText 的模型架构 / 170
9.1.6 fastText 算法实现 / 171
9.2 应用场景:搜索广告中的查询词关键词匹配问题 / 172
9.3 本章小结 / 173
参考文献 / 174
第10 章
生成对抗网络 / 175
10.1 生成对抗网络的原理 / 176
10.1.1 GAN 的基本模型 / 176
10.1.2 GAN 优化目标的原理 / 178
10.1.3 GAN 的训练 / 179
10.1.4 GAN 的扩展模型 / 180
10.2 应用场景:搜索广告中由查询词直接生成关键词 / 182
10.2.1 生成模型的构建 / 182
10.2.2 判别模型的构建 / 184
10.2.3 条件生成对抗网络的构建 / 185
10.3 本章小结 / 186
参考文献 / 187
第11 章
深度强化学习 / 188
11.1 深度强化学习的原理 / 189
11.1.1 强化学习的基本概念 / 189
11.1.2 马尔可夫决策过程 / 191
11.1.3 价值函数和贝尔曼方程 / 192
11.1.4 策略迭代和值迭代 / 194
11.1.5 Q-Learning / 196
11.1.6 深度Q 网络 / 198
11.1.7 策略梯度 / 201
11.1.8 动作评价网络 / 202
11.2 应用场景:基于深度强化学习的推荐系统 / 203
11.3 本章小结 / 206
参考文献 / 206
第12 章
工程实践和线上优化 / 208
12.1 Seq2Seq 模型介绍 / 209
12.2 LSTM 优化分析 / 211
12.2.1 优化一:指数运算的近似展开 / 214
12.2.2 优化二:矩阵运算的执行速度优化 / 218
12.2.3 优化三:多线程并行处理 / 224
12.3 优化应用实例:RapidScorer 算法对GBDT 的加速 / 227
12.3.1 背景介绍 / 228
12.3.2 RapidScorer 数据结构设计 / 231
12.3.3 RapidScorer 矢量化 / 233
12.3.4 RapidScorer 实验结果 / 237
12.4 本章小结 / 238
参考文献 / 239
第13 章
深度学习的下一个浪潮 / 240
13.1 深度学习的探索方向展望 / 241
13.1.1 设计更好的生成模型 / 241
13.1.2 深度强化学习的发展 / 241
13.1.3 半监督学习与深度学习 / 242
13.1.4 深度学习自身的学习 / 242
13.1.5 迁移学习与深度学习的结合 / 242
13.1.6 用于推理的深度学习 / 243
13.1.7 深度学习工具的标准化 / 243
13.2 深度学习的应用场景展望 / 243
13.2.1 医疗健康领域 / 243
13.2.2 安全隐私领域 / 248
13.2.3 城市治理领域 / 249
13.2.4 艺术创作领域 / 250
13.2.5 金融保险领域 / 252
13.2.6 无人服务领域 / 254
13.3 本章小结 / 257
参考文献 / 258
前言
人工智能热潮
人工智能已成为炙手可热的名词和话题,其范围和影响力已经超越了学术研究和产业科技研究,成为一个社会性热点。人工智能被广泛认为是具有颠覆性的战略技术领域,对未来的世界发展和社会进步有重大影响,是建设创新型国家和世界科技强国的重要支撑,各国也相继发布关于人工智能的国家发展战略和规划。2017 年7 月,国务院发布了《新一代人工智能发展规划》的精神和部署,对我国在人工智能基础理论研究、核心技术、模型和算法、软硬件支撑平台、生态系统建设等方面规划了蓝图。这进一步激起了学术界、工业界、政府等社会各方面人士对人工智能的关注、学习、研究和开发。
人工智能的引爆在很大程度上源自深度学习技术的突破,包括语音、视觉和决策规划等领域。比如, 2012 年基于深度学习模型的AlexNet 首次夺得ImageNet 大规模视觉识别竞赛(ILSVRC)的冠军,之后所有这个竞赛的优胜模型全部是基于深度学习的。2016 年3 月,DeepMind 基于深度强化学习模型的围棋程序AlphaGo 战胜围棋世界冠军李世石引起轰动,获得广泛关注,也敲响了人工智能在社会上热潮开启的晨钟。随即各个领域学习深度学习的兴趣日渐高涨,深度学习模型、算法、框架、工具、软硬件加速器等的研究和开发也如火如荼,在研究、科技和商业领域都获得了迅猛发展。
机器学习发展路径
大部分深度学习是基于深层神经元网络的模型,属于机器学习的一种。要学习深度学习,有必要了解机器学习的发展历程。机器学习领域有很多流派,例如,强调“推理、知识、学习”的人工智能派和强调应用统计学的统计学派。
机器学习从提出、研究到发展,至今有六十多年了。这中间的研究人员有过很多方法论的尝试,让机器能够像人一样思考、判断、预测。在这个过程中,不同的时期有不同的方法流行,而在另外一个时期又失去了吸引力,但后来可能又获得新生。机器学习的发展过程可以用波浪式前进、螺旋式上升来概括。这也和每个时期的技术条件、研究水平、人们的认知水平,尤其是对人类大脑的了解,以及社会整体文明进步水平有关。
20 世纪80 年代初,机器学习研究主要集中在对知识的描述和表达、存储,以及用知识库进行推理方面。其中,用符号表示人工智能(symbolic AI)比较流行,它集中在高层次的、人类可理解的,对问题、逻辑和搜索的符号表达上,以及基于其上的规则系统的构建,最具代表性的是专家系统。但是专家系统的功能和性能远远达不到人们的期望,而且专家系统也没有数学理论的支持,很难证明这种方法论的稳定性和正确性。
20 世纪90 年代后期,随着Vapnik 统计学习理论的研究成熟,迎来了统计机器学习的黄金时期。此时出现众多的统计学习模型,比如贝叶斯网络、朴素贝叶斯、最大熵、支持向量机(Support Vector Machine,SVM)、决策树(decisiontree),普遍使用的梯度提升决策树(GBDT)、随机森林(random forest)、矩阵分解模型等,可以说是百花齐放,在各种分类、回归、聚簇问题上的准确性明显提高。因此,在搜索、广告、推荐等大量的互联网场景下获得了广泛的应用。统计机器学习模型获得成功的一个重要原因是它有稳固的统计学和最优化等数学理论的支撑,为机器学习研究和学习能力的提高提供了理论上的保证和方向上的指导。机器学习模型不是一个黑盒子,而是基于严格的数学计算,这非常重要。在整个21 世纪的第一个十年,都是统计机器学习的天下,但是这些统计机器学习模型往往需要领域专业人士和数据科学家做大量的特征工程( feature engineering)工作,设计有效的特征,才能输入模型,得到满意的效果。
在众多统计学习模型中,人工神经网络是一大类算法。人工神经网络的发展同样经历了高潮低谷的交替起伏。在深度学习兴起之前的约20 年时间里,由于计算能力和数据量的限制,人工神经网络的有效训练和学习往往只能停留在浅层次的小规模神经网络上,限制了其学习性能。此外,人工神经网络学习得到的模型也缺乏直观的可解释性。这些因素使得人工神经网络逐渐失去了吸引力。
近年来,由于大数据的发展,大量可用数据产生,以及计算能力的不断提升,神经网络卷土重来。同时,改善的模型结构及训练算法的提高,使深度学习得到了爆发,尤其是直接应用在一些做特征工程非常困难的原始数据的场景下,性能有突破性的进展,包括语音识别、图像理解、自然语言处理 (NLP)、机器翻译等,都取得了显著的改进。
本书的初衷
人工智能热激发了大家对深度学习的学习兴趣,但是目前的一些深度学习书籍要么是面向学校和机器学习的研究人员,重理论、少实践且不够实用;要么只是对一些深度学习框架和工具的介绍和翻译,而没有比较全面的深度学习模型的讲解、具体应用的实例及实际使用中经验和注意事项的分享。本书的作者都是在微软人工智能及研究院的研究人员和应用科学家,具有深厚的机器学习背景,在一线针对产品需求和支持的场景进行了大量的深度学习模型及算法的研究和开发,在模型设计、训练、评估、部署、推理优化等模型开发全生命周期积累了丰富的经验。
本书面向的读者是希望学习和运用深度学习模型到具体应用场景的企业工程师、科研院所的学生和科研人员。他们的目的不是找一本教科书从学术角度学习深度学习,像深度学习研究人员一样设计新的模型和算法,而是对深度学习模型和算法做一个基础了解后,快速部署到他们的工作领域,并取得落地成果。这正是我们写作本书的初衷和希望有所贡献的地方:让读者“打基础、读得懂、用得快、重实践、重应用”,重点是建立起分析问题、对问题形式化和应用深度学习建模、使用工具实现模型训练和推理、在实际中需要考虑的约束限制、进行取舍和工程调优等一系列的方法论,从而获得能举一反三解决新的问题的能力。
本书内容定位
基于这个写作目的,在讲解基础的前提下,侧重在实际应用中让读者快速掌握基于深度学习模型的系统开发,本书的内容覆盖以下几个部分。
第1 部分(第1、2 章)讲解深度学习的现状、概念和实现工具。
第2 部分(第3~5 章)介绍深度学习在自然语言处理、计算机视觉、预测等应用中常见模型的举例及实现,包括自然语言处理中的词嵌入向量模型;图像理解中普遍使用的卷积神经网络(CNN)及其在物体检测(object detection)方面的应用;应用于机器翻译的递归神经网络模型(RNN)和长短期记忆模型(LSTM)。
第3 部分(第6~12 章)介绍学术界和工业界最新的一些高阶深度学习模型和实现,以及它们在互联网搜索、广告、对话机器人、电商等领域的应用,包括:用于对话机器人的DeepProbe 模型;用于单张照片产品识别和属性生成的VPR模型;用于信息检索和语义向量生成的DeepIntent 模型;用于文本语义嵌入和匹配的fastText 模型;生成对抗网络(GAN),以及在图像生成和自然语言处理中的应用;强化学习模型的模型结构、训练算法和应用。这些模型和实现都已经应用在微软的众多产品中,并获得了很好的效果。
第4 部分(第13 章)是讨论及展望,包括模型在线推理的优化及硬件加速的实现等。最后对目前深度学习技术的局限性做出分析,对其发展方向和下一个浪潮进行展望。
本书学习建议
我们建议读者按顺序阅读本书第1 部分和第2 部分,它们是本书的基础,难度由浅入深。学习了第1 部分深度学习理论和常用工具后,再学习第2 部分常见的深度学习模型。在学习过程中要配合实践,使用介绍的工具在一些实验数据集和示例问题上完成深度学习模型的训练及性能评估,掌握模型开发流程中的数据准备、训练、调试超参、评估、部署等全部步骤。第3 部分是进阶内容,讲解一些应用于计算机视觉、自然语言处理及理解和决策任务的高级深度学习模型,各章节之间相互独立,内容没有前后依托关系,读者可以根据自己的兴趣和背景选择阅读。深度学习是一门实验科学,要在理论基础上结合应用大量进行实践,才能真正掌握并解决实际问题。
深度学习技术发展迅猛,新的模型、算法、工具、流程不断涌现,在传统互联网领域及各个行业的应用层出不穷,新的问题、新的解决方案也持续被提出。本书难以对深度学习各个层面做出全面深入的描述,一些最新的模型和应用也许没有包括进来。本书如能对读者学习深度学习模型、算法、实践和应用有所帮助,并在实践中产生加速和推动作用,那就达到了我们的目的。
由于本书作者水平、理解能力、经验和表达能力所限,一些错误、不足之处在所难免,恳请各位读者指正。
张若非
2019 年7 月于美国硅谷山景城
本书深入浅出地介绍了深度学习中常用的多种算法和模型,并结合实际的搜索广告系统,介绍了很多深度神经网络在实际系统中的应用。本书兼顾了理论介绍和实际应用,尤其适合于想要将深度学习技术应用于工程实践的读者阅读。
——丁晓青,清华大学教授, IEEE/IAPR Fellow
本书从原理、模型、应用等方面对深度学习进行了全方位的详细解读,包括提供清晰的图示和简洁的代码,方便初学者快速掌握深度学习的基本技术并初步了解研究前沿。本书提供了多个产品级案例,乃作者多年工程实践经验的总结,无疑是初学者的案头必备!
——林宙辰,北京大学教授,IEEE/IAPR Fellow
非常高兴向各位朋友介绍这本书。虽然深度学习的书已经很多,但从实用技术落地的角度出发,让初学者快速上手的还真不多。本书并没有过多纠结于理论,或停留在对框架和工具的介绍,而是通过具体应用实例深入浅出地讲解深度学习模型、分享经验教训。这是我特别赞赏的地方。五位作者是微软人工智能的专家,具有丰富的技术研究和产品开发的成功经验。他们抽出宝贵时间,无私奉献其行业经验,尤为难能可贵!
——裴健,加拿大一级研究讲座教授(大数据科学领域)、加拿大西蒙弗雷泽大学计算科学学院教授、统计与精算学系和健康科学院兼职教授
在深度学习大潮下,出现了很多关于深度学习的书籍,而这本聚焦于深度学习模型和应用详解的书与众不同,来得非常及时。从掌握深度学习的理论算法到熟练应用其解决实际问题有一段很长的距离,也是人工智能落地产生价值的关键,本书可以看作填补这段距离的有益尝试。本书作者都是工作在人工智能相关应用领域一线的优秀研究人员和应用科学家,兼具理论和应用背景,实践经验丰富,没有人比他们更适合来写这样一本书了!
——文继荣,中国人民大学高瓴人工智能学院执行院长
本书既不是对深度学习框架的简单介绍,也不是纯理论的探讨,而是试图结合产品实践来全面讲解深度学习模型在不同领域的应用及经验。本书作者是我在微软的同事,长期负责微软在线广告平台中机器学习算法的研发,这本书凝聚了他们丰富的实战经验,非常适合希望运用深度学习到实际场景的工程师和研究员,值得强烈推荐。
——谢幸,微软亚洲研究院首席研究员
当前,人工智能技术取得了前所未有的关注,在语音、视觉、自然语言处理及大数据等领域,都发挥了巨大的作用。人工智能作为一门理论与实践并重的学科,要求研究人员在理解相关理论的同时,也要了解如何在实际系统中应用人工智能技术。本书是微软人工智能专家多年实践经验的结晶,极好地平衡了理论与实践,对人工智能技术的理论及算法成果落地进行了深入浅出的介绍,将有力促进人工智能技术的普及。
——颜水成,依图科技CTO
评论
还没有评论。