描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302513636丛书名: 新时代·技术新未来
推荐算法具有非常多的应用场景和巨大的商业价值。推荐算法种类很多,目前应用*广泛的应该是基于协同过滤的推荐算法。在2016年,随着阿尔法围棋(AlphaGo)大放异彩,新的一波深度学习浪潮已至。在图像、音频处理等领域,深度学习技术已成为当之无愧的王者;但在推荐领域,深度学习还处于发展阶段。同时,我们在平时工作学习中,发现市面上并没有关于两者相结合的书籍,只能在国外论文中发现相关的方法与应用。所以,我们决定以比较简单的表达方式,通过总结过往的推荐算法经验,将深度学习相关的应用介绍给更多的读者。
区别于其他推荐算法书籍,本书引入了已被实践证明效果较好的深度学习推荐技术,包括Word2Vec、Wide & Deep、DeepFM、GAN 等技术应用,并给出了相关的实践代码;除了在算法层面讲解推荐系统的实现,还从工程层面详细阐述推荐系统如何搭建。
1.1 推荐系统的概念.1
1.1.1 推荐系统的基本概念1
1.1.2 深度学习与推荐系统4
第2 章深度神经网络.7
2.1 什么是深度学习.7
2.1.1 深度学习的三次兴起7
2.1.2 深度学习的优势9
2.2 神经网络基础11
2.2.1 神经元11
2.2.2 神经网络.12
2.2.3 反向传播.13
2.2.4 优化算法.14
2.3 卷积网络基础17
2.3.1 卷积层17
2.3.2 池化层19
2.3.3 常见的网络结构19
2.4 循环网络基础21
2.4.1 时序反向传播算法22
2.4.2 长短时记忆网络24
2.5 生成对抗基础25
2.5.1 对抗博弈.26
2.5.2 理论推导.27
2.5.3 常见的生成对抗网络29
iv j 推荐系统与深度学习
第3 章TensorFlow 平台31
3.1 什么是TensorFlow 31
3.2 TensorFlow 安装指南.33
3.2.1 Windows 环境安装.33
3.2.2 Linux 环境安装.34
3.3 TensorFlow 基础.36
3.3.1 数据流图.36
3.3.2 会话37
3.3.3 图可视化.37
3.3.4 变量37
3.3.5 占位符38
3.3.6 优化器38
3.3.7 一个简单的例子38
3.4 其他深度学习平台39
第4 章推荐系统的基础算法42
4.1 基于内容的推荐算法.42
4.1.1 基于内容的推荐算法基本流程42
4.1.2 基于内容推荐的特征提取.45
4.2 基于协同的推荐算法.47
4.2.1 基于物品的协同算法49
4.2.2 基于用户的协同算法57
4.2.3 基于用户协同和基于物品协同的区别59
4.2.4 基于矩阵分解的推荐方法.61
4.2.5 基于稀疏自编码的推荐方法.71
4.3 基于社交网络的推荐算法80
4.3.1 基于用户的推荐在社交网络中的应用81
4.3.2 node2vec 技术在社交网络推荐中的应用85
4.4 推荐系统的冷启动问题94
4.4.1 如何解决推荐系统冷启动问题94
4.4.2 深度学习技术在物品冷启动上的应用101
目录j v
第5 章混合推荐系统119
5.1 什么是混合推荐系统.119
5.1.1 混合推荐系统的意义120
5.1.2 混合推荐系统的算法分类.122
5.2 推荐系统特征处理方法125
5.2.1 特征处理方法126
5.2.2 特征选择方法134
5.3 常见的预测模型141
5.3.1 基于逻辑回归的模型141
5.3.2 基于支持向量机的模型.144
5.3.3 基于梯度提升树的模型.148
5.4 排序学习150
5.4.1 基于排序的指标来优化.150
5.4.2 L2R 算法的三种情形.152
第6 章基于深度学习的推荐模型156
6.1 基于DNN 的推荐算法156
6.2 基于DeepFM 的推荐算法163
6.3 基于矩阵分解和图像特征的推荐算法171
6.4 基于循环网络的推荐算法.174
6.5 基于生成对抗网络的推荐算法.176
6.5.1 IRGAN 的代码实现.179
第7 章推荐系统架构设计.183
7.1 推荐系统基本模型183
7.2 推荐系统常见架构185
7.2.1 基于离线训练的推荐系统架构设计185
7.2.2 面向深度学习的推荐系统架构设计191
7.2.3 基于在线训练的推荐系统架构设计194
7.2.4 面向内容的推荐系统架构设计197
7.3 推荐系统常用组件199
7.3.1 数据上报常用组件199
vi j 推荐系统与深度学习
7.3.2 离线存储常用组件200
7.3.3 离线计算常用组件200
7.3.4 在线存储常用组件201
7.3.5 模型服务常用组件201
7.3.6 实时计算常用组件201
7.4 推荐系统常见问题201
7.4.1 实时性.201
7.4.2 多样性.202
7.4.3 曝光打击和不良内容过滤.202
7.4.4 评估测试.202
后记.203
图1.1 淘宝猜你喜欢栏目2
图1.2 百度指数.4
图1.3 歌曲词嵌入模型空间向量.6
图2.1 神经网络的三次兴起8
图2.2 不同层数的神经网络拟合分界面的能力.10
图2.3 不同层数的神经网络表示能力10
图2.4 神经网络的基本结构11
图2.5 感知器算法12
图2.6 三层全连接神经网络13
图2.7 动量对比.16
图2.8 卷积运算.18
图2.9 池化层19
图2.10 LeNet 卷积结构.20
图2.11 Alex-Net 卷积结构20
图2.12 RNN 21
图2.13 LSTM 在t 时刻的内部结构24
图2.14 GAN 网络25
图3.1 TensorFlow 安装截图34
图3.2 TensorBoard 计算37
图4.1 腾讯视频APP 推荐页面.44
图4.2 截取自东东网.49
图4.3 截取自QQ 音乐APP.49
图4.4 用户购买物品记录50
图4.5 同时被购买次数矩阵C 51
图4.6 相似度计算结果1 52
图4.7 相似度计算结果2 54
viii j 推荐系统与深度学习
图4.8 相似度计算结果3 55
图4.9 截取自东东网.57
图4.10 物品的倒排索引57
图4.11 用户评分矩阵.63
图4.12 Sigma 值64
图4.13 NewData 值65
图4.14 Mydata 值65
图4.15 自编码神经网络模型72
图4.16 稀疏自编码个网络.73
图4.17 稀疏自编码第二个网络.74
图4.18 稀疏自编码第三个网络.75
图4.19 将三个网络组合起来75
图4.20 社交网络关系图示例81
图4.21 融入用户关系和物品关系82
图4.22 社交网络关系图示例86
图4.23 社交网络关系图示例86
图4.24 CBOW 和Skip-Gram 示例.88
图4.25 Skip-Gram 网络结构89
图4.26 CBOW 网络结构91
图4.27 word analogy 示例93
图4.28 某网站登录页面95
图4.29 QQ 互联开放注册平台1 96
图4.30 QQ 互联开放注册平台2 97
图4.31 QQ 互联应用管理页面1 97
图4.32 QQ 互联应用管理页面2 97
图4.33 QQ 互联QQ 登录功能获取97
图4.34 QQ 音乐APP 中的偏好选择98
图4.35 (a) 为每部电影被打分的分布,(b) 为每个用户打分的分布100
图4.36 (a) 为每部电影平均分分布,(b) 为每个用户平均分分布.100
图4.37 基于专家数据的CF 与基于用户数据CF 比较.101
图目录j ix
图4.38 音乐频谱示例102
图4.39 4 个流派的频谱图示例103
图4.40 CNN 音频分类结构.103
图4.41 CNN LSTM 组合音频分类模型.104
图4.42 分类预测结果的混淆矩阵104
图4.43 模型倒数第二层128 维向量降维可视化104
图4.44 微软how-old.net 107
图4.45 SCUT-FBP 数据集示例图108
图4.46 脸部截取后的数据集示例图.108
图4.47 CNN 层数过多,误差反而较大113
图4.48 残差网络的基本结构113
图4.49 残差网络完整结构.114
图5.1 NetFlix 的实时推荐系统的架构图120
图5.2 整体式混合推荐系统125
图5.3 并行式混合推荐系统125
图5.4 流水线式混合推荐系统.125
图5.5 MDLP 特征离散化130
图5.6 ChiMerge 特征离散化.131
图5.7 层次化时间按序列特征.133
图5.8 Learn to rank 的局限153
图6.1 Wide & Deep 模型结构157
图6.2 推荐系统的召回和排序两个阶段158
图6.3 召回模型结构.159
图6.4 序列信息160
图6.5 排序模型结构.161
图6.6 不同NN 的效果162
图6.7 DeepFM 模型结构(网络左边为FM 层,右边为DNN 层).164
图6.8 FM 一阶部分165
图6.9 FM 二阶部分166
图6.10 FM/DNN/DeepFM 的比较171
x j 推荐系统与深度学习
图6.11 电影静止帧图片举例172
图6.12 Alex-Net 卷积网络.173
图6.13 左图:时间无关的推荐系统。右图:时间相关的推荐系统174
图6.14 基于循环神经网络的推荐系统175
图6.15 判别器177
图6.16 生成器178
图6.17 IRGAN 说明179
图7.1 监督学习基本模型.184
图7.2 基于离线训练的推荐系统架构设计186
图7.3 数据上报模块.187
图7.4 离线训练模块.187
图7.5 推荐系统中的存储分层.188
图7.6 在线预测的几个阶段189
图7.7 推荐系统通用性设计190
图7.8 面向深度学习的推荐系统架构设计191
图7.9 利用深度学习进行特征提取192
图7.10 参数服务器架构193
图7.11 基于在线训练的推荐系统架构设计195
图7.12 在线学习之实时特征处理196
图7.13 面向内容的推荐系统架构设计198
图7.14 用于推荐的内容池.198
图7.15 Apache Kafka 逻辑架构.200
表4.1 用户A 和B 的评分矩阵.43
表4.2 电影内容特征二进制表示45
表4.3 人脸魅力值打分不同模型的MAE 比较112
表4.4 人脸魅力值打分不同模型的MAE 比较117
表4.5 Keras 预训练好的图像分类模型118
正是因为“推荐”,我们相识相知。我们不仅在工作中成为伙伴,在工作之余,我们也成
了非常好的朋友。在一次好友聊天中,我们萌生写作本书的想法,在之后半年的时间中,
我们各有分工,共同完成了本书的写作。可以说,这本书不仅是我们知识的沉淀,也是
我们友谊的见证。
推荐算法具有非常多的应用场景和巨大的商业价值。推荐算法种类很多,目前应用
广泛的应该是基于协同过滤的推荐算法。在2016 年,随着阿尔法围棋(AlphaGo)大
放异彩,新的一波深度学习浪潮已至。在图像、音频处理等领域,深度学习技术已成为
当之无愧的王者;但在推荐领域,深度学习还处于发展阶段。同时,我们在平时工作学
习中,发现市面上并没有关于两者相结合的书籍,只能在国外论文中发现相关的方法与
应用。所以,我们决定以比较简单的表达方式,通过总结过往的推荐算法经验,将深度
学习相关的应用介绍给更多的读者。
为了适应具有不同知识储备的读者阅读,本书大致可分为四个部分。第1 至第3 章
为部分,主要介绍深度学习的基础知识。第4 至第5 章为第二部分,主要介绍了传
统的推荐算法及问题。第6 章为第三部分,进一步介绍深度学习推荐技术。第7 章为第
四部分,介绍了如何在线上实战搭建推荐系统。第三、第四部分是本书的重点,对于从
事算法的工作者,可以了解到深度学习技术与推荐算法的结合;对于从事工程的工作者,
可以汲取线上搭建推荐系统的经验。
在本书的写作过程中,得到了很多前辈同事的帮助,包括傅鸿城、李深远、刘黎春、
赵蕊、邱天宇等领导、同事都给予了很多宝贵意见和支持。没有他们的帮助,我们很难
完成本书的写作。
后还要感谢我们的家人,在写作本书的过程中,我们几位作者占用了大量的家庭
时间,感谢他们的照顾和体谅。
1
推荐系统的概念
1.1.
1
推荐系统的基本概念
随着互联网行业发展,我们已进入一个信息爆炸的时代。信息爆炸是互联网赋予当
前时代的特征,互联网技术的发展,带给我们直观的感受是:
1
.
各类商品花样繁多;
2
.
新闻信息飞速增加;
3
.
广告信息铺天盖地;
4
.
科技信息迅猛递增;
5
.
个人接受力严重“超载”。
以商品的飞速增长为例,美国《连线》主编克里斯.安德森在一篇文章中首次提出
了“长尾”(Th
e
Lon
g
Tai
l
)概念①:商品销售呈现出长尾形状,冷门商品的需求曲线不会
降到零点,而且曲线的尾部比头部长得多,他认为这种丰富性和多样性源自全球化、高
效供应链和个性化需求。无独有偶,日本著名营销专家菅谷义博也在《长尾经济学》中
提出了这一概念。无论如何,在面对这种多样化和丰富性的时候,都会让人有些手足无
措。
另外,随着大数据概念与技术的普及,不管是线上AP
P
平台,还是传统的线下平
台,都越来越重视数据的收集,数据量呈几何倍数式增长。国际数据公司(IDC)的研究
①
长尾(Th
e
Lon
g
Tai
l
)这一概念是由《连线》杂志主编克里斯.安德森(Chri
s
Anderso
n
)在200
4
年1
0
月的《长尾》一文中早提出,用来描述诸如亚马逊和Net°i
x
之类网站的商业和经济模式。“长尾”实际上是统计
学中幂律(Powe
r
Law
s
)和帕累托分布(Paret
o
)特征的一个口语化表达。
推荐系统与深度学习
|
结果表明,200
8
年全球产生的数据量为0.49ZB①,200
9
年的数据量为0.8ZB,201
0
年增
长为1.2ZB,201
1
年的数量更是高达1.82ZB,相当于全球平均每人产生200G
B
以上的数
据。IB
M
的研究称,整个人类文明所获得的全部数据中,有90
%
是过去两年内产生的。
而到了202
0
年,全世界所产生的数据规模将达到今天的4
4
倍之多。
信息爆炸与大数据技术的普及,都促进了个性化推荐技术的快速发展。所谓推荐系
统,简言之就是根据用户的偏好推荐其有可能感兴趣的内容。以新闻平台为例,过去主
要以新浪新闻这类中心化内容平台为代表;而现在,以今日头条为代表的新闻AP
P
均在
首页根据用户偏好推送不同内容的定制化新闻,推动了整个行业向个性化推荐转型。在
淘宝、、亚马逊等电商网站的首页都设有“猜你喜欢”专区,根据用户近浏览和购
买的行为记录推荐商品。
评论
还没有评论。