描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111754428
深耕一线互联网平台多年的两位作者精心总结:
全链路、全方位,深入剖析推荐算法细节
讲理论、重实践,聚焦关键业务问题解法
本书从信息流个性化推荐算法从业者的角度,阐述在资讯内容类App中,如何搭建健壮、完善的个性化推荐算法体系,如何融合产品运营的专家模型和端到端的深度学习,如何平衡短期的商业化目标和长期的用户体验,以及我们在多个行业头部平台实践的过程中遇到的典型业务问题和解决方案,对比理论推导为主的机器学习书籍,本身更偏向基于行业问题的深度思考及落地实践。
目 录
推荐序
前言
第1章 信息流产品与推荐算法1
1.1 什么是信息流产品1
1.2 信息流产品对用户体验和商业价值的重塑3
1.2.1 信息流产品下的用户体验3
1.2.2 商业价值的重塑6
1.2.3 用户体验及商业价值总结8
1.3 信息流产品推荐系统的构成8
1.3.1 推荐算法基线9
1.3.2 推荐算法的生态建设14
1.4 本章小结16
参考文献16
第2章 业务数据探索:推荐算法闭环的起点与终点18
2.1 产品运营分析19
2.1.1 系统性分析19
2.1.2 周期性分析23
2.2 用户画像分析24
2.2.1 用户画像构建的基本方法25
2.2.2 用户画像之价值分层与生命周期管理26
2.2.3 用户画像的质量保障30
2.3 用户行为路径分析32
2.4 本章小结34
参考文献35
第3章 可插拔式的召回算法36
3.1 召回侧的业务目标和技术方向36
3.2 协同过滤召回38
3.2.1 User-based CF38
3.2.2 Item-based CF40
3.2.3 Item-based CF与User-based CF的对比与改进41
3.2.4 Model-based CF43
3.3 用户和物品的向量化表示学习48
3.3.1 从Word2vec到Item2vec48
3.3.2 YouTube DNN54
3.3.3 DSSM57
3.4 基于图模型的召回建模63
3.4.1 SimRank63
3.4.2 DeepWalk66
3.4.3 LINE68
3.4.4 Node2vec70
3.4.5 EGES73
3.5 用户行为序列召回建模75
3.5.1 序列建模的通用算法模块75
3.5.2 用户多兴趣建模84
3.5.3 序列建模总结91
3.6 本章小结93
参考文献94
第4章 粗排算法97
4.1 粗排的定位和重要性思考97
4.2 前深度学习时代的粗排98
4.2.1 非个性化离线评估模型98
4.2.2 浅层个性化模型104
4.3 深度粗排模型的重要方法106
4.3.1 基于向量内积的双塔模型106
4.3.2 基于精排模型的知识蒸馏111
4.3.3 COLD粗排架构117
4.4 粗排建模的重要问题120
4.4.1 样本选择策略120
4.4.2 粗精排一致性校验123
4.5 本章小结125
参考文献125
第5章 精排算法127
5.1 精排算法的核心目标和概要127
5.2 前深度学习时代的精排算法128
5.2.1 LR128
5.2.2 FM131
5.2.3 GBDT136
5.3 深度精排算法137
5.3.1 Wide & Deep138
5.3.2 DeepFM139
5.3.3 DIN140
5.3.4 DIEN144
5.3.5 DSIN146
5.3.6 SIM149
5.4 在线学习152
5.4.1 在线学习的基本概念152
5.4.2 在线学习算法框架:FTRL153
5.5 多任务学习156
5.5.1 MMoE157
5.5.2 ESMM158
5.5.3 PLE159
5.5.4 MFH162
5.5.5 MVKE164
5.6 本章小结170
参考文献170
第6章 多目标融合算法173
6.1 多目标融合的意义173
6.2 启发式多目标融合173
6.2.1 Grid Search174
6.2.2 Random Search175
6.2.3 搜参实践175
6.3 贝叶斯优化176
6.3.1 概率代理模型177
6.3.2 采集函数178
6.3.3 贝叶斯搜参实践179
6.4 进化策略179
6.4.1 进化算法的相关概念179
6.4.2 基于OpenAI ES的进化策略实践185
6.5 强化学习186
6.5.1 强化学习的核心概念187
6.5.2 强化学习的多目标融合实践189
6.6 本章小结194
参考文献194
第7章 重排算法196
7.1 重排算法概要及核心目标196
7.2 多样性算法之启发式方法196
7.2.1 MMR197
7.2.2 MLR197
7.2.3 DPP198
7.3 多样性算法之list-wise建模200
7.3.1 DLCM200
7.3.2 PRM205
7.3.3 Seq2Slate208
7.3.4 GRN212
7.3.5 PRS217
7.4 端云一体协同推荐221
7.4.1 EdgeRec221
7.4.2 DCCL227
7.5 本章小结232
参考文献232
第8章 推荐建模中的数据预处理和模型后处理234
8.1 评分矩阵构建234
8.2 特征工程239
8.2.1 特征的提取与加工239
8.2.2 特征重要性分析244
8.3 模型校准248
8.4 本章小结250
参考文献250
第9章 信息流推荐中的经典业务问题应对252
9.1 关于信息茧房252
9.2 关于保量策略255
9.3 内容与用户冷启动256
9.3.1 DropoutNet256
9.3.2 MWUF258
9.3.3 LinUCB261
9.3.4 Cold & Warm Net263
9.4 偏置与消偏266
9.4.1 偏置分析267
9.4.2 消偏:用户选择偏置269
9.4.3 消偏:曝光偏置269
9.4.4 消偏:群体一致性偏置270
9.4.5 消偏:位置偏置270
9.4.6 消偏:流行度偏置273
9.5 正向行为定义279
9.6 本章小结280
参考文献281
第10章 信息流推荐算法的评估与改进283
10.1 宏观视角下的推荐效果评估283
10.2 微观视角下的推荐效果评估287
10.2.1 推荐效果评估流程287
10.2.2 离线评估指标体系289
10.3 A/B测试的实验机制设计296
10.3.1 A/B测试的基本概念及必要性296
10.3.2 A/B测试的实验设计和效果分析298
10.3.3 A/B测试与Interleaving305
10.4 本章小结307
参考文献307
第11章 总结与展望308
11.1 推荐算法的重要挑战308
11.2 论推荐算法工程师的自我修养312
11.3 本章小结317
参考文献317
后记318
前 言
Facebook(脸书)在2006年推出的News Feed可以看作信息流产品的开端,News Feed因其沉浸式的阅读体验、丰富的交互方式、个性化的内容呈现等优势,在上线后短时间内就迅速收获了一大批核心用户,并在随后几年的时间里不断发展,逐步改变了用户对新闻资讯内容的阅读习惯,同时,积累的海量用户也为Facebook带来了成熟的商业变现模式。
随着国内移动互联网的蓬勃发展,各大互联网巨头也纷纷跟进效仿News Feed的产品形态。当前阶段,对于电商领域的淘宝、京东,短视频领域的抖音、快手,媒体领域的今日头条、微博,信息流都是主流的产品形态。
然而,随着最近几年移动互联网的发展进入平台期,用户规模见顶,流量红利消失,各大APP从追求用户规模的增长,转型为追求用户消费深度的增加。而信息流产品在各大APP的产品形态趋同,内容的生产质量和分发效率则成了关键武器,推荐系统作为内容分发的核心引擎,也变得尤为重要。
在这样的商业和技术发展背景下,在移动互联网蓬勃发展的浪潮中,作为大数据、搜推广(即搜索、推荐、广告算法的简称)的从业人员,我们也经历了推荐技术的日新月异,在经历了深度学习伴随着算力的发展席卷图像、语音、NLP(自然语言处理)领域后,我们也对推荐算法进行了最彻底、最深刻的革新。在这场如火如荼的变革中,我们个人也从一线开发人员的角色,成长为主导设计、操盘百万级到千万级DAU的APP内容分发、推荐系统的技术架构、发展方向和团队建设的推动者。这一路的成长,有收获、有成果,也有无数的挫折、失败和反思。
这些经历让我们逐渐萌生了一个想法:希望能够把推荐算法的技术发展和变革记录下来,并体系化、结构化地总结成册,为后来者借鉴。当前市面上现有的与推荐算法和深度学习相关的书籍琳琅满目且各具特色,因此,我们选择了从信息流产品的角度,对推荐算法按照召回、粗排、精排、重排分阶段地阐述其细节,并结合实践,在给出理论推导的同时,也贴近实际的业务问题给出相应的解决方案。
本书是我们这些年在淘宝、微视、QQ小世界、WeTV的所思所想、所感所悟、所失所得的点点滴滴的记录,这既是对我们职业生涯的一次阶段性技术总结,也是对曾经“为目标不舍昼夜”的那些日子的纪念。希望本书能给同行朋友,以及希望未来从事搜推广行业的广大学生朋友提供一些帮助。
本书知识体系
本书希望从算法工程师和产品经理的双重视角来阐述推荐算法,因此在第1、2章系统性地介绍了信息流产品的内容生态、对用户体验和商业价值的重塑,以及推荐算法作为信息流内容分发的“利器”的作用。同时,结合我们过往的实践经验,介绍了如何通过系统性的产品运营分析、用户画像分析、行为路径分析找到推荐算法优化的线索,用数据驱动业务增长。
第3~7章详细介绍了推荐算法的召回、粗排、精排、重排各个阶段的算法体系,包括过往经典的算法以及当前较前沿的算法,并结合业务实践阐述了算法推导过程。另外,本部分还介绍了多目标融合算法。这几章是本书最核心的部分。
第8章介绍了召回和排序模型的数据预处理及特征工程相关的工作内容,以及针对排序模型的打分校准方法。
第9章针对信息流产品中的经典问题,比如信息茧房、冷启动、消偏等,具体分析这些问题在信息流产品中的前因后果以及综合性的解决方案。
第10章分析如何从宏观和微观角度评估推荐系统对平台的价值,并介绍价值评估的指标体系,以及A/B测试作为在线评估技术的主要概念和落地实践的流程。
第11章总结并展望推荐算法的未来,阐述当前阶段推荐算法与业务价值息息相关的几个重要且亟待解决的命题,同时就推荐算法工程师在从入门到成长的过程中如何提升自身的各项技能给予了合理的建议。
读者对象
●当前从事搜推广行业的同行朋友。期望本书结合业务实践的技术细节阐述能够对你有所启发,本书可作为解决推荐业务问题的工具书,随时查阅。
●希望未来从事搜推广行业的广大学生朋友。期望本书体系化阐述的推荐算法能够帮助大家更好地学习推荐技术,梳理并夯实自己的知识体系。
致谢
感谢一路走来在阿里、腾讯以及所有工作过的公司里各位同事的热心帮助,这些年与大家一起探讨、争论、交流、切磋的经历是我们职业生涯中无价的财富。
感谢家人在背后的默默支持,你们的理解和帮助是我们坦然面对得失、不断完善自己的最大动力。
最后,特别感谢刘军宁老师为本书作序,并感谢他在我们梳理本书的知识体系时给予我们的专业指导。
赵争超、黄 帆
近10多年以来,推荐算法在互联网业界中扮演着越来越重要的角色,从电商、信息资讯到短视频App,个性化推荐为用户提供了流畅的浏览体验,同时也促进了平台生态的健康发展。本书以信息流产品为切入点,深入浅出地介绍了推荐算法基线、理论基础和业务实践,是作者十数年从事推荐算法工作的宝贵沉淀和总结。无论是想要深入理解和应用推荐算法的学生,还是一线推荐算法工程师,本书对他们来说都是一本非常实用的书籍。我强烈推荐本书给那些对推荐算法感兴趣的读者,相信它能为读者在推荐建模实践中提供有效帮助。
—— 李传福 前阿里巴巴资深总监、阿里数据大学校长
在这个信息爆炸的时代,信息流产品已经成为我们日常生活中不可或缺的一部分,它让我们能够在海量信息中迅速找到感兴趣的内容。而在这背后,推荐算法发挥着至关重要的作用。本书汇聚了两位在阿里和腾讯深耕多年的资深推荐专家的经验,详尽地梳理了推荐算法的发展脉络与各个阶段的算法体系。更值得一提的是,本书紧密结合业务实践,展示了如何针对数据预处理、信息茧房、冷启动、消偏以及内容分发价值评估等问题提供系统性的解决方案。相信无论是信息流算法工程师还是产品经理,都能从这本实用性强的书中获得启示和指导。
—— 李奘 腾讯PCG大数据平台部和AI委员会负责人
本书系统介绍了业界主流信息流推荐系统的主要模块和经典算法,同时对系统在大规模用户产品落地过程中遇到的典型问题进行了探讨。本书内容全面,非常适合希望深入了解推荐系统的从业者,也适合与推荐算法团队有深入协作的产品经理、数据分析师和后台工程师等上下游团队人士阅读学习。
—— 阮超 腾讯高级总监,腾讯微视&QQ短视频负责人,前Airbnb中国技术负责人
本书以清晰而生动的方式,紧贴信息流产品的内容分发业务场景,介绍了个性化推荐的全链路算法,包括前序的数据洞察、线索挖掘,到召回、粗排、精排、重排设计,再到冷启动、消偏、保量策略等平台生态建设问题,内容翔实,对一线算法工程师极具参考价值。
—— 魏虎 阿里巴巴技术总监、阿里个性化推荐平台(TPP)发起人
从电商平台的商品推荐,到新闻的个性化推送,再到短视频的内容分发,推荐算法已经成为现代信息流产品的核心技术之一。本书理论与实践相结合,详细介绍了推荐系统的关键技术和实现方法,不仅涵盖了推荐算法的基本原理,还深入探讨了诸如冷启动、消偏、评估等复杂问题。对于希望系统学习推荐算法的学生和技术人员,本书无疑是一本宝贵的指南。
—— 吴书 中国科学院自动化研究所副研究员
本书围绕推荐算法在信息流产品中的工业化实践,深入浅出地展开讨论,本书的章节内容叙述融入了作者在淘宝、腾讯及多家独角兽级公司中的多年实践经验,对推荐建模中的经典业务问题抽丝剥茧,并给出了翔实的算法设计,推荐相关从业者阅读参考。
—— 张伟 Shopee电商数据智能部负责人、前阿里巴巴资深算法专家
都说自然语言是人工智能皇冠上的明珠,但推荐算法绝对是上一轮人工智能浪潮中名利双收的大明星。为什么这么说?一方面,应用的潜力引领业界和学界竞相争奇斗艳,推动了算法和工程上的一系列创新;另一方面,这些创新又驱动了移动互联网信息分发革命,创造了巨大的商业收益。本书作者亲历了推荐算法在技术和产品应用上的迭代,并将其汇集成这本新作,希望启迪那些想继续在这个领域耕耘与精进的伙伴们。
—— 王大川 数据智能开发者社区DataFun创办人
评论
还没有评论。