描述
开 本: 128开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121417474
本书从工业问题和工业应用入手,应用前沿技术方法,定义并解决面临的技术问题.
本书是知识图谱大规模工业实践的经验总结,且包含了知识图谱的前沿学术研究。
本书得到来未来科技(浙江)有限公司CEO墙辉(玄难)倾情作序。
阿里巴巴集团副总裁、达摩院数据库首席科学家,ACM杰出科学家李飞飞,新加坡国立大学终身教授,IEEE Fellow, ISCA Fellow 李海洲,阿里巴巴集团副总裁、达摩院语言实验室首席科学家,ACM 杰出科学家 司罗,苏州大学计算机科学与技术学院院长,国家杰出青年科学基金获得者 张民,中国科学院自动化研究所研究员, 中国科学院大学人工智能学院岗位教授赵军,鼎力推荐!
本书讨论了知识图谱的整体技术架构及各个模块的理论研究,即知识建模、知识获取、知识融合、知识推理,同时探讨了知识图谱的前沿技术话题。
本书围绕千亿级商品知识图谱这一真实工业实践案例,针对各个模块详细阐述了系统中的算法细节、工程系统实现方法及相关的业务应用。
本书介绍的成果获得钱伟长中文信息处理科学技术一等奖。
本书采用全彩印刷,提供良好阅读体验。
本书源于阿里巴巴千亿级知识图谱构建与产业化应用的工作总结,对知识图谱理论和大规模工业实践进行了全面和深入的阐述。本书以阿里巴巴的实战经验为中心,以深厚的理论成果为支撑,详细阐述了知识图谱的方方面面。首先介绍工业场景下知识图谱的现状、存在的问题和架构设计;然后从知识表示、知识融合、知识获取、知识推理、知识存储和知识图谱前沿方向等方面入手,介绍大规模商品知识图谱的构建方法;后结合阿里巴巴的业务实践,详细介绍知识图谱的产品设计、技术实现和业务应用细节。通过阅读本书,读者不仅可以从零开始认识知识图谱,了解知识图谱技术方法和前沿技术方向,而且可以熟悉知识图谱工业实践的实现路径,清楚知识图谱的应用方向和方法。本书介绍的成果获得钱伟长中文信息处理科学技术一等奖。
本书在知识图谱的广度和深度上兼具极强的参考性,适合人工智能相关行业的管理者和研发人员、高等院校的计算机专业学生阅读。
目 录
第1章 工业级知识图谱概述 / 1
1.1 知识图谱概述 / 2
1.1.1 通用知识图谱 / 2
1.1.2 行业知识图谱 / 3
1.2 工业级知识图谱实战原则 / 4
1.2.1 实践中的典型问题 / 4
1.2.2 实战原则 / 4
1.3 阿里巴巴知识引擎技术架构 / 8
1.3.1 平台产品:知识建模与管理 / 9
1.3.2 平台产品:知识生产 / 11
1.3.3 业务、平台产品:知识服务 / 16
1.4 本章小结 / 19
第2章 商品知识的表示和建模 / 20
2.1 知识表示简介 / 21
2.1.1 基于符号逻辑的知识表示方法 / 21
2.1.2 面向互联网的知识表示方法 / 23
2.1.3 基于连续向量的知识表示 / 25
2.2 行业知识建模 / 27
2.2.1 基于专家的知识建模 / 27
2.2.2 基于机器学习的知识建模 / 29
2.3 商品知识建模实践 / 32
2.3.1 术语抽取 / 33
2.3.2 商品概念及上下位关系生成 / 36
2.4 构建商品知识体系 / 37
2.4.1 通用域知识图谱 / 37
2.4.2 阿里商品域知识体系 / 39
2.5 商品知识建模应用场景 / 48
2.5.1 服务国家和社会机构应用 / 48
2.5.2 零售业务应用 / 49
2.6 小结 / 50
2.6.1 知识建模技术的未来发展 / 50
2.6.2 知识体系设计的未来发展 / 51
第3章 商品知识融合 / 53
3.1 知识融合概述 / 54
3.1.1 知识融合的主要难点 / 54
3.1.2 知识融合的基本步骤 / 55
3.2 本体对齐 / 57
3.2.1 基于语言学特征的方法 / 58
3.2.2 基于结构特征的方法 / 61
3.2.3 商品知识图谱本体对齐算法 / 63
3.3 实体对齐 / 70
3.3.1 实体对齐的流程 / 70
3.3.2 实体对齐的技术路线 / 71
3.3.3 商品知识图谱实体对齐实践 / 80
3.4 信息融合 / 91
3.4.1 无监督的信息融合方法 / 92
3.4.2 有监督和半监督的信息融合方法 / 99
3.4.3 商品知识图谱信息融合算法实践 / 100
3.5 跨语言知识融合 / 103
3.5.1 跨语言知识融合的挑战 / 103
3.5.2 跨语言实体对齐的技术路线 / 104
3.5.3 基于规则的跨语言实体对齐方法 / 104
3.5.4 基于翻译的跨语言实体对齐方法 / 105
3.5.5 基于表示学习的跨语言实体对齐方法 / 107
3.6 知识融合质量评估体系 / 110
3.6.1 知识融合评估指标介绍 / 110
3.6.2 离线融合效果评估 / 112
3.6.3 在线融合效果评估 / 117
3.7 本章小结 / 119
第4章 商品知识获取 / 120
4.1 知识获取概述 / 121
4.1.1 知识获取相关任务 / 121
4.1.2 知识获取相关测评会议 / 123
4.2 命名实体识别 / 125
4.2.1 命名实体识别概览 / 125
4.2.2 标注体系及常用数据集 / 126
4.2.3 基于规则的命名实体识别 / 128
4.2.4 基于统计模型的命名实体识别 / 128
4.2.5 基于神经网络的实体识别 / 130
4.3 实体链接 / 133
4.3.1 实体链接概述 / 133
4.3.2 候选实体生成 / 133
4.3.3 候选实体排序 / 135
4.3.4 端到端的实体链接方法 / 138
4.4 关系抽取 / 139
4.4.1 关系抽取概述 / 139
4.4.2 基于模板的关系抽取方法 / 140
4.4.3 基于监督学习的关系抽取方法 / 140
4.4.4 基于半监督学习的关系抽取方法 / 149
4.4.5 基于无监督学习的关系抽取方法 / 154
4.5 槽填充与属性补全 / 156
4.5.1 槽填充与属性补全概述 / 156
4.5.2 基于模板的方法 / 158
4.5.3 基于关系分类的方法 / 160
4.6 面向半结构化数据的知识获取 / 160
4.6.1 百科类网站数据抽取 / 160
4.6.2 面向Web网页的知识获取 / 161
4.7 低资源条件下知识获取 / 162
4.7.1 基于监督学习和弱监督学习的方法 / 163
4.7.2 基于迁移学习的方法 / 163
4.7.3 基于元学习的方法 / 164
4.7.4 基于知识增强的方法 / 165
4.8 电商领域知识获取实践 / 166
4.8.1 电商知识获取框架 / 166
4.8.2 面向场景导购的知识获取示例 / 169
4.8.3 低资源商品知识获取示例 / 177
4.9 本章小结 / 180
第5章 商品知识推理 / 182
5.1 知识推理概述 / 183
5.1.1 知识推理的作用 / 183
5.1.2 专家系统与知识推理 / 184
5.1.3 神经网络与知识推理 / 185
5.2 基于符号逻辑的知识推理 / 186
5.2.1 基于本体的知识推理方法 / 187
5.2.2 基于规则的知识推理方法 / 191
5.2.3 基于规则学习的知识图谱推理 / 197
5.3 基于表示学习的知识推理 / 200
5.3.1 基于分布式表示的知识推理 / 200
5.3.2 基于神经网络的知识推理 / 210
5.4 基于图数据库的商品知识推理引擎工程实践 / 218
5.4.1 技术框架简介 / 219
5.4.2 与传统规则推理引擎的对比 / 223
5.5 可解释的商品知识图谱推理应用实践 / 226
5.5.1 电商应用背景 / 226
5.5.2 技术实践方案 / 228
5.5.3 实验结果及案例分析 / 233
5.6 基于强化学习的商品规则学习与推理应用实践 / 236
5.6.1 电商应用背景 / 236
5.6.2 技术实践方案 / 238
5.6.3 实验结果及案例分析 / 240
5.7 本章小结 / 241
第6章 知识图谱的存储、服务与质量 / 243
6.1 知识图谱的存储 / 244
6.1.1 数据模型 / 244
6.1.2 存储系统选型 / 247
6.1.3 图查询语言 / 252
6.1.4 关键技术与选择 / 254
6.2 知识图谱的服务 / 257
6.2.1 基于知识图谱的搜索 / 258
6.2.2 基于知识图谱的推荐 / 264
6.2.3 搜索推荐在业务智能中的应用 / 274
6.2.4 基于知识图谱的问答系统 / 278
6.3 知识图谱质量保障 / 281
6.3.1 质量保障架构 / 281
6.3.2 测试原则与方法 / 282
6.4 本章小结 / 284
第7章 大规模商品知识图谱
预训练 / 285
7.1 知识预训练概述 / 286
7.1.1 预训练语言模型 / 286
7.1.2 知识图谱中的结构化上下文信息 / 288
7.1.3 基于知识增强的预训练模型 / 289
7.1.4 预训练知识图谱模型与预训练语言模型的区别 / 293
7.2 商品知识图谱静态预训练模型 / 294
7.2.1 预训练知识图谱查询框架 / 294
7.2.2 预训练知识图谱查询模块 / 295
7.2.3 预训练知识图谱查询服务 / 296
7.2.4 在任务模块中使用查询服务 / 297
7.3 商品知识图谱动态预训练模型 / 299
7.3.1 上下文模块和整合模块 / 299
7.3.2 预训练阶段和微调阶段 / 301
7.4 商品知识图谱预训练实践案例 / 303
7.4.1 基于知识图谱预训练的商品分类 / 304
7.4.2 基于知识图谱预训练的商品对齐 / 309
7.4.3 基于知识图谱预训练的商品推荐 / 312
7.4.4 基于商品知识预训练的实体识别 / 316
7.4.5 基于商品知识预训练的关系抽取与属性补齐 / 318
7.4.6 基于商品知识预训练的标题生成 / 324
7.5 总结与展望 / 325
参考文献 / 326
序
21世纪以来,随着深度学习的广泛应用和计算机算力的提升,人工智能(AI)进入了大数据时代。如何把大数据结构化、语义化,进而构建大规模的知识图谱成为AI发展及其大规模应用的重要环节。同时,近十年来,随着行业数字化和产业互联网的发展,蕴含深度行业知识的行业知识图谱的构建需求也越来越迫切。知识图谱已经成为人工智能的重要基石之一,同时也是行业数字化的重要组成部分。本书系统阐述知识图谱构建与应用的前沿理论与大规模实践,恰逢其时。
从技术角度出发,知识图谱主要涉及如何利用信息抽取、知识融合、知识建模等技术从大数据中挖掘和发现知识,如何利用知识推理技术学习并生产新的知识,如何利用知识表示与存储技术描述和组织知识,以及如何利用知识推理和查询技术使得知识能够服务上层的业务应用。从应用角度出发,知识图谱除了服务传统的搜索、对话等应用,更多地在业务智能决策、控制业务风险、优化业务效率等多方面得到了应用。
本书介绍了知识图谱的方法与实践,共7章,内容丰富。从理论深度上看,书中讨论了知识图谱的整体技术架构及各个模块的理论研究,即知识建模、知识获取、知识融合、知识推理,同时探讨了知识图谱的前沿技术话题。从工业实践上看,书中围绕着千亿级商品知识图谱这一真实工业实践案例,针对各个模块详细阐述了系统中的算法细节、工程系统实现方法及相关的业务应用。本书作者来自常年深耕知识图谱领域的学者和一线工业实践者,他们都参与了千亿级商品知识图谱的构建及大规模产业化应用。因此,本书具有很强的知识性和实用性。
本书可以作为计算机科学和人工智能专业学生和研究人员,以及大数据和人工智能从业者的参考书。在知识图谱实践类书籍不多的情况下,期待本书对知识图谱这一领域的更广泛应用带来一定的推动作用。
墙辉(玄难)
来未来科技(浙江)有限公司CEO
前 言
人工智能技术及其应用已经深入各个行业,从业人员的规模呈爆发式增长。知识图谱是人工智能的重要基石之一,是大数据深入发展的时代产物,也是大数据经过挖掘、结构化、语义化之后的知识关联网络。知识图谱既为深度学习提供先验知识,也为用户提供智能服务。知识图谱广泛应用于智能对话、搜索推荐、业务智能等领域,在很多业务实践中具有重要意义。与此同时,由于构建知识图谱的信息来源包括结构化或半结构化的数据,以及文本数据或多媒体数据,涉及自然语言处理领域里的信息提取技术、多模态技术和信息融合技术等,需要进行很多的工程开发工作,因此面临很多挑战。
为什么写作本书
我们应该如何构建知识图谱?如何在工业界应用知识图谱?目前,可供从业人员系统性参考的实践案例资料还比较少。作为专业从事知识图谱技术工作以及在工业界进行过大规模实践的团队,我们长期专注于知识图谱技术在工业界的发展,希望能让更多的从业者或对知识图谱感兴趣的学生了解这一前沿技术及落地方法。为此,我们将以往的项目经验、产品应用和前沿技术知识整理成册,希望通过本书来总结和分享我们的知识图谱工业实践成果。
本书源于阿里巴巴千亿级知识图谱构建与产业化应用的工作总结,阿里巴巴与清华大学、浙江大学、中科院软件所、中科院自动化所和苏州大学共同开展的阿里巴巴藏经阁(知识引擎)研究计划,以及在该计划下发表的数十篇国际学术论文的理论研究成果,以及阿里巴巴-浙江大学前沿技术联合研究中心(AZFT)知识引擎联合实验室持续多年的合作研究工作。本书介绍的成果获得钱伟长中文信息处理科学技术一等奖。
本书主要内容
本书是知识图谱大规模工业实践的经验总结,且包含了知识图谱的前沿学术研究。本书以阿里巴巴的实战经验为中心,以深厚的理论成果为支撑,详细阐述知识图谱的方方面面。首先介绍工业场景下知识图谱的现状、存在的问题和架构设计;然后从知识表示、知识融合、知识获取、知识推理、知识存储和知识图谱前沿方向等方面入手,介绍大规模商品知识图谱的构建方法;后结合阿里巴巴的业务实践,详细介绍知识图谱的产品设计、技术实现和业务应用细节。通过阅读本书,读者不仅可以从零开始认识知识图谱,了解知识图谱技术方法和前沿技术方向,而且可以熟悉知识图谱工业实践的实现路径,清楚知识图谱的应用方向和方法。
虽然市面上已经出版了多部优秀的知识图谱学术著作,但偏向于实践应用的图书还非常稀缺。本书从工业问题和工业应用入手,应用前沿技术方法,定义并解决面临的技术问题。同时我们也会介绍如何结合内部产品完成技术实现和线上部署。本书力争做到既侧重真实场景下的工业实践,又有深厚的理论研究,将科研与工业实践有机结合。
如何阅读本书
这是一本对知识图谱实践有借鉴意义的图书,读者应该怎样阅读这本书呢?在阅读本书之前,读者应该对人工智能领域的业务应用和基本模型有一定了解。
? 遍先通读全书,主要厘清知识图谱的相关概念、知识图谱的工业应用方向和各个子领域的技术框架。
? 第二遍可以针对感兴趣的章节详细阅读,了解清楚这些子领域的前沿技术研究方向和成果,以及工业实践的技术细节。
? 第三遍可以结合自己在工作和学习中遇到的相关问题,根据本书的抽象方法做一些实践工作。
真诚期望本书能对知识图谱感兴趣的学生的学业和未来职业发展有所帮助,对从业人员的工作有一定的指导作用。
本书作者
本书由张伟、陈华钧、张亦弛所著,参与本书编写工作的还有:阿里巴巴的吴夙慧、陈强、张力、林枝萍、戴健、黄志文、巢佳媛、王梁、钭怀啸、张鹏远、王炎、石珺、王沛、杨耀晟、陈辉,浙江大学的张文、邓淑敏、叶橄强、文博、康矫健、张宁豫、李泺秋、叶鹏、朱渝珊、许泽众、余海阳、李娟、毕祯、周虹廷,在此对各位编者的辛勤付出表示衷心的感谢!
致谢
首先要特别感谢通过阿里巴巴藏经阁(知识引擎)研究计划与我们一起完成知识图谱大规模工业实践的合作单位和老师,包括清华大学的李涓子老师及其团队、中科院软件所的孙乐老师及其团队、苏州大学的张民老师及其团队、中科院自动化所的赵军老师及其团队。同时感谢阿里巴巴-浙江大学前沿技术联合研究中心(AZFT)给予的大力支持。
感谢宋亚东先生和电子工业出版社博文视点对本书的重视,以及为本书出版所做的一切。
由于作者水平有限,书中不足之处在所难免,敬请专家和读者给予批评指正。
作 者
2021年7月
作为知识图谱技术的一线实践经验总结,本书对知识图谱技术领域的工程实践有重要参考价值,相信也会推动这一技术领域产生更广泛的应用,促进业界产生更多的成功案例。对于大数据、知识图谱从业者而言,本书是一本值得研读的好书。
李飞飞
阿里巴巴集团副总裁、达摩院数据库首席科学家,ACM杰出科学家
知识图谱的构建与应用涉及很多前沿课题和研究工作,包括信息提取、预训练、知识融合及语义网等众多研究方向,本书从理论和实践两方面由浅入深地给予了介绍。对于需要系统地学习这些领域的读者,本书很有帮助。
李海洲
新加坡国立大学终身教授,IEEE Fellow, ISCA Fellow
在大数据时代,知识图谱技术作为认知智能领域的重要组成部分,通过语义化、知识化互联网行业及垂直行业的海量信息,为深度模型训练提供先验知识,为业务智能提供服务。本书内容翔实,全面地介绍了这一技术,十分值得一读。
司 罗
阿里巴巴集团副总裁、达摩院语言实验室首席科学家,ACM 杰出科学家
工业级知识图谱的构建对于人工智能的产业化应用非常重要,是一个大的系统工程。除了涉及所有知识图谱核心技术,更大的挑战还包括超大规模工程系统的构建、海量知识、长尾知识、知识的精准度、行业专家的协作等问题。虽然这些问题目前学术界尚未深入研究,但在大规模真实场景中是必须要解决的。作为世界上超大规模的商品知识图谱,阿里巴巴知识图谱支撑着阿里巴巴经济体每年万亿元规模的交易量和万亿次的调用量。本书基于阿里巴巴商品知识图谱的实践,完整地呈现了千亿级知识图谱的从无到有的构建过程,同时介绍了相关前沿技术及其实现细节,是一本对知识图谱技术研究、开发和工程实践都有重要意义的参考书。
张 民
苏州大学计算机科学与技术学院院长,国家杰出青年科学基金获得者
在人工智能技术与产业结合日益紧密的当下,本书从产业实践的视角解读了知识图谱技术领域,全面详细地介绍了知识建模、知识融合、知识获取、知识推理和知识服务等技术组成,同时基于真实案例介绍了知识图谱的应用场景。本书涉及的知识图谱规模大、应用广泛,对学习和实践知识图谱技术有参考意义。
赵 军
中国科学院自动化研究所研究员, 中国科学院大学人工智能学院岗位教授
评论
还没有评论。