描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121405976
在大数据时代,企业面临的问题不是真的没有数据可用,而是鉴于数据安全,出现了数据孤岛,无法应用数据。联邦学习是密码学、分布式计算和机器学习三个学科交叉的技术,可以很好地解决数据隐私和安全的问题。
本书由JD科技集团有多年联邦学习实战经验的二十多位作者合作编写,内容可分为联邦学习基础、具体的联邦学习算法、联邦学习的产业应用和展望三个大部分,并给出较多案例。
本书用300多页的篇幅详细地介绍了联邦学习的原理和应用。
本书针对产业界在智能化过程中普遍面临的数据不足问题,详细地阐述了联邦学习如何帮助企业引入更多数据、提升机器学习模型效果。互联网数据一般分布在不同的位置,受隐私保护法规限制不能共享,形成了“数据孤岛”。联邦学习像“数据孤岛”之间的特殊桥梁,通过传输变换后的临时变量,既能实现模型效果提升,又能确保隐私信息的安全。
本书介绍了联邦学习技术的原理和实战经验,主要内容包括隐私保护、机器学习等基础知识,联邦求交、联邦特征工程算法,三种常见的联邦形式,以及工程架构、产业案例、数据资产定价等。
第1章 / 联邦学习的研究与发展现状
1.1 联邦学习的背景
1.2 大数据时代的挑战:数据孤岛
1.2.1 “数据孤岛”的成因
1.2.2 具体实例
1.2.3 数据互联的发展与困境
1.2.4 解决“数据孤岛”问题的难点与联邦学习的优势
1.3 联邦学习的定义和基本术语
1.3.1 联邦学习的定义
1.3.2 联邦学习的基本术语
1.4 联邦学习的分类及适用范围
1.4.1 纵向联邦学习
1.4.2 横向联邦学习
1.4.3 联邦迁移学习
1.5 典型的联邦学习生命周期
1.5.1 模型训练
1.5.2 在线推理
1.6 联邦学习的安全性与可靠性
1.6.1 安全多方计算
1.6.2 差分隐私
1.6.3 同态加密
1.6.4 应对攻击的健壮性
第2章 / 多方计算与隐私保护
2.1 多方计算
2.2 基本假设与隐私保护技术
2.2.1 安全模型
2.2.2 隐私保护的目标
2.2.3 三种隐私保护技术及其关系
2.3 差分隐私
2.3.1 差分隐私的基本概念
2.3.2 差分隐私的性质
2.3.3 差分隐私在联邦学习中的应用
2.4 同态加密
2.4.1 密码学简介
2.4.2 同态加密算法的优势
2.4.3 半同态加密算法
2.4.4 全同态加密算法
2.4.5 半同态加密算法在联邦学习中的应用
2.5 安全多方计算
2.5.1 百万富翁问题
2.5.2 安全多方计算中的密码协议
2.5.3 安全多方计算在联邦学习中的应用
第3章 / 传统机器学习
3.1 统计机器学习的简介
3.1.1 统计机器学习的概念
3.1.2 数据结构与术语
3.1.3 机器学习算法示例
3.2 分布式机器学习的简介
3.2.1 分布式机器学习的背景
3.2.2 分布式机器学习的并行模式
3.2.3 分布式机器学习对比联邦学习
3.3 特征工程
3.3.1 错误及缺失处理
3.3.2 数据类型
3.3.3 特征工程方法
3.4 化算法
3.4.1 化问题
3.4.2 解析方法
3.4.3 一阶优化算法
3.4.4 二阶优化算法
3.5 模型效果评估
3.5.1 效果评估方法
3.5.2 效果评估指标
第4章 / 联邦交集计算
4.1 联邦交集计算介绍
4.1.1 基于公钥加密体制的方法
4.1.2 基于混乱电路的方法
4.1.3 基于不经意传输协议的方法
4.1.4 其他方法
4.2 联邦交集计算在联邦学习中的应用
4.2.1 实体解析与纵向联邦学习
4.2.2 非对称纵向联邦学习
4.2.3 联邦特征匹配
第5章 / 联邦特征工程
5.1 联邦特征工程概述
5.1.1 联邦特征工程的特点
5.1.2 传统特征工程和联邦特征工程的对比
5.2 联邦特征优化
5.2.1 联邦特征评估
5.2.2 联邦特征处理
5.2.3 联邦特征降维
5.2.4 联邦特征组合
5.2.5 联邦特征嵌入
5.3 联邦单变量分析
5.3.1 联邦单变量基础分析
5.3.2 联邦WOE和IV计算
5.3.3 联邦PSI和CSI计算
5.3.4 联邦KS和LIFT计算
5.4 联邦自动特征工程
5.4.1 联邦超参数优化
5.4.2 联邦超频优化
5.4.3 联邦神经结构搜索
第6章 / 纵向联邦学习
6.1 基本假设及定义
6.2 纵向联邦学习的架构
6.3 联邦逻辑回归
6.4 联邦随机森林
6.5 联邦梯度提升树
6.5.1 XGBoost简介
6.5.2 SecureBoost简介
6.5.3 SecureBoost训练
6.5.4 SecureBoost推理
6.6 联邦学习深度神经网络
6.7 纵向联邦学习案例
第7章 / 横向联邦学习
7.1 基本假设与定义
7.2 横向联邦网络架构
7.2.1 中心化架构
7.2.2 去中心化架构
7.3 联邦平均算法概述
7.3.1 在横向联邦学习中优化问题的一些特点
7.3.2 联邦平均算法
7.3.3 安全的联邦平均算法
7.4 横向联邦学习应用于输入法
第8章 / 联邦迁移学习
8.1 基本假设与定义
8.1.1 迁移学习的现状
8.1.2 图像中级特征的迁移
8.1.3 从文本分类到图像分类的迁移
8.1.4 联邦迁移学习的提出
8.2 联邦迁移学习架构
8.3 联邦迁移学习方法
8.3.1 多项式近似
8.3.2 加法同态加密
8.3.3 ABY
8.3.4 SPDZ
8.3.5 基于加法同态加密进行安全训练和预测
8.3.6 基于ABY和SPDZ进行安全训练
8.3.7 性能分析
8.4 联邦迁移学习案例
8.4.1 应用场景
8.4.2 联邦迁移强化学习
8.4.3 迁移学习的补充阅读材料
第9章 / 联邦学习架构揭秘与优化实战
9.1 常见的分布式机器学习架构介绍
9.2 联邦学习开源框架介绍
9.2.1 TensorFlow Federated
9.2.2 FATE框架
9.2.3 其他开源框架
9.3 训练服务架构揭秘
9.4 推理架构揭秘
9.5 调优案例分析
9.5.1 特征工程调优
9.5.2 训练过程的通信过程调优
9.5.3 加密的密钥长度
9.5.4 隐私数据集求交集过程优化
9.5.5 服务器资源优化
9.5.6 推理服务优化
第10章 / 联邦学习的产业案例
10.1 医疗健康
10.1.1 患者死亡可能性预测
10.1.2 医疗保健
10.1.3 联邦学习在医疗领域中的其他应用
10.2 金融产品的广告投放
10.3 金融风控
10.3.1 数据方之间的联邦学习
10.3.2 数据方与金融机构之间的联邦学习
10.4 其他应用
10.4.1 联邦学习应用于推荐领域
10.4.2 联邦学习与无人机
10.4.3 联邦学习与新型冠状病毒肺炎监测
第11章 / 数据资产定价与激励机制
11.1 数据资产的相关概念及特点
11.1.1 大数据时代背景
11.1.2 数据资产的定义
11.1.3 数据资产的特点
11.1.4 数据市场
11.2 数据资产价值的评估与定价
11.2.1 数据资产价值的主要影响因素
11.2.2 数据资产价值的评估方案
11.2.3 数据资产的定价方案
11.3 激励机制
11.3.1 贡献度量化方案
11.3.2 收益分配方案
11.3.3 数据资产定价与激励机制的关系
第12章 / 联邦学习面临的挑战和可扩展性
12.1 联邦学习面临的挑战
12.1.1 通信与数据压缩
12.1.2 保护用户隐私数据
12.1.3 联邦学习优化
12.1.4 模型的鲁棒性
12.1.5 联邦学习的公平性
12.2 联邦学习与区块链结合
12.2.1 王牌技术
12.2.2 可信媒介
12.2.3 对比异同
12.2.4 强强联合
12.3 联邦学习与其他技术结合
写作背景
联邦学习迅速成了产业界的宠儿,很多互联网企业纷纷投入研发资源,并进行市场布局。这项技术于2016年被谷歌提出,在2019年年初被引入国内,在2020年即已出现数十家企业提供的产品,并出现了大规模的商业应用,这种速度在新技术应用中实属罕见。
究其原因,是因为联邦学习可以解决企业之间的“数据孤岛”问题,让企业可以通过使用更多的数据提高AI模型的效果,为用户提供更便捷的个性化服务。同时,在这个过程中数据是安全的,用户的隐私信息不会被输出和泄露,因此这项技术不但不会损害合作企业的利益,而且可以为其带来额外的收益。对于用户而言,他们既可以享受个性化服务质量的提升,又不用担心具体隐私信息的传播,有利而无害,因此愿意授权互联网服务商通过这种安全的方式使用外部数据。对于市场监管而言,这种方式的跨企业数据服务不是直接复制数据,而是需要通过联邦网络,由联邦参与方共同确认才能产生结果,这解决了使用传统方式造成的数据被任意复制、难以监管的难题。
从技术层面来看,联邦学习是密码学、分布式计算、机器学习三个学科交叉的技术,涉及面较广,部署实施难度大,很多具体问题需要跨领域的综合知识才能解决。一方面,在人才市场中拥有这种综合知识的人才十分稀缺,很多项目都面临无人可用的困境。另一方面,越来越多的人关注到联邦学习这个新兴技术,希望系统地掌握联邦学习的原理,并在产业应用中解决具体问题。不幸的是,市面上相关的书籍还很少,网络博文往往不够系统和深入。我们在联邦学习产品化、产业实战过程中积累了大量经验,撰写了这本关于技术与实战的书,希望帮助读者更好地掌握联邦学习。我们也希望与互联网伙伴一起,组建更大的联邦网络,在确保用户隐私数据安全的前提下,为用户提供更优质的服务,促进跨企业大数据行业的健康发展。
如何阅读本书?
本书详细地阐述了联邦学习的相关概念,同时给出了较多案例,适合对联邦学习感兴趣的读者阅读。本书在必要之处给出数学公式,读者在阅读这些小节时需要具备统计学的基础知识。
我们对本书进行了系统性的编排和统筹。本书共12章,包括联邦学习基础、具体的联邦学习算法、联邦学习的产业应用和展望三大部分。各个部分相对独立,读者可依据目标和兴趣进行有选择性地重点阅读。
第1章~第3章为联邦学习基础,旨在帮助读者了解联邦学习的市场背景、技术现状,以及基础的隐私保护技术、机器学习技术和分布式计算技术。建议联邦学习的初学者和求职者重点阅读这个部分,借以梳理清楚联邦学习的基本问题和基本技术。第1章从全局的角度概述了联邦学习的基本问题,用于建立对联邦学习的总体认识,主要由陈玉林和范昊撰写。第2章介绍多方计算和隐私保护,是联邦学习成功地解决数据孤岛问题,实现跨企业大数据融合的关键,主要由周帅撰写。第3章介绍传统机器学习,包括基本概念、方法和效果评价,是联邦学习建立联合模型、有效地利用多方数据解决业务问题的基础,主要由王帝撰写。
第4章~第8章为具体的联邦学习算法,旨在帮助读者了解具体算法的应用背景、特点和扩展方法,进而帮助读者根据需求选择合适的算法,适合联邦学习从业者进行重点阅读。第4章介绍联邦交集计算的相关理论和具体方法,用于提供联邦数据之间的对应关系,主要由王森和何天琪撰写。第5章介绍联邦特征工程的相关理论和具体方法,用于为联邦学习提供符合业务需求的输入数据,同时还可以减少噪声、提高效率等,主要由张一凡撰写。第6章~第8章分别介绍纵向联邦学习、横向联邦学习和联邦迁移学习这三种方案的架构、方法和案例。纵向联邦学习用于解决相同用户在不同企业场景中产生的数据的联合建模问题,主要由陈忠和李怡欣撰写。横向联邦学习用于解决不同用户在相同场景中产生的数据的联合建模问题,主要由敖滨和张润泽撰写。联邦迁移学习用于解决不同用户在不同场景中产生的数据的联合建模问题,主要由王森撰写。
第9章~第12章为联邦学习的产业应用和展望,旨在帮助读者了解联邦学习技术的商业应用现状、挑战、趋势,以及与数据资产和要素市场的关联,据此引发读者进一步思考。该部分较为宏观,涉及面广,适合联邦学习相关的项目管理者重点阅读。第9章介绍了常见的开源架构、训练服务和推理架构,并对具体部署过程中遇到的通信、资源不足等问题给出了优化方案,主要由张德、陈行、闫玉成、孙浩博、黄乐乐、肖祥文撰写。第10章介绍产业案例,包括联邦学习在医疗健康、金融产品广告投放、风控金融等场景中的应用,主要由王博、季澈和石薇撰写。第11章从数据自身价值出发阐述数据资产的相关概念和特征,据此引出联邦学习应用中的激励机制和定价模型,主要由吴极、孙果和周帅撰写。第12章介绍联邦学习的挑战和可扩展性,由陈玉林和陈晓霖撰写。
致谢
本书是很多人共同努力的结果,在此感谢各位作者的辛勤付出。同时,在本书后期的整理和内容统筹过程中,何彦婷、刘云、孟璐、张竹清等同事做出了贡献,在此表示衷心的感谢。
我们要感谢刘威老师,经过刘威老师的介绍,我们和电子工业出版社的石悦编辑相识,终达成了合作。在审稿过程中,石悦编辑多次邀请专家给出宝贵意见,对书稿的修改完善起到了重要作用。在此感谢石悦编辑对本书的重视,以及为本书出版所做的一切。
由于作者水平有限,书中不足之处在所难免。此外,由于联邦学习方兴未艾,技术不断完善,新算法层出不穷,本书难免有所遗漏,敬请专家和读者批评指正。
彭南博 王虎
2020年12月
联邦学习为打破数据孤岛、促进数据融合提供了关键和可行的解决方案。本书以简明和清晰的语言详细地阐述了联邦学习的相关概念、基础算法、应用场景,并辅以丰富的案例解析,为联邦学习技术的应用落地提供了参考,是一本值得研读的好书。
——中国信息通信研究院云计算与大数据研究所所长 何宝宏
开放银行正成为银行转型及数字化变革的重要路径和战略选择,联邦学习能够在风险建模、精准营销、提升客户体验等方面有效地推动开放银行的业务创新,解决平台加场景模式在落地实施过程中的客户数据共享和隐私保护的难题。本书对联邦学习的基本原理和算法进行了介绍,通过案例对联邦学习在不同场景中的应用进行分析,对相关的金融从业者具有很高的实战价值和很好的借鉴意义。
——亿联银行行长助理兼首席信息官 李树峰
不断产生的数据催生了丰富的智能应用,推动着社会进步和发展。各行业、各机构的数据都蕴含着各自的价值,但在使用数据时涉及的安全与合规问题制约了不同数据进一步融合和价值放大。联邦学习技术在保护数据安全和用户隐私的前提下,在原始数据不离开各自机构的同时让不同数据有机融合、产生更大的价值。本书深入浅出地介绍了联邦学习技术的基本原理和实战案例,可以帮助从业者快速入门,值得阅读。
——*集团副总裁、*科技集团数字城市群总裁、IEEE Fellow 郑宇
在产业数字化大发展的背景下,国家提出了培育数据要素市场以助力经济高质量发展,这需要推动数据流通共享,但是数据流通的难点是在保护隐私信息不泄露的前提下提取数据价值。联邦学习是一项解决该难点的新技术,发展迅速。本书由经验丰富的联邦学习从业者撰写,详细地介绍了相关产业背景、技术现状及原理、实践案例,具有很好的参考价值。
——*集团副总裁,*科技集团首席经济学家、宏观经济与产业研究院院长 沈建光
评论
还没有评论。