描述
开 本: 16开纸 张: 纯质纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121385223
《联邦学习》凝聚了杨强教授带领的微众银行AI团队在联邦学习领域的多年学术成果和工程经验
全面、系统论述联邦学习理论、算法、平台及应用的中文专著
剖析了联邦学习与数据安全、隐私保护的前沿学术成果
涵盖隐私保护技术,联邦学习定义、分类、算法和系统,联邦学习激励机制等
论述联邦学习在计算机视觉、自然语言处理和推荐系统等领域的应用
探讨如何解决用户隐私、数据安全及联邦学习应用落地问题
如何在保证本地训练数据不公开的前提下,实现多个数据拥有者协同训练一个共享的机器学习模型?传统的机器学习方法需要将所有的数据集中到一个地方(例如,数据中心),然后进行机器学习模型的训练。但这种基于集中数据的做法无疑会严重侵害用户隐私和数据安全。如今,世界上越来越多的人开始强烈要求科技公司必须根据用户隐私法律法规妥善地处理用户的数据,欧盟的《通用数据保护条例》是一个很好的例子。在本书中,我们将描述联邦学习(亦称联邦机器学习)如何将分布式机器学习、密码学、基于金融规则的激励机制和博弈论结合起来,以解决分散数据的使用问题。我们会介绍不同种类的面向隐私保护的机器学习解决方案以及技术背景,并描述一些典型的实际问题解决案例。我们还会进一步论述联邦学习将成为下一代机器学习的基础,可以满足技术和社会需求并促进面向安全的人工智能的开发和应用。
序言Ⅲ
前言Ⅳ
作者简介Ⅷ
第1 章 引言/1
1.1 人工智能面临的挑战/2
1.2 联邦学习概述/4
1.2.1 联邦学习的定义/5
1.2.2 联邦学习的分类/8
1.3 联邦学习的发展/11
1.3.1 联邦学习的研究/11
1.3.2 开源平台/13
1.3.3 联邦学习标准化进展/14
1.3.4 联邦人工智能生态系统/15
第2 章 隐私、安全及机器学习/17
2.1 面向隐私保护的机器学习/18
2.2 面向隐私保护的机器学习与安全机器学习/18
2.3 威胁与安全模型/19
2.3.1 隐私威胁模型/19
2.3.2 攻击者和安全模型/21
2.4 隐私保护技术/22
2.4.1 安全多方计算/22
2.4.2 同态加密/27
2.4.3 差分隐私/30
第3 章 分布式机器学习/35
3.1 分布式机器学习介绍/36
3.1.1 分布式机器学习的定义/36
3.1.2 分布式机器学习平台/37
3.2 面向扩展性的DML /39
3.2.1 大规模机器学习/39
3.2.2 面向扩展性的DML 方法/40
3.3 面向隐私保护的DML /43
3.3.1 隐私保护决策树/43
3.3.2 隐私保护方法/45
3.3.3 面向隐私保护的DML 方案/45
3.4 面向隐私保护的梯度下降方法/48
3.4.1 朴素联邦学习/49
3.4.2 隐私保护方法/49
3.5 挑战与展望/51
第4 章 横向联邦学习/53
4.1 横向联邦学习的定义/54
4.2 横向联邦学习架构/55
4.2.1 客户-服务器架构/55
4.2.2 对等网络架构/58
4.2.3 全局模型评估/59
4.3 联邦平均算法介绍/60
4.3.1 联邦优化/60
4.3.2 联邦平均算法/63
4.3.3 安全的联邦平均算法/65
4.4 联邦平均算法的改进/68
4.4.1 通信效率提升/68
4.4.2 参与方选择/69
4.5 相关工作/69
4.6 挑战与展望/71
第5 章 纵向联邦学习/73
5.1 纵向联邦学习的定义/74
5.2 纵向联邦学习的架构/75
5.3 纵向联邦学习算法/77
5.3.1 安全联邦线性回归/77
5.3.2 安全联邦提升树/80
5.4 挑战与展望/85
第6 章 联邦迁移学习/87
6.1 异构联邦学习/88
6.2 联邦迁移学习的分类与定义/88
6.3 联邦迁移学习框架/90
6.3.1 加法同态加密/93
6.3.2 联邦迁移学习的训练过程/94
6.3.3 联邦迁移学习的预测过程/95
6.3.4 安全性分析/95
6.3.5 基于秘密共享的联邦迁移学习/96
6.4 挑战与展望/97
第7 章 联邦学习激励机制/99
7.1 贡献的收益/100
7.1.1 收益分享博弈/100
7.1.2 反向拍卖/102
7.2 注重公平的收益分享框架/103
7.2.1 建模贡献/103
7.2.2 建模代价/104
7.2.3 建模期望损失/105
7.2.4 建模时间期望损失/105
7.2.5 策略协调/106
7.2.6 计算收益评估比重/108
7.3 挑战与展望/109
第8 章 联邦学习与计算机视觉、自然语言处理及推荐系统/111
8.1 联邦学习与计算机视觉/112
8.1.1 联邦计算机视觉/112
8.1.2 业内研究进展/114
8.1.3 挑战与展望/115
8.2 联邦学习与自然语言处理/116
8.2.1 联邦自然语言处理/116
8.2.2 业界研究进展/118
8.2.3 挑战与展望/118
8.3 联邦学习与推荐系统/119
8.3.1 推荐模型/120
8.3.2 联邦推荐系统/121
8.3.3 业界研究进展/123
8.3.4 挑战与展望/123
第9 章 联邦强化学习/125
9.1 强化学习介绍/126
9.1.1 策略/127
9.1.2 奖励/127
9.1.3 价值函数/127
9.1.4 环境模型/127
9.1.5 强化学习应用举例/127
9.2 强化学习算法/128
9.3 分布式强化学习/130
9.3.1 异步分布式强化学习/130
9.3.2 同步分布式强化学习/131
9.4 联邦强化学习/131
9.4.1 联邦强化学习背景/131
9.4.2 横向联邦强化学习/132
9.4.3 纵向联邦强化学习/134
9.5 挑战与展望/136
第10 章 应用前景/139
10.1 金融/140
10.2 医疗/141
10.3 教育/142
10.4 城市计算和智慧城市/144
10.5 边缘计算和物联网/146
10.6 区块链/147
10.7 第五代移动网路/148
第11 章 总结与展望/149
附录A 数据保护法律和法规/151
A.1 欧盟的数据保护法规/152
A.1.1 GDPR 中的术语/153
A.1.2 GDPR 重点条款/154
A.1.3 GDPR 的影响/156
A.2 美国的数据保护法规/157
A.3 中国的数据保护法规/158
参考文献/161
序言
人工智能安全
21 世纪初,人工智能(Artificial Intelligence,AI)进入以深度学习为主导的大数据时代,基于大数据的机器学习既推动了AI 的蓬勃发展,也带来一系列安全隐患。这些隐患来源于深度学习本身的学习机制,无论是在它的模型建造(训练)阶段,还是在模型推理和使用阶段。这些安全隐患如果被有意或无意地滥用,后果将十分严重。当前AI 安全已引起人们普遍的关注,各项的治理措施也因此积极开展。AI 治理有以下几个不同的维度,即技术、法律、经济和文化等。“联邦学习”(Federated Learning)正是在这个背景下提出和发展起来的,它主要从技术维度出发,重点研究其中的隐私保护
和数据安全问题。那么联邦学习是如何保护隐私和数据安全的?它包括两个过程,分别是模型训练和模型推理。在模型训练阶段,模型相关的信息可以在各方之间交换,但数据不能交换,因此各个站点上的数据将受到保护。在模型推理阶段,训练好的联邦学习模型可以置于联邦学习系统的各参与方,也可以供多方共享。这是联邦学习的具体过程,也就是它的定义。
本书是关于联邦学习的介绍,共11 章,内容丰富。从广度上看,书中讨论了四种联邦学习的基本类型,即横向联邦学习、纵向联邦学习、联邦迁移学习和联邦强化学习,还讨论了相关的联邦学习激励机制和分布式机器学习。从深度上看,书中包括原理、算法、平台和应用实例。本书作者杨强等均来自微众银行,他们都参与了联邦智能使能器(Federated AI Technology Enabler,FATE)的联邦学习平台的开发。本书的许多思想来源于这个实践,因此具有实用性。本书可以作为计算机科学、人工智能和机器学习专业的学生,以及大数据和人工智能应用程序开发人员的入门参考书,也可供本科高年级学生或者研究生、大学的教员和研究机构的研究人员阅读。
张钹
中国科学院院士,清华大学人工智能研究院院长
前言
本书讲述在数据间彼此孤立、同时被不同组织所拥有且并不能被轻易地聚合在一起的环境下,联合构建机器学习模型的方法。我们经常可以听到,当今是大数据(Big Data)时代,而大数据正是人工智能(Artificial Intelligence,AI)应用蓬勃发展的“燃料”。事实却是,我们面对的数据常常既是小规模,又是碎片化的。例如,我们不能随意收集由移动终端设备产生的数据,这些数据都以碎片化的形式分散存在。像医院这样的机构,由于行业的特殊性,对用户数据的掌握量往往是有限的。然而,由于用户隐私和数据安全方面的需求,使得在不同机构间以简单的方式将所有数据聚合到一处并进行处理变得越来越不可行。在这样的环境中,联邦机器学习(Federated Machine Learning),或者简称为联邦学习(Federated Learning),作为一种行之有效的解决方案引起了人们的广泛关注。联邦学习既能帮助多个参与方搭建共享的高性能模型,又符合用户隐私和数据保密性的要求。
除了保护用户隐私和数据安全,联邦学习的另一发展动机是为了化地利用云系统下终端设备的计算能力。如果只在设备和服务器之间传输计算结果而不是原始数据,那么通信将会变得极为高效。人造卫星能够完成绝大部分的信息收集计算,并只需使用限度的信道与地面计算机通信。联邦学习通过交换中间计算结果即可在多台设备和计算服务器之间进行同步。
我们可以打个比方来通俗地解释联邦学习,把机器学习模型比作羊,把数据比作羊吃的草。在传统方法中,要建立机器学习模型,需要到各个草场的供应商处收购草。这就像一家人工智能公司需要到处收集数据一样,会面对很多的挑战,例如用户隐私、各个组织的利益和法律法规的约束等。联邦学习则换了一种思路,我们可以牵着羊,到各个草场去吃草,这样羊就可以吃到每个地方的草,羊可以成长,而草不出本地,就像联邦学习系统里的数据不出本地一样。羊吃了各家的草,可以逐渐长大,就像联邦模型在各个地方的数据集上都获得知识,变得越来越好,后联邦模型可以供大家一起使用一样。这也是本书的封面所展示的意义。
如今,现代社会需要人们更负责任地使用人工智能,而用户隐私和数据完整性是人工智能系统的重要特征。在这一方向,从安全地更新移动电话上的输入法预测模型,到与多家医院一同改善医疗图像识别模型的性能,联邦学习已经产生了显著的积极影响。在计算机科学领域,有许多已有的研究成果为联邦学习技术奠定了基础。自从谷歌发布了一个名为Gboard 的应用程序后,联邦学习技术在2018 年左右开始迅速崛起。
谷歌的Gboard 系统是一个企业对消费者(Business-to-Consumer,B2C)应用的例子。它也能够用于支持边缘计算,云系统的终端(边缘)设备可以处理许多计算任务,从而减少了通过原始数据与中央服务器通信的需要。另一个维度是企业对企业(Business-to-Business,B2B)应用。在此类应用中,多个组织联合起来搭建一个共享的机器学习模型。模型是在确保没有本地数据离开任何站点的同时构建的,而模型性能可以根据业务需求进行一定程度的定制。在本书中,我们涵盖了B2C 模型和B2B 模型。
为了推进联邦学习技术,需要多个学科领域的合作,包括机器学习算法、分布式机器学习、密码学与安全、隐私保护数据挖掘、博弈论与经济学原理、激励机制设计、法律与监管要求等。要同时精通如此多的学科,对一位研究者或工程师来说是一个极其艰巨的任务。目前,研究联邦学习领域的资源分散于许多研究论文和博客上,因此,我们有必要在一本书中进行全面的介绍。
本书的内容是关于联邦学习的介绍,可以作为读者入门和探究联邦学习所需阅读的本书。本书是为计算机科学、人工智能和机器学习专业的学生,以及大数据和人工智能应用程序的开发人员编写的。本科高年级学生或者研究生、大学的教员和研究机构的研究人员都能够发现这本书的有用之处。在课堂上,本书可以作为研究生研讨课程的教科书,也可以作为研究联邦学习的参考文献。法律法规制定者和政府监管部门也可以把这本书作为一本关于大数据和人工智能法律事务的参考书。
本书的想法来自我们在微众银行开发的一个名为联邦智能使能器(Federated AI Technology Enabler,FATE)的联邦学习平台,是个工业级联邦学习开源框架。FATE 平台现已是Linux 基金会的一部分。微众银行是一家服务于中国数亿用户的数字银行,拥有来自不同背景的商业合作伙伴,包括银行、保险公司、互联网公司、零售公司和供应链公司等。我们亲身体会到,由于数据不能轻易地共享和传输,导致合作构建由机器学习所支撑的新业务的需求正变得愈加强烈。
谷歌将联邦学习大规模地应用在其面向消费者的移动服务中。我们进一步扩大了联邦学习的适用范围,使多家企业结为伙伴关系。基于联邦学习的横向、纵向和迁移学习分类首次在我们发表于ACM TIST (ACM Transactions on Intelligent Systems and Technology) 的研究论文中提出,也于2019 年在夏威夷由人工智能发展协会组织举办的AAAI(Association for the Advancement of Artificial Intelligence)会议上提出。随后,在第14 届中国计算机联盟科技前沿大会等会议上,参会者们提供了许多关于联邦学习的教程。在本书的编写过程中,我们的个开源联邦学习系统FATE 诞生了。此外,联邦学习的个 IEEE 国际标准正在制定中。各种教程和相关的研究论文是本书的基础所在。
本书的结构安排如下。第1 章介绍当前人工智能面临的挑战以及将联邦学习作为可行的解决方案。第2 章提供面向隐私保护的机器学习的背景知识,包括常用的隐私保护技术和数据安全技术。第3 章是分布式机器学习概述,包括面向扩展性的分布式机器学习和面向隐私保护的分布式机器学习,并强调了联邦学习和分布式机器学习的区别。第4 章、第5 章和第6 章分别详细地介绍了横向联邦学习、纵向联邦学习和联邦迁移学习。第7 章探讨联邦学习激励机制的设计,以便更好地激励联邦学习的参与方。第8 章介绍联邦学习在计算机视觉、自然语言处理及推荐系统领域的研究和应用。第9 章介绍联邦强化学习。第10 章讨论联邦学习在各个领域的应用前景。第11 章总结此书,并展望联邦学习的未来发展。后,附录A 中提供了当前的欧盟、美国和中国的数据保护法律和法规概况。
为完成本书的撰写,一群非常敬业的学者和工程师付出了巨大的努力。除了本书的作者,也有许多博士研究生、研究人员和研究伙伴为不同章节做出了贡献。我们衷心地感谢以下为本书的写作和编校做出贡献的人士。
- 周雨豪协助完成了本书从英文到中文翻译的初稿。
- 高大山协助撰写了第2 章和第3 章。
- 吴学阳协助撰写了第3 章和第5 章。
- 梁新乐协助撰写了第3 章和第9 章。
- 黄云峰协助撰写了第5 章和第8 章。
- 万晟协助撰写了第6 章和第8 章。
- 魏锡光协助撰写了第9 章。
- 邢鹏威协助撰写了第8 章和第10 章。
后,我们要感谢我们的家人对我们的理解与支持!
杨强,刘洋,程勇,康焱,陈天健,于涵
2020 年4 月,中国深圳
联邦学习作为我国新一代人工智能重大项目的核心技术之一,能促进企业间数据合作和产业技术联盟,满足社会的需求并加快人工智能的产业落地。《联邦学习》原创性地阐述了联邦学习作为下一代人工智能大规模协作的基础理论、开源平台和应用场景,为目前发展人工智能面临的小数据和隐私等关键问题提供了有效的解决思路,是一本值得认真研读的好书。
高 文
中国工程院院士,北京大学教授,鹏城实验室主任
隐私保护是人工智能时代的一项重要议题,联邦学习技术可有效平衡效益和隐私的矛盾。杨强教授作为联邦学习技术*早的布道者和领军人物,用浅显直白的语言介绍了联邦学习技术和各类适用场景,本书十分值得一读。
李开复
创新工场董事长兼CEO
大数据时代,如何在保障数据安全和隐私的前提下,实现数据共享,促进多源(元)数据的碰撞、融合,*限度地释放数据价值,是当前学术界和产业界共同面临的重要技术挑战之一。近年来,联邦学习作为应对这一挑战的一项新技术,受到了广泛的关注。本书以通俗简明的语言,系统地介绍了联邦学习的发展背景、理论框架和基础算法,并辅以丰富生动的实践应用,是一本值得大数据、人工智能技术与应用相关领域从业者拥有的学习和参考书。
梅 宏
教授,中国科学院院士,欧洲科学院外籍院士,IEEE Fellow,中国人民解放军军事科学院副院长
人工智能和金融的深度融合是金融业发展的必然趋势,也是现有金融行业的进化与升级,将会带来颠覆性变革。针对人工智能在金融业发展所遇到“数据孤岛”和“隐私保护”的难题,联邦学习技术应运而生,使得各机构可以在不交换数据的情况下,完成人工智能算法模型训练,且有望在世界范围内广泛推广。《联邦学习》中文版的出版,对联邦学习技术的知识传播、落地应用必将起到显著推动作用,有利于解决金融数据安全与共享运用的难题,加速我国金融业与人工智能的深度融合。
肖 钢
第十三届全国政协经济委员会委员
在欧盟《通用数据保护条例》等用户隐私数据法律法规陆续出台的今天,联邦学习的意义和作用日趋显著。本书由联邦学习的主要推动者之一杨强教授领衔撰写,对理解和实践联邦学习有重要参考价值。
周志华
南京大学人工智能学院院长,欧洲科学院外籍院士,ACM/AAAI/IEEE Fellow
评论
还没有评论。