描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121417818
本书聚焦深度学习算法建模及相关技术,选取医疗、视频、工业三个非常有行业代表性的赛题:瑞金医院MMC人工智能辅助构建知识图谱、阿里巴巴优酷视频增强和超分辨率挑战赛和布匹疵点智能识别,介绍赛题涉及的技术知识和选手的创新思路与模型,对赛题的解决方案从0到1层层拆解。 本书从经典行业案例出发,内容由浅入深、层层递进,既可以作为专业开发者用书,也可以作为参考选手的实战手册。
目 录
赛题一 瑞金医院MMC人工智能辅助构建知识图谱
0 技术背景 3
0.1 技术现状 3
0.2 实验室介绍 3
1 赛题解读 7
1.1 赛题背景 7
1.2 知识图谱 7
1.2.1 知识图谱的发展历史 7
1.2.2 如何表达知识 9
1.2.3 如何构建知识图谱 11
1.2.4 如何进行知识推理 13
1.3 数据介绍 15
1.3.1 初赛数据 16
1.3.2 复赛数据 17
1.4 评测指标 18
2 数据处理 19
2.1 自然语言处理基础 19
2.1.1 词向量 19
2.1.2 语言模型 20
2.1.3 自然语言处理中的深度学习 24
2.2 数据预处理 29
2.2.1 .txt文件 29
2.2.2 .ann文件 30
2.2.3 使用Python解析文件 32
3 初赛赛题——实体识别 35
3.1 实体识别任务 35
3.2 传统机器学习方法 36
3.2.1 概率图模型 36
3.2.2 隐马尔可夫模型 38
3.2.3 熵马尔可夫模型 39
3.2.4 条件随机场模型 40
3.3 深度学习方法 41
3.3.1 双向循环神经网络 41
3.3.2 双向循环神经网络 条件随机场模型 43
3.4 初赛方案 44
3.4.1 数据集构建 44
3.4.2 特征工程 46
3.4.3 模型构建 47
4 复赛赛题——关系抽取 53
4.1 关系抽取任务 53
4.2 传统方法 53
4.2.1 基于模板的抽取 53
4.2.2 基于依存句法的抽取 54
4.2.3 基于统计机器学习的抽取 55
4.3 深度学习方法 56
4.3.1 监督学习 56
4.3.2 半监督学习 57
4.4 复赛方案 59
4.4.1 数据集构建 59
4.4.2 特征工程 62
4.4.3 模型构建 63
5 Neo4j存储知识图谱 69
5.1 Neo4j介绍 69
5.2 Neo4j配置 70
5.2.1 安装 70
5.2.2 Web管理平台 71
5.2.3 Neo4j-shell 72
5.3 数据库构建 72
5.3.1 准备工作 72
5.3.2 创建数据库 72
5.3.3 事务 73
5.3.4 创建节点 73
5.3.5 创建关系 74
5.3.6 查询 74
5.4 Cypher查询 75
5.4.1 读语句 76
5.4.2 写语句 76
5.4.3 通用语句 78
6 赛题进阶讨论 80
6.1 数据标注方法 80
6.1.1 指针标注 80
6.1.2 片段排列 81
6.2 联合抽取 82
6.2.1 共享参数 82
6.2.2 联合标注 84
6.3 大规模预训练语言模型 86
6.3.1 ELMo模型 86
6.3.2 GPT模型 87
6.3.3 BERT模型 89
6.3.4 使用BERT模型进行实体识别与关系抽取 90
赛题二 阿里巴巴优酷视频增强和超分辨率挑战赛
0 技术背景 95
0.1 业界应用 95
0.2 文娱行业面临的画质问题 95
0.3 实验室介绍和技术手段 96
0.4 重点模块 97
0.5 处理效果 98
1 赛题解读 100
1.1 赛题背景 100
1.2 赛题目标 100
1.3 数据概览 100
1.4 评估指标 101
1.5 解题思路 102
1.6 赛题模型 103
2 数据处理 105
2.1 视频和图像处理 105
2.1.1 图像基本概念 105
2.1.2 视频基本概念 106
2.1.3 视频分帧 107
2.1.4 图像处理 108
2.1.5 图片合成视频 110
2.2 工具包 111
2.2.1 OpenCV库 111
2.2.2 FFmpeg库 112
2.3 数据处理 112
2.3.1 安装工具包 112
2.3.2 导入工具包 112
2.3.3 视频转图片函数 112
2.3.4 读取图片并获取大小 113
2.3.5 读取图片并进行灰度处理 114
2.3.6 分帧后的图片灰度处理 114
2.3.7 图片转视频函数 115
3 传统插值方法 117
3.1 插值方法 117
3.1.1 插值方法的基本概念 117
3.1.2 插值原理 118
3.2 插值算法 118
3.2.1 近邻插值算法 119
3.2.2 双线性插值算法 119
3.2.3 双三次插值算法 120
3.3 几种传统插值算法结果对比 121
3.4 数据处理 122
3.4.1 导入工具包 122
3.4.2 读取图片 122
3.4.3 近邻插值算法 122
3.4.4 双线性插值算法 123
3.4.5 基于4px×4px邻域的三次插值算法 123
3.4.6 不同插值函数计算PSNR 123
3.4.7 传统插值方法效果对比 123
3.4.8 Bicubic插值算法 124
4 深度插值方法 126
4.1 深度学习 126
4.1.1 卷积神经网络 126
4.1.2 使用SRCNN实现超清分辨率 132
4.2 赛题实践 132
4.2.1 导入工具包 132
4.2.2 读取图片 133
4.2.3 使用Bicubic插值放大至目标尺寸 133
4.2.4 实现SRCNN 133
4.2.5 SRCNN模型训练 133
4.2.6 SRCNN模型验证 135
4.2.7 SRCNN模型预测 135
4.2.8 保存图片 135
5 深度学习方法改进 136
5.1 FSRCNN实现超清分辨率 136
5.2 ESPCN实现超清分辨率 138
5.3 赛题实践 140
5.3.1 导入工具包 140
5.3.2 读取图片 140
5.3.3 FSRCNN 140
5.3.4 ESPCN 142
6 深度学习方法进阶 145
6.1 GAN基本概念 145
6.1.1 GAN生成手写数字 146
6.1.2 GAN训练 147
6.1.3 GAN算法数学形式 148
6.2 CGAN 149
6.3 VGGNet 150
6.4 ResNet 153
6.5 SRGAN结构 156
6.5.1 SRGAN损失函数 157
6.5.2 SRGAN效果 157
6.6 SRGAN实现超清分辨率 158
6.6.1 导入工具包 158
6.6.2 读取图片 159
6.6.3 实现SRGAN 159
6.6.4 SRGAN模型训练 163
6.6.5 SRGAN模型验证 163
6.6.6 SRGAN模型预测 163
6.6.7 保存图片 163
赛题三 布匹疵点智能识别
(2019广东工业智造创新大赛 赛场一)
0 技术背景 167
0.1 行业背景 167
0.2 实验室产品介绍 168
0.3 赛题背景 170
0.4 初赛数据示例 171
0.5 复赛数据示例 172
1 赛题解析 173
1.1 赛题背景分析 173
1.2 计算机视觉 174
1.2.1 计算机视觉简介 174
1.2.2 计算机视觉发展历史 175
1.2.3 计算机视觉方法 177
1.3 数据集介绍 178
1.4 赛题指标介绍 179
1.5 赛题初步分析 181
2 深度学习基础 182
2.1 感知机 182
2.2 梯度下降法 184
2.3 多层感知机 186
2.4 反向传播 189
2.5 深度神经网络PyTorch实现 189
3 卷积神经网络与数据处理 193
3.1 卷积运算与互相关运算 193
3.2 卷积神经网络 195
3.3 卷积神经网络的反向传播算法 198
3.4 卷积神经网络PyTorch实现 199
3.4.1 卷积神经网络简单实现示例 199
3.4.2 竞赛数据预训练模型 202
4 区域卷积神经网络系列算法 204
4.1 目标检测的基本概念 204
4.2 区域卷积神经网络 205
4.3 Fast R-CNN算法 210
4.4 Faster R-CNN算法 214
4.5 目标检测Faster R-CNN算法实战 218
5 实例分割Mask R-CNN算法 226
5.1 实例分割 226
5.2 Mask R-CNN算法 226
5.3 PyTorch实现实例分割 230
6 赛题算法与提升思路 237
6.1 级联区域卷积神经网络 237
6.2 目标检测赛题提升思路 239
6.3 mm-detection框架下的算法实现 241
参考文献 242
序言
让深度学习触手可及
在过去的几十年中,人工智能经历了从“传统机器学习”时期到“数据驱动的机器学习”时期,再到“深度学习遍地开花”的当下。人工智能已经成为吸引力与影响力的科技之一。
深度学习是伴随着大数据与云计算技术的崛起而快速发展起来的,并在计算机视觉、语音等感知领域迅速取得成功。相对于传统机器学习,深度学习的算法设计更加灵活,可以显著提升针对感知类问题的效果。随着算力及分布式工程能力的进一步提升,深度学习的参数规模越来越大。可以说,参数越多,模型对知识的理解就越深刻。而深度学习模型也从传统的针对单一任务,比如文本识别、物品识别、语音识别等,向多任务处理发生转移,我们称这种一个模型可以同时处理文本识别与理解、图片识别与理解,实现跨领域联动识别与理解的能力为多模态通用AI能力。可见,深度学习在时下及未来很长一段时间内都将具有很高的科研价值和广阔的产业前景。
任何一项科学技术从研究领域走向产业实践都会面临诸多的挑战,对于普通的开发者而言更是如此。从研发范式的角度,我们观察到AI与大数据的发展模式是沿着“小作坊”到“大平台”,再到“敏捷制造”的方向演进的。依托云原生大数据与AI一体化的平台,开发者可以灵活、快速地开发并高效按需部署、使用AI服务。而这还远远不够,技术与产业的结合还需要具有真实场景作为开发者成长的沃土,以便使其自身的技术得到锤炼。本书中的案例生动,能真实地将开发者带入深度学习应用为火热的几个现实场景中,如医疗、多媒体与娱乐、工业智造,从0到1描绘端到端的业务场景;深入浅出,阐述业务问题背后的技术背景;详细讲解需要用到的每一个技术细节。这可以使开发者“身临其境”地面对产业问题,分析技术解法,探索技术方案,解决问题并优化解法。
工欲善其事,必先利其器。阿里云机器学习PAI平台与天池社区、天池大赛共同为广大开发者提供了从云原生交互式建模、可视化建模、大规模分布式训练平台到弹性推理服务的全套AI工程支持,以及AI实战案例、真实场景数据、产业级技术指导、开发者交流互动平台。希望广大开发者能够在掌握基本原理的基础上,在云环境中快速实践并演练各种技术,体验深度学习在产业中的落地过程,并将这种能力快速应用到更多的实战场景中,推动人工智能在更多产业开花结果。
贾扬清
阿里巴巴集团副总裁、阿里云智能计算平台事业部高级研究员
自序
天池——Make AI Happen
不知不觉,本图书《阿里云天池大赛赛题解析——机器学习篇》出版已经大半年了。还记得,在策划此书时,团队不止一次陷入争论:我们的书没有完整的理论系统支撑,是否客观公正?作者是普通开发者而不是领域专家,是否具有权威性?内容上直接讲方法是否太过枯燥?
怀着忐忑不安的心,本书终于在2020年9月出版了。出版社李老师时间给我们发来了销售数据,似乎还可以,稍稍心安;过了几天,又去电子工业出版社天猫旗舰店翻阅读者的评价,几乎百分之百是好评,悬着的心又放下了一些;紧接着,天池平台(简称天池)参加了一个教育展会,这本书在展台大受欢迎,很多老师翻阅后当场下单购买。到这儿,我们的心才总算放下了。我们原计划就是要出版天池比赛系列图书,再加上读者给了我们信心,于是马不停蹄地筹备第二本。
回顾2020年,新型冠状病毒肺炎疫情迟迟不肯退去,我们被迫进入了“后疫情时代”,科技、AI无处不在;2021 年也是“十四五”的开局之年,全面实现数字化被提上日程,技术与产业融合在进一步扩大和深入。
天池在这一年中也做了更多有意义的探索。我们走访了佛山坚美铝业的质检车间、重庆江记酒庄的自动化灌装车间等十余个制造企业产线车间,在自动化的产线带给我们强烈震撼的同时,我们也在思考和探索如何运用AI技术提高工业视觉质检的准确率和效率,辅助甚至替代人工来把关产品质量,助推企业高质量发展。我们与数字中国建设峰会组委会合作,让人工智能技术和中国高分卫星数据深度结合,从PB级数据中自动化精准识别建筑物轮廓,实现高分卫星对人居建筑的每月例行监测,服务于违建监测、受灾民居统计、城市体检、宅基地改革等应用场景,实现建筑智能普查,用AI技术驱动城市精细治理,用科创助力数字中国建设。
我们还到浙江丽水遂昌县,探索用数字化技术实现乡村振兴的跨越式发展,让数字经济与绿水青山发生巧妙的融合……我们秉承初心,持续推动产业互联网时代高质量脱敏数据集的开放,并为阿里云机器学习PAI平台提供算力支撑,激活青年人的创新动能,让青年开发者有机会运用算法解决社会或商业问题,让AI普惠各行各业。
如果说机器学习主要解决大数据的应用问题,那么深度学习的出现,则开始解决机器感知问题。随着算力的不断升级,人工智能将在各行各业取得重要突破。
因此,针对本书,我们选取了三个非常有行业代表性的赛题,分别来自医疗行业、视频行业、工业。竞赛期间,我们就惊喜地看到天池选手提交的创新思路和模型,经过选手的授权,我们期待与更多读者分享。这三个赛题的数据集均为天池官方采集或标注,通过本书首次对外公开。本书继续沿用天池选手众智的撰写模式,希望更接近读者日常的阅读习惯。
在这里,要感谢侯思泽、肖芬瑞、王煦中、洪鹏飞、宋丹、张永亮几位作者的付出。同时,本书在每个赛题前增加了技术前沿的解读,并分享了阿里巴巴在这些领域的研究成果,它们分别来自阿里巴巴各技术领域的人工智能专家陈漠沙、李静、白徳桃。本书也会继续开放源码,读者可以通过天池实验室进行在线运行。
长风破浪会有时,直挂云帆济沧海。二十年在整个人类发展史上只是沧海一粟,但近二十年的科技发展给人类带来了翻天覆地的变化,我们有幸处在这个时代,希望在这艘科技驱动的巨轮中,天池能尽到微薄之力,让更多的技术爱好者更快地登上巨轮,跟随,甚至推动巨轮前行。
王一婷、崔颖、王听
天池平台
评论
还没有评论。