描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302635277
1. 凝聚知名图像处理专家8年深度学习算法的研究心得和实践经验。
2. 中科院研究员鲁华祥、阿里达摩院计算机视觉大模型负责人赵德丽等专家力荐。
3. 全面、深入介绍基于深度学习的图像识别技术与应用,深入介绍图像识别的核心算法与12个经典案例,重点突出计算机视觉领域的多项新技术研究成果。
4. 印刷精美:采用全彩印刷,能更好地呈现图像的色彩和各种细节。
5. 内容全面、新颖:涵盖深度学习与图像识别的核心技术与应用,并重点介绍多项新技术研究成果,给出多个重要领域的应用实践代码。
6. 讲解深入:在对内容横向扩展的同时,还进一步从纵向挖掘,力争把知识讲深、讲透。
7. 讲解准确、细致:对涉及的概念和算法等理论知识给出准确的描述,并通过大量的示意图、表和详细的步骤呈现技术细节。
8. 框架流行、易用:涉及的所有案例均采用流行和易用的PyTorch框架实现,容易上手。
9. 理论和实践紧密结合,案例典型:不仅对理论知识进行阐述,而且结合12个切合实际开发的典型案例进行实践,学习效果更好。
10. 编排科学:章节顺序编排合理,符合读者的学习和认知规律,学习梯度较为平滑。
《深度学习之图像识别:核心算法与实战案例(全彩版)》全面介绍了深度学习在图像识别领域中的核心算法与应用。该书不但重视基础理论的讲解,而且从第4章开始,每章都提供了1~3个不同难度的案例供读者实践,读者可以在已有代码的基础上进行改进,从而加深对所学知识的理解。
《深度学习之图像识别:核心算法与实战案例(全彩版)》共9章:首先介绍深度学习的基础概念,包括神经网络基础知识和深度学习中的优化技术;然后系统介绍深度学习中与数据相关的知识,包括经典数据集的设计、数据集的增强,以及数据的获取、整理与可视化;接着重点针对图像识别领域,结合实战案例系统地介绍深度学习在图像分类、图像分割和目标检测3个领域的核心技术与应用;另外,还会对深度学习模型的可视化以及模型的压缩和优化进行详细介绍,为读者设计和训练更加实用的模型提供指导;最后以微信小程序平台为依托,介绍微信小程序前后端开发技术,从而完成深度学习模型的部署。
《深度学习之图像识别:核心算法与实战案例(全彩版)》理论结合实践,广度兼具深度,非常适合深度学习领域的相关技术人员与爱好者阅读,尤其适合基于深度学习的计算机视觉从业人员阅读,可以帮助他们全方位了解深度学习在计算机视觉领域的技术全貌。另外,该书还适合作为高校人工智能相关专业的教材和社会培训机构相关课程的教材。
第1章 神经网络与卷积神经网络基础 1
1.1 神经网络的生物基础与数学模型 1
1.1.1 神经元 1
1.1.2 感知机 3
1.1.3 多层感知机与反向传播算法 7
1.2 卷积神经网络基础 11
1.2.1 卷积的概念 12
1.2.2 卷积神经网络的基本概念 13
1.2.3 卷积神经网络的基本结构 17
1.3 总结 21
参考文献 22
第2章 深度学习优化基础 23
2.1 激活函数 23
2.1.1 S型函数 24
2.1.2 ReLU函数 25
2.2 参数初始化 31
2.2.1 简单初始化 31
2.2.2 标准初始化 31
2.2.3 Xavier与MSRA初始化 32
2.2.4 初始化方法的使用 32
2.3 标准化方法 33
2.3.1 什么是标准化 33
2.3.2 批次标准化 34
2.3.3 层标准化 37
2.3.4 实例标准化 37
2.3.5 组标准化 38
2.3.6 权重标准化 39
2.3.7 标准化方法的自动搜索 39
2.3.8 标准化的有效性问题 39
2.4 学习率与最优化 40
2.4.1 学习率策略 40
2.4.2 梯度下降法与动量法 45
2.4.3 Adagrad算法 46
2.4.4 Adadelta与RMSprop算法 47
2.4.5 Adam算法 47
2.4.6 牛顿法、拟牛顿法与共轭梯度法 48
2.5 正则化方法与泛化 48
2.5.1 过拟合与欠拟合 49
2.5.2 参数正则化 49
2.5.3 提前停止 50
2.5.4 模型集成 51
2.5.5 训练样本扩充 52
2.6 深度学习主流开源框架 52
2.6.1 Caffe简介 53
2.6.2 TensorFlow简介 53
2.6.3 PyTorch简介 54
2.6.4 Theano简介 55
2.6.5 Keras简介 55
2.6.6 MXNet简介 55
2.6.7 Chainer简介 56
2.7 总结 56
参考文献 57
第3章 深度学习中的数据使用方法 60
3.1 深度学习通用数据集的发展 60
3.1.1 MNIST数据集 60
3.1.2 CIFAR10和CIFAR100数据集 61
3.1.3 PASCAL数据集 63
3.1.4 ImageNet数据集 63
3.1.5 Microsoft COCO数据集 64
3.2 常见计算机视觉任务数据集 65
3.2.1 人脸数据集 65
3.2.2 自动驾驶数据集 75
3.2.3 医学数据集 77
3.3 数据收集、清洗与整理 81
3.3.1 数据收集 81
3.3.2 数据清洗与整理 83
3.4 数据标注 85
3.4.1 数据标注类型 85
3.4.2 数据标注方法 85
3.5 数据增强 87
3.5.1 单样本图像处理数据增强 88
3.5.2 多样本图像处理数据增强 92
3.5.3 自动化数据增强 94
3.5.4 数据生成增强 94
3.6 数据可视化 95
3.6.1 低维数据可视化 96
3.6.2 高维数据可视化 97
3.7 总结 99
参考文献 99
第4章 图像分类 101
4.1 图像分类基础 101
4.1.1 单标签图像分类问题 102
4.1.2 深度学习图像分类经典模型 104
4.1.3 优化目标 108
4.1.4 评测指标 110
4.2 多标签图像分类 111
4.2.1 多标签图像分类问题 111
4.2.2 多标签图像分类模型 112
4.2.3 多标签图像分类评估指标 113
4.3 细粒度图像分类 114
4.3.1 基于语义子区域的模型 114
4.3.2 基于高维特征的模型 116
4.4 半监督与无监督图像分类 117
4.4.1 基本问题与解决思路 117
4.4.2 半监督分类模型 119
4.4.3 无监督分类模型 120
4.4.4 自监督分类模型 121
4.5 其他图像分类问题的典型难题 122
4.5.1 类别不均衡问题 122
4.5.2 样本过少问题 123
4.5.3 零样本识别问题 123
4.6 简单表情图像分类实战 124
4.6.1 项目背景 124
4.6.2 数据预处理 126
4.6.3 网络结构配置 128
4.6.4 基于PyTorch的项目实践 130
4.6.5 基于Caffe的项目实践 137
4.6.6 项目总结 146
4.7 鸟类细粒度图像分类实战 147
4.7.1 项目背景 147
4.7.2 模型搭建 148
4.7.3 模型训练 151
4.7.4 项目总结 152
4.8 总结 152
参考文献 153
第5章 目标检测 155
5.1 目标检测基础 155
5.1.1 检测窗口选择 156
5.1.2 特征提取 156
5.1.3 分类器 157
5.1.4 经典的V-J人脸检测方法 159
5.1.5 评估指标 162
5.1.6 优化目标 166
5.1.7 深度学习目标检测概述 167
5.2 深度学习二阶段目标检测方法 168
5.2.1 Selective Search与R-CNN 168
5.2.2 RoI Pooling与SPPNet 171
5.2.3 Fast R-CNN方法 172
5.2.4 Faster R-CNN方法 175
5.2.5 R-FCN方法 177
5.2.6 特征金字塔 178
5.2.7 RoI Align简介 178
5.2.8 级联框架Cascade R-CNN 180
5.3 深度学习一阶段目标检测方法 180
5.3.1 YOLO v1方法 180
5.3.2 YOLO v2方法 183
5.3.3 YOLO v3方法 185
5.3.4 YOLO v4方法 186
5.3.5 YOLO v5方法 189
5.3.6 SSD方法 191
5.3.7 基于角点的检测方法 192
5.4 YOLO v3猫脸目标检测实战 194
5.4.1 项目背景 194
5.4.2 数据读取 194
5.4.3 模型搭建 199
5.4.4 优化目标 204
5.4.5 模型训练 212
5.4.6 模型测试 212
5.4.7 项目总结 217
5.5 总结 217
参考文献 218
第6章 图像分割 220
6.1 图像分割基础 220
6.1.1 图像分割的分类 220
6.1.2 经典的图像分割方法 222
6.1.3 评估指标与优化目标 226
6.2 语义分割 227
6.2.1 反卷积 227
6.2.2 语义分割基本流程 229
6.2.3 语义分割经典模型 230
6.2.4 语义分割核心技术与改进 232
6.2.5 条件随机场后处理 236
6.2.6 弱监督语义分割模型 236
6.3 Image Matting模型 237
6.3.1 基本概念 237
6.3.2 基于三值图的模型 237
6.3.3 不基于三值图的模型 240
6.3.4 小结 241
6.4 实例分割模型 241
6.4.1 基础实例分割模型 241
6.4.2 二阶段实例分割模型 245
6.4.3 一阶段实例分割模型 246
6.4.4 小结 250
6.5 嘴唇图像语义分割项目 251
6.5.1 项目背景 251
6.5.2 数据准备与读取 252
6.5.3 网络结构搭建 254
6.5.4 模型训练 256
6.5.5 模型测试 259
6.5.6 项目总结 260
6.6 人像抠图实战 261
6.6.1 项目背景 261
6.6.2 数据处理与读取 262
6.6.3 模型搭建与训练 266
6.6.4 模型测试 270
6.6.5 项目总结 272
6.7 总结 272
参考文献 272
第7章 模型可视化 275
7.1 模型可视化基础 275
7.1.1 为什么要研究模型可视化 275
7.1.2 模型可视化的研究方向 276
7.2 模型结构可视化 276
7.2.1 模型结构的定义 277
7.2.2 Graphiz可视化工具 278
7.2.3 Netron可视化工具 280
7.3 模型可视化分析 282
7.3.1 卷积参数与特征可视化 282
7.3.2 输入激活模式可视化 286
7.3.3 输入区域重要性可视化 289
7.4 模型可视化分析实践 293
7.4.1 梯度法可视化 293
7.4.2 反卷积可视化 296
7.4.3 CAM图可视化 302
7.4.4 项目总结 305
7.5 总结 305
参考文献 305
第8章 模型压缩 307
8.1 轻量级模型设计 307
8.1.1 全连接层的压缩 308
8.1.2 小卷积核的应用 309
8.1.3 卷积拆分与分组 312
8.1.4 特征通道优化利用 316
8.1.5 小结 317
8.2 模型剪枝 318
8.2.1 模型剪枝基础 318
8.2.2 模型稀疏学习 319
8.2.3 非结构化剪枝技术 322
8.2.4 结构化剪枝技术 324
8.2.5 小结 326
8.3 模型量化 326
8.3.1 模型量化基础 326
8.3.2 二值量化 327
8.3.3 8bit量化 331
8.3.4 自由位宽量化 334
8.3.5 小结 335
8.4 模型蒸馏 335
8.4.1 模型蒸馏基础 336
8.4.2 知识蒸馏框架 337
8.4.3 小结 339
8.5 结构化模型剪枝实践 339
8.5.1 方案选择 340
8.5.2 模型训练 340
8.5.3 模型剪枝 343
8.5.4 小结 346
8.6 8bit模型量化实践 346
8.6.1 方法选择 346
8.6.2 量化算法实现 347
8.6.3 模型量化与测试 353
8.6.4 小结 356
8.7 经典模型蒸馏实践 357
8.7.1 模型定义 357
8.7.2 模型训练 358
8.7.3 小结 360
8.8 总结 361
参考文献 361
第9章 模型部署与上线 365
9.1 微信小程序前端开发 365
9.1.1 小程序的技术特点与定位 365
9.1.2 Web前端基础 367
9.1.3 小程序开发工具 369
9.1.4 小程序前端目录 370
9.1.5 小程序前端开发 371
9.2 微信小程序服务端开发 376
9.2.1 域名注册与管理 377
9.2.2 服务端框架简介 377
9.2.3 算法搭建与实现 378
9.3 总结 382
机器学习、深度学习和人工智能是近几年持续热门的话题,尤其是OpenAI公司的ChatGPT聊天机器人一上线,便把人工智能推向了一个新的热度。深度学习其实并不是一门全新的学科,其历史可以追溯到20世纪40年代,其背后的核心技术包括神经网络的结构设计和优化方法等。深度学习是一门应用性极强的工程技术,初学者要想掌握好这门技术,不仅需要进行系统的理论知识学习,而且还要紧随理论进行全面实践。
对于我国而言,人工智能俨然已经成为国家高科技发展的重中之重,近几年有数百所高等院校陆续开设了人工智能类专业。当前,令人瞩目的是以深度学习为代表的无监督特征学习技术在图像识别、语音识别和自然语言处理等领域频频取得新的突破,这促使我国数以千计的人工智能类科技公司得到了快速发展。
笔者在8年前就投身人工智能领域,从事图像识别方面的工作。在此期间,笔者多以深度学习技术为基础进行相关项目的开发,积累了大量的经验,而且还持续运营微信公众号“有三AI”,推出了数百篇与人工智能相关的文章,帮助大量读者了解和学习人工智能相关技术及发展趋势。
笔者曾在2019年5月出版了《深度学习之图像识别:核心技术与案例实战》,迄今已经5次印刷,销量超过万册,被众多读者所认可。只是这是笔者第一次执笔写作,当时笔者还在互联网公司上班,时间非常紧,加之自身能力不足,所写内容还不算太成熟和完备,仍然有大量可以改进、扩展和深入的空间。近几年,笔者进一步对相关技术进行了潜心研究和实践,对基于深度学习的图像识别技术有了更加深入和全面的认识,技术能力突飞猛进,其间还写作并出版了几本人工智能技术图书,还与大量读者和技术爱好者进行过多次线上和线下交流,并在各大平台上进行过多场直播,收集了大量的反馈和建议,因此笔者觉得有必要重新写一本书,以便与各位读者和技术爱好者分享更新、更系统、更细致和更深入的计算机视觉技术。于是笔者于2022年开始动笔,经过大半年的编写,终于完成了《深度学习之图像识别:核心算法与实战案例(全彩版)》的写作。
《深度学习之图像识别:核心算法与实战案例(全彩版)》首先从深度学习的背景和基础理论知识讲起,然后介绍深度学习中数据的使用,以及计算机视觉涉及的三大核心领域—图像分类、图像分割和目标检测,最后介绍深度学习模型的可视化、优化和部署等知识。
《深度学习之图像识别:核心算法与实战案例(全彩版)》内容全面,理论结合实践,讲解由浅入深,图文并茂,尽可能地抛开过多的数学理论,将重点放在基于深度学习的图像识别关键技术与应用上,从而降低学习难度。本书紧随工业界和学术界计算机视觉技术的新近发展,带领读者全面、系统地了解并掌握相关技术。相信通过阅读本书,读者能够对相关知识有更加全面和深入的理解。
《深度学习之图像识别:核心算法与实战案例(全彩版)》特色
相比前书,本书基本沿袭了《深度学习之图像识别:核心技术与案例实战》的内容架构,但在具体内容和风格上有很大的变化,主要体现在以下几个方面:
(1)印刷更精美—采用四色印刷,能更好地呈现图像的色彩和各种细节。
(2)内容更全面、新颖—除了详细介绍神经网络和深度学习的理论知识、数据使用方法,以及深度学习在图像分类、图像分割和目标检测三大领域的关键技术与应用外,还会介绍模型的可视化、优化与部署等知识,并(3)重点突出新近研究成果,给出多个重要领域的应用实践代码。
(4)内容更深入—在对内容进行横向扩展的同时,还会进一步从纵向挖掘,力争把知识讲深、讲透。
(5)讲解更准确、细致—对涉及的概念和算法等理论知识给出更加准确的描述,并通过大量的示意图、表格和详细的步骤呈现技术细节。
(6)框架更流行、易用—涉及的所有案例均采用更加流行和易用的PyTorch框架实现,更容易上手。
(7)理论和实践结合更紧密,案例更典型—不仅对理论知识进行阐述,而且结合多个更加切合实际开发的典型案例进行实践,学习效果更好。
(8)编排更合理—章节安排更加合理,更加符合读者的学习和认知规律。
《深度学习之图像识别:核心算法与实战案例(全彩版)》内容
第1章神经网络与卷积神经网络基础,首先介绍神经网络的生物基础与数学模型,然后介绍卷积神经网络的基础知识,为后续学习深度学习模型打好基础。
第2章深度学习优化基础,首先介绍激活函数、参数初始化、标准化、最优化、正则化等与深度学习优化相关的知识,然后介绍Caffe、TensorFlow和PyTorch等开源框架的优缺点,旨在让读者对深度卷积神经网络优化有较为全面的认识,为后续学习打好基础。
第3章深度学习中的数据使用方法,首先介绍深度学习发展中的几个数据集,尤其是几个较为重要的数据集,然后介绍数据的收集、整理与标注方法,以及数据增强和可视化等相关知识。本章内容对工业项目开发非常重要,实践性较强。
第4章图像分类,首先介绍图像分类的基础知识,如单标签图像分类和图像分类经典模型等,然后详细介绍图像分类的几个重点研究领域,如多类别图像分类、细粒度图像分类、多标签图像分类、半监督与无监督图像分类、零样本图像分类等,接着以从零开始搭建图像分类模型和准备数据集为例,展示实现一个完整的工业级图像分类任务的流程,最后介绍一个细粒度级别的图像分类任务,以一个较好的基准模型,展示较复杂的图像分类任务的特点以及模型训练与调优方法。
第5章目标检测,首先介绍目标检测的基础知识和基本流程,并讲述一个经典的V-J目标检测框架,然后介绍基于深度学习的目标检测任务的研究方法与发展现状,并重点总结二阶段目标检测方法与一阶段目标检测方法,最后给出一个目标检测任务进行实践,即使用当前较为主流的YOLO系列中的YOLO v3框架进行模型的训练与测试。
第6章图像分割,首先介绍图像分割的研究方向,并简单地回顾经典的图像分割方法与评估指标等,然后重点介绍基于深度学习的图像分割方法的基本原理与核心技术,并总结语义分割、Image Matting和实例分割的相关模型,接着以从零开始搭建图像分割模型和准备数据集为例,展示实现一个完整的工业级图像分割任务的流程,最后介绍一个更加复杂的人像软分割任务,展示典型的Image Matting框架的代码实现与模型训练方法。
第7章模型可视化,首先介绍深度学习中的模型可视化基础知识,然后介绍具有代表性的模型可视化分析方法,接着结合案例分别对梯度法可视化、反卷积可视化和激活热图可视化方法进行代码分析与实践。
第8章模型压缩,首先介绍轻量级模型设计的典型方法,然后详细介绍模型剪枝、模型量化和模型蒸馏的相关知识,最后结合案例介绍基于缩放因子的结构化模型剪枝、基于KL散度的8bit模型量化及经典的知识蒸馏框架的代码实现、模型训练和压缩方法。
第9章模型部署与上线,依托微信小程序平台从两个方面介绍模型部署的相关知识。首先介绍微信小程序的前端开发,然后介绍微信小程序的服务端开发,以及服务端算法功能代码的实现方法,从而完成一个可供验证的工业级线上模型的部署。
配书资源获取方式
《深度学习之图像识别:核心算法与实战案例(全彩版)》涉及的源代码文件和数据集需要读者自行下载。读者可在清华大学出版社网站搜索到本书,然后找到页面上的“资源下载”模块,单击“网络资源”按钮进行下载即可。另外,读者也可在作者的开源GitHub上进行下载,或者关注微信公众号“方大卓越”,回复“图像识别yys”,即可获取下载链接。
读者对象
深度学习技术爱好者与研究者;
基于深度学习的图像识别人员;
计算机视觉技术爱好者与从业人员;
高等院校相关专业的学生与老师;
相关培训机构的学生与老师。
售后支持
限于笔者水平,书中可能还存在一些疏漏和不足之处,敬请各位读者批评与指正。阅读本书时如果有疑问,可以通过电子邮件获取帮助。
致谢
感谢南京邮电大学的博士生尤帅!在本书的编写过程中,他协助笔者绘制了一些图表,并审阅和校正了部分内容。
感谢广大读者和技术爱好者!他们给笔者提供了已出版图书的阅读反馈和建议,这对笔者写作本书非常有价值。
最后感谢参与本书出版的各位编辑!没有他们的辛苦与努力,就不会有本书的高质量出版。
言有三
本书作者是一位在深度学习图像识别领域工作多年的有为青年,他根据自己的工作经历和经验编写了这本书。本书以理论结合案例的方式系统地介绍计算机视觉中的图像分类、目标检测和图像分割几个核心方向的研究方法,并对模型的可视化分析和压缩方法进行比较深入的介绍,是一本不可多得的图像识别技术读物,推荐对深度学习和图像识别技术感兴趣的人阅读,一定大有裨益。
——中国科学院半导体研究所研究员 鲁华祥
本书对深度学习的基础知识做了详细的介绍,并且配了大量的示意图,做到了图文并茂,读起来通俗易懂。本书知识和实践并重,结合多个具体的应用案例讲解,适合学习深度学习基础知识和常见理解类任务的读者阅读。本书作者著有多本相关技术图书,经验丰富,相信这本图像识别图书会给AI的普及带来助力。
——阿里巴巴达摩院计算机视觉大模型负责人 赵德丽
一个好的算法工程师必须要有扎实的理论基础和丰富的实战经验。本书重点介绍了计算机视觉领域近几年的一些新进展,另外还详细地阐述了如何完成工业界的一些实用且通用的视觉任务。如果你想要成为一名计算机视觉算法工程师,那么建议你系统地阅读本书,在作者的引领下提高自己的水平。
——虾皮技术总监 陈强
随着多模态大模型技术的发展,AI的能力也在不断地进化,我们即将进入真正的AI时代。言有三的这本书以感知世界的视觉图像分析算法为切入口,系统地介绍了图像识别技术,是学习该项技术的一块很好的敲门砖。该书对图像识别领域多个实际任务的数据集、任务目标、基本方法和工具框架进行了详细介绍,是学习图像识别技术不可多得的参考读物。通过阅读本书,读者可以快速理解深度学习的基础概念和理论,并跟随书中的实战案例亲自动手实践,从而提高实际动手能力,提升学习效果。
——高途AI算法负责人 邱学侃
评论
还没有评论。