描述
开 本: 大32开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787115608956
紧跟AI发展热点,深入探讨了深度学习在目标检测与分割、场景文字检测与识别、图像翻译等多个前沿领域的应用,为你揭开了深度学习算法的神秘面纱;
本书不仅涵盖深度学习的经典应用场景,更从算法原理、公式推导、源码分析到实验结果,全方位解析深度学习算法的精髓,清晰演示算法的演进脉络;
书中还特别强调了算法中的数学原理,如双线性插值、匈牙利算法等,帮助读者从根本上理解算法的内在逻辑;
本书不仅能够扩展你的算法知识面,更能让你深入理解主流算法,构建起自己的知识体系,掌握模型优化的关键方法;
现在,让我们一起翻开本书,探索深度学习的奥秘,把握AI时代的脉搏,开启一段知识与技术的深度之旅!
本书通过扎实、详细的内容,从理论知识、算法源码、实验结果等方面对深度学习中涉及的算法进行分析和介绍。本书共三篇,第一篇主要介绍深度学习在目标检测与分割方向的前沿算法,包括双阶段检测、单阶段检测、无锚点检测、特征融合、损失函数、语义分割这 6 个方向;第二篇主要介绍深度学习在场景文字检测与识别方向的重要突破,主要介绍场景文字检测、场景文字识别这两个阶段的算法;第三篇主要介绍深度学习的其他算法与应用,包括图像翻译、图神经网络、二维结构识别、人像抠图、图像预训练、多模态预训练这6个方向的算法。附录部分介绍双线性插值、匈牙利算法、Shift-and-Stitch、德劳内三角化、图像梯度、仿射变换矩阵等内容。 本书结构清晰,内容广度与深度齐备。通过阅读本书,读者可以了解前沿的深度学习算法,扩展自己的算法知识面。无论是从事深度学习科研的教师及学生,还是从事算法落地实践的工作人员,都能从本书中获益。
第 一篇 目标检测与分割
第 1 章 双阶段检测 3
11 R-CNN 4
111 R-CNN 检测流程 5
112 候选区域提取 6
113 预训练及微调 7
114 训练数据准备 7
115 NMS 8
116 小结 9
12 SPP-Net 9
121 空间金字塔池化 10
122 SPP-Net 的推理流程 11
123 小结 13
13 Fast R-CNN 13
131 Fast R-CNN 算法介绍 13
132 数据准备 14
133 Fast R-CNN 网络结构 15
134 多任务损失函数 16
135 Fast R-CNN 的训练细节17
136 Fast R-CNN 的推理流程18
137 小结 18
14 Faster R-CNN 18
141 区域候选网络 18
142 Faster R-CNN 的训练 22
143 小结 22
15 R-FCN 23
151 提出动机 23
152 R-FCN 的网络 24
153 R-FCN 结果可视化 26
154 小结 27
16 Mask R-CNN 27
161 Mask R-CNN 的动机 28
162 Mask R-CNN 详解 28
163 小结 31
17 MaskX R-CNN 31
171 权值迁移函数 32
172 MaskX R-CNN 的训练 32
173 小结 33
18 DCNv1 和 DCNv2 33
181 DCNv1 33
182 DCNv2 36
183 小结 39
第 2 章 单阶段检测 40
21 YOLOv1 41
211 YOLOv1 的网络结构 42
212 损失函数 44
213 小结 46
22 SSD 和 DSSD 47
221 SSD 48
222 DSSD 51
223 小结 53
23 YOLOv2 54
231 YOLOv2:更快,更高 54
232 YOLO9000:更强 59
233 小结 61
24 YOLOv3 61
241 多标签任务 62
242 骨干网络 62
243 多尺度特征 63
244 锚点聚类 63
245 YOLOv3 一些失败的尝试 64
246 小结 64
25 YOLOv4 65
251 背景介绍 65
252 数据 65
253 模型 69
254 后处理 78
255 YOLOv4 改进介绍 79
256 小结 82
第 3 章 无锚点检测 83
31 DenseBox 84
311 DenseBox 的网络结构 84
312 多任务模型 85
313 训练数据 86
314 结合关键点检测 87
315 测试 88
316 小结 88
32 CornerNet 89
321 背景 89
322 CornerNet 详解 90
323 小结 95
33 CornerNet-Lite 96
331 CornerNet-Saccade 96
332 CornerNet-Squeeze 99
333 小结 99
34 CenterNet 99
341 网络结构 100
342 数据准备 102
343 损失函数 103
344 推理过程 104
345 小结 104
35 FCOS 104
351 算法背景 105
352 FCOS 的网络结构 105
353 多尺度预测 107
354 测试 107
355 小结 107
36 DETR 107
361 网络结构 108
362 损失函数 109
363 小结 111
第 4 章 特征融合 112
41 FPN 113
411 CNN 中的常见骨干网络 113
412 FPN 的网络结构 114
413 FPN 的应用 116
414 小结 116
42 PANet 117
421 PANet 117
422 小结 120
43 NAS-FPN 121
431 NAS-FPN 算法详解 121
432 NAS-FPN Lite 125
433 小结 125
44 Effi cientDet 125
441 BiFPN 126
442 EfficientDet 详解 127
443 小结 128
第 5 章 损失函数 129
51 Focal Loss 129
511 Focal Loss 介绍 130
512 RetinaNet132
513 小结132
52 IoU 损失 133
521 背景知识 133
522 IoU 损失133
523 UnitBox 网络结构135
524 小结136
53 GIoU 损失 136
531 算法背景 136
532 GIoU 损失详解137
533 小结139
54 DIoU 损失和 CIoU 损失 140
541 背景140
542 DIoU 损失141
543 CIoU 损失142
544 小结142
55 Focal-EIoU 损失 143
551 EIoU 损失143
552 Focal L1 损失144
553 Focal-EIoU 损失146
554 小结146
第 6 章 语义分割 147
61 FCN 和 SegNet 148
611 背景知识 148
612 FCN 详解149
613 SegNet 详解150
614 分割指标 151
615 小结152
62 U-Net 152
621 U-Net 详解153
622 数据扩充 155
623 小结155
63 V-Net 156
631 网络结构 156
632 Dice 损失 160
633 小结161
64 DeepLab 系列 161
641 DeepLab v1161
642 DeepLab v2164
643 DeepLab v3165
644 DeepLab v3 167
645 小结170
第二篇 场景文字检测与识别
第 7 章 场景文字检测 173
71 DeepText 173
711 RPN 回顾174
712 DeepText 详解175
713 小结175
72 CTPN 176
721 算法流程 176
722 数据准备 177
723 CTPN 的锚点机制 177
724 CTPN 中的 RNN178
725 边界微调 178
726 CTPN 的损失函数 179
727 小结179
73 RRPN 179
731 RRPN 详解180
732 位置精校 183
733 小结184
74 HED 185
741 HED 的骨干网络 186
742 整体嵌套网络 186
743 HED 的损失函数 187
744 小结 188
75 HMCP 188
751 HMCP 的标签值 189
752 HMCP 的骨干网络 190
753 训练 190
754 检测 191
755 小结 193
76 EAST 193
761 网络结构 193
762 EAST 的标签生成 194
763 EAST 的损失函数 196
764 局部感知 NMS 196
765 Advanced-EAST 197
766 小结 198
77 PixelLink 198
771 骨干网络 199
772 PixelLink 的标签 199
773 PixelLink 的损失函数 200
774 后处理 201
775 小结 201
第 8 章 场景文字识别 202
81 STN 202
811 空间变形模块 203
812 STN 205
813 STN 的应用场景 205
814 小结 207
82 RARE 207
821 基于 TPS 的 STN 208
822 序列识别网络 210
823 训练 212
824 基于字典的测试 212
825 小结 212
83 Bi-STET 212
831 残差网络 213
832 编码层 213
833 解码层 214
834 小结 214
84 CTC 214
841 算法详解 215
842 小结 219
第三篇 其他算法与应用
第 9 章 图像翻译 223
91 GAN 223
911 逻辑基础 224
912 GAN 的训练 224
913 GAN 的损失函数 225
914 理论证明 226
915 小结 230
92 Pix2Pix 230
921 背景知识 231
922 Pix2Pix 解析 232
923 小结 234
93 Pix2PixHD 235
931 网络结构 235
932 输入数据 240
933 损失函数 241
934 图像生成 241
935 小结 242
94 图像风格迁移 242
941 算法概览 243
942 内容表示 244
943 风格表示 245
944 风格迁移 246
945 小结247
第 10 章 图神经网络248
101 GraphSAGE 249
1011 背景知识 249
1012 算法详解 249
1013 小结254
102 GAT 254
1021 GAT 详解 254
1022 GAT 的推理257
1023 GAT 的属性257
1024 小结258
103 HAN 258
1031 基本概念 258
1032 HAN 详解259
1033 小结261
第 11 章 二维结构识别 262
111 Show and Tell 262
1111 网络结构 263
1112 解码264
1113 小结264
112 Show Attend and Tell 264
1121 整体框架 265
1122 小结268
113 数学公式识别268
1131 基础介绍 269
1132 公式识别模型详解272
1133 小结277
第 12 章 人像抠图278
121 Background Matting 278
1211 输入279
1212 生成模型 280
1213 判别模型 280
1214 模型训练 281
1215 模型推理 282
1216 小结282
122 Background Matting v2 283
1221 问题定义 283
1222 网络结构 284
1223 训练286
1224 小结286
第 13 章 图像预训练287
131 MAE 287
1311 算法动机 287
1312 掩码机制 288
1313 模型介绍 289
1314 小结291
132 BEiT v1 291
1321 背景介绍 292
1322 BEiT v1 全览292
1323 BEiT v1 的模型结构293
1324 掩码图像模型 294
1325 BEiT v1 的损失函数294
1326 小结295
133 BEiT v2 295
1331 背景介绍 295
1332 BEiT v2 概述296
1333 矢量量化 – 知识蒸馏296
1334 BEiT v2 预训练297
1335 小结298
第 14 章 多模态预训练 299
141 ViLBERT 299
1411 模型结构 300
1412 预训练任务 301
1413 模型微调 302
1414 小结 303
142 CLIP 304
1421 数据收集 304
1422 学习目标:对比学习(Contrastive
Learning)预训练 304
1423 图像编码器 305
1424 文本编码器 306
1425 CLIP 用于图像识别 306
1426 模型效果 306
1427 小结 307
143 DALL-E 307
1431 背景知识:变分自编码器 308
1432 阶段一:离散变分自编码器309
1433 阶段二:先验分布学习 310
1434 图像生成 312
1435 混合精度训练 312
1436 分布式运算 313
1437 小结 313
144 VLMo 314
1441 算法动机 314
1442 MoME Transformer 314
1443 VLMo 预训练 315
1444 小结 318
145 BEiT v3 318
1451 背景:大融合 319
1452 BEiT v3 详解320
1453 小结 322
附录 A 双线性插值 323
附录 B 匈牙利算法 324
附录 C Shift-and-Stitch 325
附录 D 德劳内三角化 328
附录 E 图像梯度 329
附录 F 仿射变换矩阵 330
评论
还没有评论。