描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111748847
中国工程院院士、鹏城实验室主任高文 北京智源人工智能研究院院长黄铁军 等联合推荐,北京大学施柏鑫研究员作品,国内第一本将将深度学习与计算摄像研究充分结合的专著。
本书以图像的物理形成过程和相机获取数字图像的原理为支撑,介绍计算摄像学中的基本问题、模型、理论及其用传统zui优化、信号处理方法的解决方案。结合各问题近些年随着深度学习技术的发展带来的全新进展,介绍深度学习和计算摄像问题的结合与应用。深度学习作为目前视觉计算领域zui热门的技术之一,在高层计算机视觉的目标检测、识别、分类等问题上带来了传统方法无法企及的性能突破。深度学习技术在计算摄像学中也正在发挥广泛而积极的作用。通过适当的方法,将传统计算摄像学在光学特性、物理过程和成像模型等方面的先验、约束与数据驱动方法强大的学习、建模能力进行优势互补,可以为众多计算摄像难题的求解提供全新的思路和手段。
目录
前 言
第 1 章 计算摄像学概述 /1
1.1 计算摄像学研究范畴 /1
1.1.1 研究背景 /1
1.1.2 研究内容 /3
1.2 计算摄像学相关课程 /6
1.3 计算摄像学相关教材 /9
本章参考文献 /10
第 2 章 数字摄像原理 /11
2.1 图像传感器的基本原理 /11
2.2 色彩形成的基本原理 /14
2.3 相机内部图像处理流程 /17
2.3.1 白平衡 /19
2.3.2 去马赛克 /23
2.3.3 去噪 /24
2.3.4 色调再现 /25
2.3.5 传感器原始图像格式 /27
2.4 深度学习建模相机内部流程 /29
2.4.1 应用于图像增强 /29
2.4.2 应用于图像处理流程建模 /32
2.5 本章小结 /35
2.6 本章课程实践 /36
本章参考文献 /38
第 3 章 相机几何模型 /40
3.1 针孔相机模型 /40
3.2 透视投影与相机矩阵 /44
3.2.1 相机内参矩阵 /44
3.2.2 相机外参矩阵 /46
3.2.3 透视投影现象与应用 /47
3.2.4 特殊相机模型 /49
3.3 相机几何标定 /50
3.3.1 三维对应点标定法 /51
3.3.2 多图棋盘格标定法 /54
3.3.3 径向畸变标定法 /56
3.4 利用深度学习的相机几何标定 /57
3.4.1 直接回归相机焦距法 /57
3.4.2 地平线辅助标定法 /57
3.4.3 垂直消失点辅助标定法 /59
3.4.4 径向畸变下的标定问题 /61
3.4.5 利用特殊场景进行标定 /62
3.5 本章小结 /62
3.6 本章课程实践 /63
本章参考文献 /65
第 4 章 镜头与曝光 /67
4.1 理想透镜与真实透镜 /67
4.2 光圈与景深 /70 4.3 视场与镜头选用 /74
4.4 曝光控制 /77
4.5 虚拟大光圈摄像 /79
4.5.1 虚拟大光圈效果渲染方法 /81
4.5.2 利用深度学习的实现方法 /83
4.6 无镜头成像 /87
4.6.1 相机构造 /88
4.6.2 图像重建算法 /93
4.7 本章小结 /95
4.8 本章课程实践 /96
本章参考文献 /97
第 5 章 焦点堆栈与光场摄像 /100
5.1 焦点堆栈 /100
5.1.1 基本概念 /100
5.1.2 拍摄与合并 /101
5.1.3 对焦与离焦的深度测量 /103
5.2 光场 /105
5.2.1 基本概念 /105
5.2.2 表示方法 /106
5.2.3 拍摄方法 /109
5.2.4 可视化与应用 /112
5.3 自动对焦 /117
5.3.1 主动对焦 /117
5.3.2 反差对焦 /118
5.3.3 相位对焦 /118
5.4 利用深度学习表示光场 /119
5.4.1 经典光场表示 /119
5.4.2 基于神经辐射场的方法 /122
5.5 本章小结 /123
5.6 本章课程实践 /124
本章参考文献 /128
第 6 章 光度成像模型 /130
6.1 相机辐射响应及其标定 /130
6.1.1 相机响应函数 /131
6.1.2 相机辐射响应标定 /132
6.2 光度成像模型的三个基本要素 /138
6.2.1 表面法线 /139
6.2.2 反射率模型 /139
6.2.3 光源模型 /141
6.3 从明暗恢复形状 /142
6.4 利用深度学习估计环境光照 /147
6.4.1 参数化模型估计室外光照/147
6.4.2 自编码器估计室外光照 /150
6.4.3 非参数化全局一致室内光照 /151
6.4.4 参数化的局部可变室内光照 /152
6.5 本章小结 /154
6.6 本章课程实践 /154
本章参考文献 /157
第 7 章 光度立体视觉 /160
7.1 经典方法 /161
7.1.1 相关基本概念 /161
7.1.2 基于最小二乘法优化的解法 /163
7.2 泛化方法 /165
7.2.1 应对非理想的反射率 /166
7.2.2 应对非标定情况的解法 /170
7.2.3 基准评测数据集 /173
7.3 光度立体视觉的深度学习解法 /179
7.3.1 光源方向固定的方法 /179 7.3.2 应对任意方向光源的方法/180
7.3.3 应对光源方向未标定的方法 /182
7.3.4 应对光源方向稀疏的方法/183
7.3.5 利用其他约束的方法 /185
7.4 本章小结 /186
7.5 本章课程实践 /187
本章参考文献 /189
第 8 章 高动态范围成像 /193
8.1 动态范围的定义 /193
8.2 多次曝光融合的经典方法 /196
8.3 高动态范围图像的存储 /199
8.4 高动态范围显示与色调映射 /201
8.4.1 色调映射方法 /201
8.4.2 关于色调映射的一些讨论/206
8.5 利用深度学习扩展动态范围 /207
8.5.1 单张图像逆向色调映射 /207
8.5.2 多图交替曝光的方法 /212
8.6 用非传统传感器扩展动态范围 /213
8.6.1 基于余数相机的方法 /214
8.6.2 融合神经形态相机的方法/218
8.7 本章小结 /220
8.8 本章课程实践 /220
本章参考文献 /222
第 9 章 超分辨率 /225
9.1 基于子像素位移的多帧方法 /226
9.1.1 图像退化模型 /226
9.1.2 优化求解高分辨率图像 /228
9.2 通过改进传感器构造的方法 /233
9.2.1 利用相机抖动 /233
9.2.2 利用非周期重复像素布局/235
9.2.3 利用非对称子像素分布 /237
9.3 基于信号处理的单帧方法 /240
9.3.1 基于图像块重复性的方法/241
9.3.2 基于梯度锐化变换的方法/243
9.4 利用深度学习的方法 /245
9.4.1 基于卷积神经网络的方法/245
9.4.2 基于生成对抗网络的方法/247
9.4.3 基于无监督学习的方法 /248
9.5 本章小结 /249
9.6 本章课程实践 /250
本章参考文献 /251
第 10 章 去模糊 /254
10.1 基于传统摄像的方法 /254
10.1.1 应对镜头缺陷带来的模糊 /254
10.1.2 应对相机抖动带来的模糊 /259
10.2 基于计算摄像的方法 /261
10.2.1 应对景深限制带来的模糊 /261
10.2.2 应对场景运动带来的模糊 /267
10.3 基于深度学习的去模糊 /270
10.3.1 卷积核估计 /271
10.3.2 端到端生成 /272
10.3.3 生成对抗模型 /274
10.3.4 图像去模糊数据集 /276
10.4 本章小结 /277
10.5 本章课程实践 /278
本章参考文献 /279
第 11 章 图像恢复高级专题 I /282
11.1 本征图像分解概述 /283
11.1.1 图像形成模型 /284
11.1.2 代表性应用 /285
11.1.3 问题的不适定性 /286
11.1.4 基准数据集 /287
11.2 Retinex 分解 /292
11.3 基于优化求解的本征图像分解 /297
11.4 基于深度学习的本征图像分解 /302
11.4.1 不同学习范式下的方法 /302
11.4.2 在逆渲染方面的应用 /312
11.5 本章小结 /318
11.6 本章课程实践 /319
本章参考文献 /321
第 12 章 图像恢复高级专题 II /326
12.1 反射消除问题概述 /327
12.1.1 混合图像模型 /327
12.1.2 反射消除的应用 /329
12.2 经典优化求解的方法 /331
12.2.1 手动分类边缘的方法 /331
12.2.2 自动分类边缘的反射消除 /334
12.2.3 利用多图分类边缘的方法 /337
12.3 反射消除基准评测数据集 /339
12.3.1 算法总结归类 /340
12.3.2 数据集的构成 /341
12.3.3 基准评测结果 /344
12.4 基于深度学习的反射消除方法 /345
12.4.1 单张图像问题求解 /345
12.4.2 多张图像问题求解 /352
12.5 本章小结 /359
12.6 本章课程实践 /360
本章参考文献 /362
第 13 章 图像恢复高级专题 III /367
13.1 神经形态视觉传感器简介 /367
13.1.1 概念与发展 /367
13.1.2 主流传感器介绍 /370
13.2 神经形态视觉信号表达 /375
13.3 神经形态视觉信号处理 /380
13.3.1 图像重构 /380
13.3.2 神经形态视觉的运动分析 /386
13.4 融合传统相机的计算摄像 /397
13.4.1 融合成像系统简介 /397
13.4.2 传统相机增强神经形态成像 /399
13.4.3 神经形态相机增强传统成像 /404
13.5 本章小结 /409
13.6 本章课程实践 /409
本章参考文献 /410
跋 /417
前言
我读硕士、博士期间主要从事光度立体视觉的研究,按照计算摄像的研究范畴划分,属于计算光照相关的内容。光度立体视觉要解决的主要问题是如何从光照变化的图像序列来推断形状,学生时代的科研训练让我初步领略到了可以利用光的神奇特性扩展成像的维度。博士毕业后,我希望可以对这些神奇的特性进一步深入探索,也许有一天能够窥其全貌,于是继续从事博士后研究。恰好在我寻找博士后机会的那段时间,麻省理工学院媒体实验室(MIT Media Lab)的一个研究组连续发表了一系列利用飞秒相机对光的时间维度(在光速的时间精度下)进行捕捉和重建的论文,其中实现了对光传播过程的可视化、全局和局部光照的分离等。这些在今天看来视觉效果依然很震撼的研究工作深深地吸引了我。后来我很幸运地加入到这间实验室,继续“入坑”计算摄像研究,为实现“将不可见变为可见”(turn invisible into visible,当时我的导师对计算摄像终极目标的解读)的理想继续前行。
由于博士期间的研究更多是关于物理的计算机视觉,我对于成像理论的系统学习还比较有限。麻省理工学院汇集了计算摄像学与计算机视觉领域众多全球顶级的资深专家,在麻省理工学院工作期间,我有幸聆听了媒体实验室和计算机与人工智能实验室(CSAIL)开设的多门特色鲜明又互相补充的课程:Berthold K. P. Horn 教授 [从明暗恢复形状(Shape from Shading)、Horn-Schunck 光流算法的提出者] 在 6.801 Machine Vision 课堂上全程板书对于透视投影深入浅出的分析,Ramesh Raskar 教授 [我的博士后导师,媒体实验室“相机文化”(Camera Culture)实验室的负责人] 在 MAS.131Computational Camera 课堂上将计算摄像原理与当时硅谷大厂的黑科技环环相扣的讲述,都给我留下了非常深刻的印象。2014 年春季学期,我有幸参与到媒体实验室MAS.532 Mathematical Methods in Imaging 这门课的教学中。考虑到媒体实验室交叉学科的特性,如何针对不同背景的学生讲清楚成像当中的数学模型,对于教学经验几乎为零的我来说挑战很大。为了准备好我负责的两个小时的课程,我花了一些时间来调研美国顶级大学计算摄像课程中的相关内容。在这一过程中,我惊喜地发现这一领域的顶尖学者们开设了众多“宝藏”课程,例如斯坦福大学的 Marc Levoy 教授、哥伦比亚大学的 Shree Nayar 教授和多伦多大学的 Kyros Kutulakos 教授等。
2017 年底回到北京大学任教之后,我开始构思开设自己独立承担的专业课程。北大从事视觉计算相关研究的老师数量和覆盖方向的全面程度,在国内高校应该算是数一数二的。然而我注意到计算摄像这一美国高校十多年前就开始有课程开设的新兴学科,在北京大学尚未有对应的课程。所以我立即向学院和学校提出了申请,并在 2018 年春季学期顺利开课。2018 年寒假在准备这门课的讲义的过程中,我回忆起在麻省理工学院听课的收获,翻出了当时收集的“宝藏”课程资源,同时调研了一些国外年轻老师在顶尖高校开设的类似课程。我发现在成像模型理论方面,大家在参考这些“宝藏”的基础上已经有了比较共识性、系统性的课程体系,于是我自己的课程在成像模型理论方面只需要努力向他们“看齐”、沿用经典即可保证足够丰富且有深度的内容。自从深度学习开始在众多高层视觉问题的性能上取得突破以来,我一直在关注并思考它是否可以或者应该以什么样的方式来解决计算摄像的问题。当时在指导学生做科研的过程中,我发现从深度学习出现以后的时代开始接触计算摄像研究的同学,对于成像模型的熟悉程度远远低于深度学习。这就使得他们面对需要解决的问题,可能首先不会想到从图像形成的原理、过程和结果出发,而是会思考如何套用一个神经网络结构去适配手头的问题。从实践的角度,深度学习带给计算摄像问题求解的便利以及在部分问题上的性能突破是毋庸置疑的,而从理论的角度,成像模型作为对计算摄像研究“知其然知其所以然”的本源也需要在紧跟研究潮流的同时得到足够的关注。为此,我给自己的课程起了“计算摄像学:成像模型理论与深度学习实践”这样一个名字,一来这两部分在我看来对于深入理解和动手解决成像问题同等重要,二来这可以使我的课程在与国内外现有课程拥有一定区分度的基础上讲述清楚理论和实践对于成像的相互作用。
2022 年的春季学期是我第四年在北京大学开设同名课程。在每年备课的过程中,我一直在思考同一个问题:这一节课介绍的计算摄像问题是否适合利用深度学习来求解,与传统方法相比深度学习的优势和劣势在哪里?根据当年最新的研究进展,我会和实验室的同学一起调研,并及时在课上补充相应的最新论文,与同学们分享我对于这个问题的一些新的思考。同时每年的课程我也会相应地更新实践题目,让大家动手拍拍数据,将传统的成像理论与当下的深度学习模型放到一起试试看,它们解决实际问题的有效性和鲁棒性如何?经过这几年的授课,我不敢说对计算摄像相关的成像模型理论与深度学习实践有了多么深入的见解,但也算是积累了一些不成熟的观点,并萌生了以文字的方式整理记录一下自己思路和心得的想法,希望分享给相关领域的科研人员与同学们。遂决定本学期的备课以书稿撰写的方式同步推进,希望能在学期结束的时候也完成第一版的书稿。
北京大学计算机学院“相机智能”实验室(http://camera.pku.edu.cn)博士后和研究生对本书相关图文资料的整理做出了直接的贡献,他们是(按照章节贡献顺序排序):费凡、于博涵、周鑫渝、杨思祺、崔轩宁、汤佳骏、吕游伟、翁书晨、杨溢鑫、洪雨辰、段沛奇、滕明桂、梁锦秀、常亚坤、马逸和周矗。由于本人及团队水平有限,疏漏之处在所难免,敬请各位专家、读者批评指正。
施柏鑫
于燕园
评论
还没有评论。