描述
开 本: 16开纸 张: 胶版纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787302417682
以故事、名人事迹、标志性事件等各种众所周知、引人入胜的案例为切入点,以风趣、简洁、直白、通俗的手法,深入浅出、图文并茂地描述了各种生物特征识别技术以及生物特征识别产品的发展现状 。
技术上讲,本书是科普性质的读物,适合于所有读者,只要是对生物特征识别技术感兴趣的读者都是本书的潜在读者。
特别推荐从事生物特征识别,有较大应用空间行业(譬如社保、金融、教育、卫生、公安、互联网等领域)的从业人员阅读本书,这对于保障信息安全、财产安全都有很大帮助。
目 录
第1章 无处不在的身份认证… 1
1.1 身份认证的由来… 1
1.1.1 身份认证的起源… 1
1.1.2 身份认证的演化… 1
1.2 身份认证的应用领域… 3
1.2.1 古代身份认证的应用领域… 4
1.2.2 现代身份认证的应用领域… 4
第2章 身份认证的前世今生… 7
2.1 传统的身份认证方式… 7
2.1.1 静态密码… 7
2.1.2 动态密码… 8
2.1.3 短信密码… 9
2.1.4 IC卡(智能卡)… 10
2.1.5 USBKey. 11
2.1.6 双因素密码… 12
2.2 日趋盛行的生物特征识别… 12
2.2.1 生物特征识别技术的特点… 13
2.2.2 生物特征识别技术的比较… 13
2.2.3 生物特征识别技术的安全性… 17
2.2.4 生物特征识别的市场规模… 17
2.2.5 生物特征识别的发展前景… 19
第3章 打开生物特征识别的魔方… 21
3.1 细说人脸识别的个中奥妙… 21
3.1.1 人脸识别的认知学基础… 21
3.1.2 人脸识别的优势和劣势… 24
3.1.3 人脸识别的发展历史… 26
3.1.4 人脸识别算法流程… 29
3.1.5 人脸识别的新方向——人工神经网络与深度学习… 43
3.1.6 人脸识别的准确率… 57
3.1.7 线上的人脸识别… 60
3.2 道出指静脉识别的神奇魔力… 61
3.2.1 指静脉识别技术的由来… 62
3.2.2 指静脉识别技术是如何完成身份识别的… 63
3.2.2.3 质量判断… 65
3.2.3 技术特点… 76
3.2.4 指纹的终结者真的到来了吗?… 78
3.2.5 欣欣向荣的指静脉市场… 80
3.3 揭开指纹识别的神秘面纱… 83
3.3.1 一个30年前的凶杀案终于告破… 83
3.3.2 指纹识别简史… 84
3.3.3 探究伴随一生的指纹… 87
3.3.4 指纹识别如何完成身份认证… 90
3.3.5 你是谁和你是不是谁… 97
3.3.6 让指纹识别飞起来——加速指纹查找的检索分类技术… 98
3.3.7 指纹识别有多准确… 100
3.4 破解虹膜识别的暗藏玄机… 102
3.4.1 姗姗成长的虹膜识别… 104
3.4.2 虹膜识别如何完成身份认证… 104
3.4.3 虹膜识别有何与众不同… 119
3.4.4 虹膜识别的国内外用武之地… 121
第4章 生物特征识别的魅力展现… 125
4.1 人脸识别为社保基金安全支付保驾护航… 125
4.1.1 社保金领取现状… 126
4.1.2 社保基金发放存在问题的关键性分析… 126
4.1.3 人脸识别技术的应用… 127
4.1.4 应用效果和案例分析… 130
4.2 人脸识别让“代考”无处遁形… 131
4.2.1 考试管理中存在的问题… 131
4.2.2 现有身份认证方式的不足… 132
4.2.3 人脸识别在考试管理中的应用… 132
4.2.4 考生身份认证系统业务流程… 132
4.2.5 应用效果和案例分析… 134
4.3 手指静脉识别——保护金融安全的防火墙… 135
4.3.1 安全是金融的生命线… 135
4.3.2 生物特征识别技术在金融领域的应用现状及趋势… 137
4.3.3 指静脉识别在金融设备上大放异彩… 138
4.4 虹膜识别站好门禁考勤的每一班岗… 139
4.4.1 虹膜识别在监狱门禁中的应用… 140
4.4.2 虹膜识别在银行门禁中的应用… 140
4.4.3 虹膜识别在矿山企业考勤系统中的应用… 142
4.5 生物特征识别技术与移动互联网的完美结合… 142
4.5.1 移动互联网对生物特征识别的需求… 142
4.5.2 移动互联网生物特征识别应用浅析… 144
第5章 以史为鉴,可以知兴替… 148
5.1 人脸识别遇到的尴尬与惊喜… 148
5.1.1 失职的视频监控与人脸识别… 148
5.1.2 人脸识别在视频监控中的困难… 149
5.1.3 视频监控中人脸识别的前景… 149
5.2 指纹识别的挑战和机遇… 150
5.2.1 指纹不会说谎… 150
5.2.2 谁动了我的指纹… 153
5.2.3 从摇篮到坟墓的公民终身身份管理… 154
5.2.4 敢问路在何方… 156
5.3 虹膜识别为何没有遍地开花… 158
5.3.1 虹膜识别发展受到的限制… 158
5.3.2 破茧的虹膜识别… 160
5.3.3 物联网下的虹膜识别应用… 161
第6章 历史的车轮滚滚向前… 164
6.1 狼来了:移动互联网开启新的纪元… 164
6.1.1 移动互联网浪潮来袭… 164
6.1.2 移动互联网迫切呼唤身份认证领域的技术创新… 166
6.2 来势汹涌的身份认证革命… 168
6.3 那些正向我们走来的生物特征识别技术… 169
后记… 173
参考文献… 175
咱们这一代人是幸运的,赶上了全球科技发展的高速时代,见证了中国通信事业的飞
速发展、中国电子商务的悄然崛起,移动互联网的汹涌来袭和各种高尖科技给人们的工作
与生活带来的日新月异的变化。在这样一个瞬息万变的时代,各种新技术、新产品更新迭
代层出不穷,人们享受各种快捷便利的同时,身份信息变得唾手可得,仿冒造假变得轻而
易举,此时,如何快捷有效地证明“您就是您”呢?
生物特征识别,利用人类独一无二的生物特征来解决这一问题是当前公认的行之有效
的解决办法。在大数据的浪潮下,基于深度学习技术,以语音识别、人脸识别为主的生物
特征识别技术取得了突飞猛进的发展成绩,掀起了新一轮的身份认证革命。
在中国,生物特征识别技术早是由政府机构支持,在刑事侦察、社会保险等方面开
始应用。2015 年1 月4 日,总理视察了国内首家没有柜台和营业网点的互联网银
行——前海微众银行,现场通过演示人脸识别和大数据信用评级完成笔放贷业务,卡
车司机徐军拿到笔贷款3.5 万元。自此,生物特征识别技术走进了更宽广的公众视野。
对于这种与人们工作生活息息相关的技术,越来越多的人想去了解,愿意了解,以便更好
地加以利用。特别是在移动互联网的冲击下,各个通信终端已开始尝试植入生物特征识别
模块。那么生物特征识别技术是如何实现与各个系统的完美嫁接与应用呢?又是如何在人
们工作与生活的各个方面得到合理化应用的?这些都是耐人寻味的问题。本书期望能以一
个个鲜活的案例为读者提供启发。
另一方面,2013 年4 月23 日,在工业和信息化部、国家标准化管理委员会指导下,
全国信息技术标准化技术委员会在北京召开生物特征识别分技术委员会成立大会,负责我
国生物特征识别领域的标准制定工作。成立两年以来,该分委会已完成二十余项生物特征
识别系列国家标准与行业标准的制定,取得了丰硕的成果。但相对于发达国家,中国的生
物特征识别标准制定工作开始得较晚,生物特征识别技术在很多领域还没有得到规范的广
泛应用,得到国家及政府的关注还相对较少。对于生物特征识别技术——人工智能的一个
重要分支,本书期望能在一定程度上引起我国相关领域政产学研各界力量的关注,更好地
生物特征识别——身份认证的革命
IV
推动我国生物特征识别国家标准、行业标准及其相关技术的发展,满足社会各界对我国生
物特征识别标准的迫切需求。同时希望国家与政府能将包含生物特征识别技术的人工智能
提高到国家战略层面,给予关注与支持,为人工智能时代的到来打好坚实的基础。
主要内容及特色
本书的主要特点是生动又不失严谨,全面又不失专业。当前已经出版的生物特征识别
系列图书多为高校教科书、研究学术著作,以阐述生物特征识别技术的原理、技术特点、
研究方法为主,是专属于业内人士的行业图书。而本书以故事、名人事迹、标志性事件等
各种众所周知、引人入胜的案例为切入点,以风趣、简洁、直白、通俗的手法,深入浅出、
图文并茂地描述了各种生物特征识别技术以及生物特征识别产品的发展现状。
除了撰写风格,本书更大的不同还在于内容。已出版的生物特征识别系列图书更多地
注重于技术讲解,而本书则侧重于市场应用,倾注了大量的笔墨总结不同生物特征识别技
术在不同情景下的适用性,以及在当前移动互联网环境下,身份认证革命的发展方向。
读者对象
技术上讲,本书是科普性质的读物,适合于所有读者,只要是对生物特征识别技术感
兴趣的读者都是我们的潜在读者。
特别地,我们比较推荐从事生物特征识别,有较大应用空间行业(譬如社保、金融、
教育、卫生、公安、互联网等领域)的从业人员阅读本书,这对于保障信息安全、财产安
全都有很大帮助。
致谢
本书的出版,首先要感谢的是生物特征识别这个行业,正因为它的神秘与深奥,才有
了今天涌现出的一批批为生物特征识别而不断卓越进取的学者专家;正是因为它的崛起与
繁荣,才有了今天尝试应用生物特征识别技术的一个又一个领域。也正因为如此,我们才
有了想将生物特征识别这种充满魅力充满神奇的技术科普于众的美好意愿,才有了大家今
天所看到的《生物特征识别——身份认证的革命》这本书。
其次,感谢清华大学出版社的各位领导与同事,感谢诸位反复地校稿,让本书得以完
美地呈现在读者面前,感谢大家的辛勤付出。
再次感谢指导该书编撰、并为该书提出宝贵意见的“中国人脸识别之父”清华大学苏
光大教授,感谢您的指导。
此外,特别感谢本书的联名作者,全国信息技术标准化技术委员会生物特征识别分技
术委员会副秘书长冯敬女士、中国银联电子支付研究院项目总监郭伟先生、北京智慧眼科
技股份有限公司生物识别研发专家周淑娟女士。感谢几位从技术、行业等不同角度与立场
撰写了本书的重要组成部分。
除了封面署名外,指导、参与本书编写工作的还有浙江大学的胡浩基老师、刘而云老
师,北京智慧眼科技股份有限公司的王栋、徐伟、邹智、陈艳丽、李光日、杨东、肖童舟、
陈霜、许青等。
后感谢正在阅读本书的您,无论您是不是生物特征识别领域的从业者,正因为您的
阅读和关心,生物特征识别技术在中国的向前发展又将多一份新的动力。
邱建华
2015 年6 月18 日于北京中关村
第3章 打开生物特征识别的魔方
说起生物特征识别,人们都会觉得神秘、高科技。其实,往简单了说,生物特征识别的过程,就是先将生物特征建模、然后进行比对的一个过程;往复杂了说,这是一门涉及到计算机视觉、信息/图像处理、统计学、计算机科学、机器学习等相关学科的深奥技术。下面,作者将抽丝剥茧,为您打开生物特征识别的魔方。
3.1 细说人脸识别的个中奥妙
人脸识别是生物特征识别领域中有趣、活跃的分支,以下内容将介绍人脸识别的认知学基础,回顾其历史沿革和变迁,阐述关键性的算法,指明其应用前景和发展方向。相信这一段充满趣味的旅程能让您感受到生物特征识别领域的无穷奥妙。
3.1.1 人脸识别的认知学基础
识别人脸是人类社会中平常和普通的任务,如婴儿在出生不久就能认出父母的脸,成年人之间的结识,演员的分辨等,这些鲜活的例子都是人类感知人脸的典型例证。
对人物面部特征的刻画是人类艺术中永恒的主题之一。从古埃及的狮身人面像,到文艺复兴时期达芬奇的伟大作品——蒙娜丽莎,再到现代艺术中对人脸情绪化和抽象化的描述,无一不说明人类对人脸天生的敏感和审美的价值取向(参见图3.1)。
为了研究基于计算机的人脸识别,需要考察一下识别人脸的原理。人脸识别的认知学基础研究始于上世纪60年代,到目前为止已诞生了一系列有趣的成果。研究人员首先注意到人类对于人脸图案有着超出一般的强烈关注和兴趣。图3.2是1973年美国宇航局火星探测器扫描到的照片,大多数人首先关注的是上面的人脸图案,尽管这张“人脸”只是火山丘陵和陨石坑的随机组合而已。
研究表明,人类对于人脸图案的强烈关注可能并非来自于后天学习,而是人类的视觉系统带有天生的人脸识别基因。在婴儿出生的几个小时内,研究人员就观察到他们对类似于人脸的模板有着超出一般的兴趣[1]。如图3.3所示,新生婴儿对于图3.3(a)的上半部分的兴趣远远超过下半部分的兴趣。另外的研究成果[2]表明,人类的视觉系统对上重下轻的图案(图3.3(b)上半部分)关注度远大于对上轻下重的图案(图3.3(b)下半部分),一种可能的解释是视觉系统对人脸图案的强烈兴趣也影响了人类对普通图像的认知和识别。
图3.1 人脸在艺术作品中的表现
图3.2 火星上拍摄的卫星图片
(a) (b)
图3.3 上重下轻与上轻下重的模板[1,2]
人脸图案认知的上下不对称性的著名例子是倒像实验。图3.4中,在人脸倒像的情况下,很少有人能够看出图像中人的眼睛和嘴是颠倒的,但在正像时,颠倒的眼睛和嘴却带给我们强烈的视觉冲击。这一现象在1980年首先被英国约克大学教授Peter Thompson发现[3]。关于倒像实验的认知学机理,具体到这个现象有多少成分是先天的,有多少成分是后天习得的,学术界一直没有统一结论,但人脸对于倒像的敏感性不如正像这一结论,却为大家公认。
图3.4 人脸倒像实验
在人脸识别的认知学研究这一方兴未艾的领域,出现了一些类似于倒像实验的有趣现象,也已经有一些达成共识的结论,但依然存在很多悬而未决的问题。在这里,我们列举几个较重要的问题:
(1)人脸识别的脑科学基础究竟是什么?
(2)人脑对于人脸识别的能力是如何产生、发展和进化的?
(3)人脑是如何综合人脸的外形、轮廓、颜色、姿态等具体因素终达成识别结果?在这个综合过程中,这些具体因素的重要程度如何,如何相互关联?
(4)能否借鉴人脸认知学原理,设计计算机算法,达成在计算机上的人脸自动识别的目的?
由于本节重点探讨的是基于计算机的人脸自动识别,问题(4)显得尤其有意义,然而从目前的情况来看,由认知学原理到计算机算法的转换仍然显得较为初级。我们认为,人脑是进化了百万年的系统,而计算机的发展只有一百年不到的历史,从这点来说,人脑的认知应该有很多值得计算机学习的方面,优秀的计算机识别系统也应该从人脸认知中获得创造性启发。
3.1.2 人脸识别的优势和劣势
与其他的生物特征识别技术相比,人脸识别的优势在于识别方式的自然性和不被觉察性。自然性是指该识别方式同人类(甚至其他生物)进行个体识别时所利用的生物特征相同。例如人脸识别,人类也是通过观察比较人脸,从而区分和确认身份的。另外具有自然性的生物特征还有声纹、签名等,而指纹、等不具有自然性。自然性使得在设计识别算法的时候能够利用人类认知学的研究成果,也使得人类对人脸识别领域充满兴趣。更重要的是,自然性使人脸的计算机识别作为人类身份识别的工具性扩展,渗透进人类社会生活的方方面面。这也是为什么人脸识别在近年来由互联网带来的大数据浪潮下发挥越来越重要作用的本质原因。
不被察觉的特点对于一种识别方法也很重要。人脸识别利用摄像设备获取人脸图像信息,而不同于指纹识别或者虹膜识别,需要利用电子采集指纹,或者利用红外线采集虹膜图像,这些特殊的采集方式需要用户的配合,容易引起用户的反感。
相对其他生物特征识别方式,人脸识别本身也存在许多困难。在诸多的生物特征识别中,人脸识别被认为是困难的研究课题之一。其困难表现在如下方面。
(1)不同人脸的区分性低。不同个体之间的人脸区别不大,所有人脸的结构都相似,甚至人脸器官的结构外形都很相似,这对于利用人脸区分人类个体是不利的。
(2)同一人脸的外形不稳定。人可以通过脸部的变化产生很多表情,而在不同观察角度,人脸的视觉图像也相差很大。另外,人脸识别还受(例如白天和夜晚,室内和室外等)、遮盖物(例如口罩、墨镜、头发、胡须等)、年龄等多方面因素的影响。
从学术角度说,在人脸识别中,不同人脸的差异是应该放大从而区分不同个体的,而同一人脸的差异应该消除。通常称类差异为类间差异(intra-class difference),而称第二类差异为类内差异(inter-class difference)。对于人脸,类内差异往往大于类间差异,从而使受类内差异干扰的情况下,利用类间差异区分个体变得异常困难。因此,人脸识别在识别精度方面,远远低于指纹、虹膜、静脉等,与声音、签名大致相当。
尽管存在如此多的困难因素,人脸识别却始终是生物特征识别研究领域的热点。图3.5统计了2009年至2013年来生物特征识别方向的SCI论文数,人脸识别的论文数量遥遥领先于其他生物特征识别。人类对人脸的关注以及人脸识别中难以解决的困难问题,是吸引众多研究者不断探索这一领域的关键性因素。
图3.5 2009~2013年各种生物特征SCI发表论文数量统计
自2010年起,人脸识别在全球生物特征识别市场所占的份额,是除指纹识别以外的,这些从图3.6中各种生物特征所占市场份额可见一斑。
人脸识别能够有如此热度的原因,并不在于识别的精度,而是识别的易接受程度。人类对于人脸的亲切感和与生俱来的关注,使得人们愿意以牺牲识别精度为代价选用人脸识别产品,从这个意义上来说,人脸识别是生物特征识别中亲善的大使。
图3.6 2010年全球各种生物特征的市场份额
3.1.3 人脸识别的发展历史
在介绍人脸识别具体算法前,对这个领域的发展历程做一个总体回顾是非常有必要的,它使我们能够看清这一领域的历史沿革,理解现状,并把握未来的发展方向。
人脸识别的方法随着时代变革不断地更新向前,后人的方法总是以前人的研究为基础,但这并不一定意味着,后人比前人更聪明。每个时代的方法受到当时的计算设备速度和数据获取手段的直接限制。当计算速度达不到一定标准,或者无法获取足够多数据时,哪怕人们能够想到某种性能优异的算法,也欠缺实现的物理基础。从另一个角度看,当计算速度和数据采集能力有了质的飞跃时,人们总会尝试更复杂和准确的算法。因此,如果把人脸识别的发展历史看做是以计算速度和数据获取能力提高为前提的递进过程,可谓抓住了问题的本质。
我们将人脸发展的历史归纳为三个阶段:基于结构特征(1973年~1990年)、基于统计特征(1991年~2000年)和基于大数据和复杂模型(2001年至今)。这只是一个大致的划分,阶段之间的界限并不明显,但基本上对应着计算机技术的发展历程,从另一个侧面印证了人脸识别的进程与计算机技术整体水平的进步息息相关。
1.基于结构特征的阶段(1973年~1990年)
这一阶段的标志性事件是在1973年,Takeo Kanade发表了自己的博士论文,次描述了一个完整的人脸识别系统[4]。该系统主要的思想是检测人脸二值图像中的点和线,识别鼻子、眼睛和嘴等人脸器官对应的点和线的组合,构建基于人脸器官几何形状和相对位置的分类器。这是一个简单且准确度不高的算法,Kanade进行了20个人的识别实验,在不同条件下测试,识别率为45%~75%。受当时的计算设备运算速度和存储空间所限,只能采取二值图存储和基于图像中点与线等结构特征的简单算法,因而限制了识别精度的提升。
这一阶段从事人脸识别研究的人员有Bledsoe、Goldstein、Harmon以及Takeo Kanade等,他们中的一些人所在的研究组至今仍然是人脸识别领域的重要力量。
2.基于统计特征的阶段(1991年~2000年)
从上世纪80年代开始,计算机的计算能力有了突飞猛进的进步,摩尔定律,每18个月计算机的性能提升一倍,另一方面,由于计算机硬盘和内存容量的迅速提升,使得人脸图像能够以灰度或彩色模式被计算机算法处理,同时用于训练计算机能力的人脸图像也达到千量级。
计算机技术的提升,带来了人脸识别领域空前的发展。这一阶段虽然短暂,但却硕果累累,产生了若干有代表性的人脸识别算法。这一阶段的标志性事件是1991年美国麻省理工学院(MIT)媒体实验室的M.Turk和A.Pentland提出的基于主成分分析(Principle Component Analysis, PCA)的“特征脸”方法[5]。其核心思想是利用数据集训练满足重构均方误差小的正交子空间,降低人脸图像维度,获取有利识别的人脸特征。“特征脸”方法是个以较大规模人脸数据的统计和训练为基础的特征提取方法,预示着人脸识别统计时代的到来。
这一时期的另外一个重要工作是麻省理工学院人工智能实验室的Brunelli和Poggio于1992年前后做的一个对比试验[6],他们对比了基于结构特征的方法与基于模板匹配的方法的识别性能,并得出结论,即模板匹配的方法优于结构特征的方法。这一导向性的结论基本终止了纯粹的、基于结构特征的人脸识别方法研究,并在很大程度上促进了基于线性子空间建模和基于统计的模式识别技术的发展,使其逐渐成为主流的人脸识别技术。
1993年,Lades等人针对“特征脸”算法过于全局性、缺乏对人脸具体细节的关注这一缺点,提出了弹性图匹配技术(Elastic Graph Matching,EGM)[7]。其基本思想是用一个属性图来描述人脸,属性图的顶点代表面部关键特征点,其属性为相应特征点处的多分辨率、多方向局部特征——Gabor变换特征,称为Jet;边的属性则为不同特征点之间的几何关系。对任意输入的人脸图像,弹性图匹配通过一种优化搜索策略来定位预先定义的若干面部关键特征点,同时提取它们的Jet特征,得到输入图像的属性图。后通过计算其与已知人脸属性图的相似度来完成识别过程。该方法的优点是既保留了面部的全局结构特征,也对人脸的关键局部特征进行了建模。
在人脸配准方面,受到弹性图匹配算法的影响,柔性模型(Flexible Models),包括主动形状模型(ASM)和主动表观模型(AAM)是这一时期内在人脸建模方面的一个重要贡献[8,9]。ASM/AAM深入挖掘人脸特征点的纹理和位置关联性,将人脸描述为二维形状和纹理两个分离部分,分别用统计的方法进行建模,然后再进一步通过主成分分析将二者融合起来,对人脸进行统计、建模。柔性模型具有良好的人脸合成能力,可以采用基于合成的图像分析技术来对人脸图像进行特征提取与建模。柔性模型被应用至今,成为人脸配准(Face Alignment)领域应用广的主流技术。
在这一时期,美国军方还组织了著名的FERET人脸识别算法测试,使得算法评测有了客观的标准和依据。同时,在商业领域出现了几个商业化的人脸识别系统,著名的有Identix公司的FaceIt。
总体而言,这一阶段的人脸识别技术发展非常迅速,所提出的算法在较理想的图像采集条件、中小规模正面人脸数据库上表现出了非常好的性能,也出现了若干知名的人脸识别商业公司。
3.基于大数据和复杂模型的阶段(2001年至今)
在本世纪初,人脸识别迎来了大数据时代和复杂模型时代。一方面是计算机的运算能力继续提高,研究人员能够尝试计算量更大的复杂模型;另一方面,数字化摄像技术深入改变了人脸图像的获取手段,极大降低了人脸图像的获取成本,使得基于大数据的识别算法成为可能。人们开始研究运用大规模的人脸识别数据库构造复杂的识别算法,来克服外部环境、光照、姿态、表情变化对人脸识别准确性的影响。伴随数据的增多和计算能力的提升,新的算法达到了越来越高的准确率。
这一阶段的标志性事件是2001年Viola和Jones提出的基于自适应提升(Adaptive Boost,AdaBoost)和类哈尔特征(Haar-like features)的人脸检测算法[10]。该方法运用类哈尔特征,构建了数目达到20万以上的高冗余特征集,并利用几万张带标注的人脸和非人脸图片,通过AdaBoost算法对这些冗余特征进行选择和合并,从大规模数据中自动学习分类信息。这是个将特征用到20万量级,同时训练数据用到了几万量级的算法,相比当时的传统算法,数据量增长了十倍以上。
基于大数据和复杂模型的算法结出了丰硕的果实。Viola和Jones提出的算法将人脸检测准确度提升了一个数量级,基本解决了人脸检测问题,已经被广泛应用于人脸识别系统的前端检测和各种数字设备中。
计算设备的不断深化发展,促使人们从三维角度重新审视人脸识别问题。人脸本来是三维世界的物体,被摄像设备采集,投影到二维平面上,这是一个信息丢失的过程。由此产生了识别效果受光照、姿态、拍摄角度等多方面因素影响的问题。从这个意义来说,将人脸还原到三维形象进行处理,可以克服二维处理带来的困难,具有潜在的优势。但是,三维信息的处理所涉及的计算量和算法复杂度远远超过二维,只有当计算设备发展到一定程度后才能实现。2003年,Blanz和Vetter等人提出了基于3D变形模型(3D Morphable Model)的抗多姿态、多光照条件的人脸识别方法[11],为三维人脸识别做出了开创性的贡献。其基本思想是在3D形状和纹理统计变形模型的基础上,将二维的人脸图像反投影到三维,同时还采用图形学模拟的方法,对图像采集过程的透视投影和光照模型参数进行建模,从而达到使人脸形状和纹理等内部属性与摄像机配置、光照情况、姿态变化等外部参数完全分离的目的,这样更加有利于人脸图像的分析与识别。另外,这一时期一些直接利用人脸三维图像或深度图像的算法也陆续被提出。
2006年,深度学习的提出是领域内另一个标志性的事件[12]。从2012年开始,研究人员开始利用图形处理器(Graphics Processing Unit,GPU)等并行化计算设备和互联网上海量的人脸数据,利用几十万甚至上百万量级的训练数据,训练具有千万甚至上亿量级待定参数的复杂深度神经网络模型。这一发展趋势,宣示着人脸识别基于大数据和复杂模型时代的全面来临。目前已经有多家研究团队宣布自己开发的人脸识别系统达到或超过了人的识别精度。
如何评价深度学习这一热潮是见仁见智的事情。我们认为,只有随着时间流逝,当潮水渐退之时,才能对其历史地位有一个客观地评价。但是,对人脸识别有兴趣的朋友们,能赶上这波热潮,身处于潮流之中,任由潮水将你们带到前人无法企及的高度,这是一件多么幸运的事情啊!
下面,让我们随潮而动,细说人脸识别算法的个中奥妙。
3.1.4 人脸识别算法流程
在浩如烟海的算法世界中,关于人脸算法的选择,原则上基于两点。是实用性,即选择具有实时性而且准确度高的算法。本节介绍的算法中,很多已经有效融合、现有的人脸识别商用系统中。第二是经典性,即考察算法对整个领域的影响力。一些算法,例如基于主成分分析(PCA)的“特征脸”算法,虽然已经不适用于现实的系统,但它对整个领域的历史贡献却是难以磨灭的。直到现在,基于图像正交分解的识别算法依然层出不穷;另一方面,很多算法也将PCA作为中间步骤。但即使应用这两条原则,仍然无法把领域 内所有经典算法囊括其中。关于人脸识别在算法层面上更详细的介绍,读者可参阅参考文献[13]。
图3.7是目前通用的人脸计算机识别流程。首先是图像采集部分,人脸经过数据采集设备,生成数字化的人脸图像。光学摄像头是目前普及的采集设备,但是,在夜间环境下,光学摄像头采集图像的质量会大大下降,而且光学摄像头无法获得人脸的立体感。因此,近年来图像采集也较多地利用红外摄像头和立体视觉摄像头,对光学摄像头采集的信息加以补充。
图3.7 人脸识别流程图
下一个步骤是人脸检测(Face Detection),即从获得的人脸图像中检测出人脸。这是一个数据对齐的过程,这一步利用的是所有人脸之间的相似性来消除人脸在图像中的位置不确定性。
在人脸检测之后是人脸配准(Face Alignment)环节。由于人脸具有表情、姿态的各种变化,因此两幅人脸图像中的像素之间存在复杂的对应关系。配准这一环节是利用人脸的特征点,如眼睛、鼻子、嘴巴等的纹理和位置关系,达到人脸图像的精准对齐。重要的人脸配准算法包括主动表观模型(AAM)等[8]。虽然配准能够有效消除表情、姿态的不确定因素,但配准过程中的插值过程同时也会破坏人脸图像的纹理信息,导致损失一些识别能力。因此,一些基于直方图和线性变换的识别算法(如LBP、GABOR变换等)往往不进行配准这一步骤。
在确定人脸在图像中位置的前提下,提取出表征人脸信息的步骤称为特征提取(Feature Extraction)。一张检测出的人脸图像所包含的数据量仍然巨大到难以精确处理的地步。另外,由于人脸表情和姿态等变化因素,也难以保证同一个人的脸具有精准的匹配性。特征提取尽量去除人脸图像中与识别无关的成分,保留与识别有关的成分。
识别的后步骤,是识别认证(Face Recognition)阶段。在识别认证阶段,人脸识别系统需要现场采集用户的人脸图像,并对该图像进行同样的特征提取,将获得特征与数据库中的每一张人脸图像的特征逐一比对,按照某种距离量度,计算出人脸特征的相似度分数。根据相似度分数找出相似的人脸,作为识别的结果。
下面我们分别介绍人脸检测、配准、特征提取和识别认证过程中的经典算法。
3.1.4.1 人脸检测
如前所述,在人脸检测这一领域,基于自适应提升和类哈尔特征的人脸检测算法[10]已经成为经典。自适应提升算法采用的是输入图像的矩形特征,也叫类哈尔特征。在参考文献[10]中,类哈尔特征有三种基本的类型,即两矩形特征,三矩形特征和四矩形特征。图3.8中分别列举了这三种类型基本的模板。
图3.8 类哈尔特征的四种类型[10]
这些模板的特征值定义为:黑色矩形像素之和减去白色矩形像素之和。
(3-1)
公式(3-1)中, 表示矩形内像素点的位置, 和 分别代表黑色和白色部分像素点的灰度值,因此 表示矩形模板中黑色矩形像素之和减去白色矩形像素之和。不同的 表示不同的类哈尔特征。类哈尔特征会遍历图像上所有的像素点作为左上角特征起始点,同时遍历所有合法的右下角点作为特征终止点。另外,也需要遍历图3.8所示的四种模板。所以一幅图像的类哈尔特征数量是巨大的。可以算出,对于一幅24×24的图像,上述四种特征总共约16万个。
尽管特征数量巨大,但却有简便的计算方法。采用积分图的方法使数量巨大的特征计算成为可能。图3.9(a)是积分图的示意,一个像素点的积分图数值是所有位于这个像素点左面和上面的像素点灰度值之和。一幅图像的积分图,可以通过对图像像素点的一次遍历叠加获得。获得了图像的积分图后,计算某个矩形内所有像素点灰度值之和的步骤就变得非常简单了。例如在图3.9(b)中,数字1对应的值表示的是该像素点的积分图数值,记为 ;数字2表示2所在的像素点的积分图数值,记为 ;数字3、4、5、6对应的值以此类推。那么,矩形A中所有像素点的灰度值之和就可以用 表示,矩形B中所有像素点灰度值之和可以用 表示。由此可以看出,在初始的时候,只要先计算出图像的积分图,那么图3.8中的四种模板都可以用这些数值的加法和减法迅速获得。由于只是加减操作,在目前的计算设备下,获取超过16万个特征所消耗的时间并不多。
(a)积分图 (b)利用积分图计算矩形内像素和
图3.9 积分图计算过程示意图[10]
AdaBoost算法的目的是从上述特征中选取能区分人脸和非人脸的特征,并按照区分人脸与非人脸的准确性进行加权,然后得到一个人脸与非人脸的分类器,完成人脸检测。很容易想到的是,对于分类准确性越高的特征,它的权重肯定越高,这就好比更具威信的人拥有更多的话语权。本书不介绍具体的算法,只给出结果,有兴趣的读者可参阅文献[10]了解该算法的细节。
图3.10中列出了AdaBoost分类器获得的前五个人脸检测的类哈尔特征。训练数据库由3 000张对齐的人脸图像和2万张非人脸图像构成,所有的训练图像的大小都被归一化到24×24。从图中可见,获得的五个特征对于人脸识别确实具有重要作用。例如个特征,由于人的眼睛部分偏黑,灰度值较低,而脸颊部分偏白,灰度值较高,因此,用眼睛部分的像素灰度值之和减去脸颊部分的灰度值之和,会得到一个比较小的数值,这个数值可以作为区分人脸和非人脸的标志性特征。
图3.10 前五个适合做人脸检测的类哈尔特征
在对输入的图像进行检测时,AdaBoost算法中采用了扩大检测窗口的方法。在初检测时,检测窗口和样本大小一致(在上面例子中大小为24×24),然后按照一定的尺寸参数(每次移动的像素个数,方向是先向左然后向下)进行移动,遍历整个图像,标出可能的人脸区域。遍历一遍之后按照给定的放大倍数参数放大检测窗口,然后再进行一次图片遍历。这样不停地放大检测窗口对输入图像进行检测,直到检测窗口大小超过原图像的一半以后停止遍历。在检测窗口完成遍历图像后,要将检测到的重叠的人脸区域进行合并等操作,终输出检测到的人脸区域。
3.1.4.2 人脸配准中采用的主动表观模型(AAM)
主动表观模型(Active Appearance Model)是目前普遍采用的人脸配准算法。我们先来看一个人脸识别中的难题——人脸的姿态和表情变化。图3.11和图3.12分别给出了PIE数据库和Cohn-Kanade数据库中人脸姿态和表情变化的例子。
图3.11 人脸的姿态变化(图片来自PIE数据库)
图3.12 人脸的表情变化(图片来自Cohn-Kanade数据库)
由于姿态和表情变化会较大规模地破坏人脸图像的数据结构,使得人脸的对齐变得困难。为了平衡表情和姿态的影响,基于脸部特征点(眼睛、眉毛、鼻子、嘴巴、脸部外轮廓等)的人脸图像的配准成为解决人脸姿态和表情变化问题的一个有效途径。
主动表观模型(AAM)于1998年由三位英国学者Edwards、Cootes和Taylor提出,经过研究人员的不断改进,已经成为人脸图像特征点配准方面的经典算法[8,9]。下面我们大致看一下AAM是如何处理人脸的表情和姿态变化的。图3.13(a)显示了人脸图像以及基于主动表观模型得到的特征点。获得这些特征点的位置后,可以与图3.13(b)中标准模板的特征点位置进行对齐。将各个特征点与标准模板对齐后,人脸的其他点采用插值的方法获得。图3.13(c)是对齐后的图像,可以看出对齐后的图像基本消除了表情的影响。
(a)检测特征点的图像 (b)标准模板的特征点 (c)基于特征点对齐的图像
图3.13 主动表观模型示例[8]
进一步的例子如图3.14所示。图3.14(a)和(b)是不同姿态和光照条件下同一个人的脸,它们在视觉上的差别是很大的;而图3.14(c)和(d)是上面两张图片经过AAM对齐消除表情和姿态影响后的图像。可见(c)和(d)的相似性远远大于(a)和(b)的相似性。
与所有机器学习算法一样,AAM算法分为训练和测试两个部分。AAM模型训练部分的步是搜集训练样本,手动标记脸部特征点,根据训练集中特征点的坐标,构造特征向量,对形状进行归一化,降低光照的影响。在准备好标注了特征点的训练图片后,运用PCA算法提取特征点的形状。图3.15列出了AAM的平均形状向量s0和前三个形状特征向量s1、s2和s3。
(a)人脸1 (b)人脸2
(c)人脸1对齐后的图像 (d)人脸2对齐后的图像
图3.14 基于主动表观模型的对齐
图3.15 AAM的形状参数[9]
AAM训练的第二步是运用PCA对人脸的纹理建模。在AAM中,人脸纹理建模是一张与平均形状s0对齐的图像 ,其中x是s0中的像素点( )。图3.16画出了AAM的平均纹理向量 和前三个纹理特征向量 。
图3.16 AAM的纹理参数[9]
通过一些标注的人脸图像求出形状向量 和纹理向量 后,可以通过一组给定的形状参数 和纹理参数 来合成人脸。这一合成过程可以通过图3.17来说明。首先通过形状参数合成了特征点的位置 ,然后通过纹理参数合成了投影在平均形状 上的人脸纹理 。由于 脸是投影在 上的人脸,而需要的是一张投影在 上的人脸,所以要用一个函数 来完成这一转换。 记录的是每一个 上的像素点与 上的像素点的一一对应关系。这个一一对应关系又需要用到插值的方法,首先 与 上所有的特征点是一一对应的,而对于其他的点,应该寻找该点附近的特征点,通过与这些特征点的位置关系以插值方法获得相应的对应关系。
图3.17 通过形状和纹理参数合成人脸的过程[9]
AAM的测试问题可以归纳为如下描述:给定 ,需要找出一组形状参数 和一组纹理参数 ,使得合成的人脸 与 尽可能地相似。从本质上来说,这是一个优化问题,可以写作:
(3-2)
其中 表示的是从 到 的像素点对应位置关系。这个优化问题的解法有多种,由于数学上比较复杂,在这里不详细叙述。
3.1.4.3 人脸的特征提取
也许很多人会有疑惑,为什么要进行特征提取?我们来举一个简单的例子,一幅人脸图像,假设它的大小是128×128像素,那么一张人脸的特征便是128×128=16384维的向量。在这16384维的向量中,存在很多冗余,会干扰终的识别准确度。因此,对人脸图像进行特征提取是很有必要的。特征提取的目的是去除人脸图像中与识别无关的因素,保留与识别相关的因素,这样不仅能降低数据量的存储和计算,而且能够提高识别率。人脸的特征提取算法层出不穷,这里我们挑选比较重要的进行介绍,分别是主成分分析(PCA)、
评论
还没有评论。