描述
开 本: 128开纸 张: 胶版纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787030502100
编辑推荐
高等院校计算机科学、信号与信息处理、通信工程等相关专业研究生,广大从事图像语义分析、视频内容分析、机器学习等研究或应用开发的科技工作者和高等院校师生
内容简介
《图像语义分析算法与实现——基于多示例学习》以培养读者在多示例学习(MIL)框架下实现图像语义分析为目标,采用理论与实践相融合的方式,详细地介绍了MIL的基础知识、算法原理、编程步骤与试验结果等内容,使读者不仅能够掌握MIL算法的原理,而且能够掌握MATLAB中的编程方法,培养实践动手能力,激发学习兴趣。
目 录
目录
前言
第1章 绪论 1
1.1 图像语义分析研究的背景 1
1.2 图像语义分析研究的意义 3
1.3 图像语义分析存在的问题与研究方向 4
1.4 本书的主要内容与创新点 6
1.5 本书的组织结构 7
参考文献 9
第2章 多示例学习算法研究现状及应用 15
2.1 多示例学习的起源 15
2.2 多示例学习与传统机器学习的区别 17
2.3 多示例学习的主要概念 18
2.4 多示例学习的主要算法 20
2.4.1 轴平行矩形算法 20
2.4.2 多样性密度算法 21
2.4.3 基于kNN的惰性多示例学习方法 22
2.4.4 基于支持向量机的多示例学习方法 23
2.4.5 半监督的MIL算法 28
2.4.6 其他的多示例学习算法 29
2.5 多示例学习的应用领域 30
2.5.1 基于内容的图像检索 30
2.5.2 目标识别 30
2.5.3 医疗图像辅助识别 31
2.5.4 文本分类 31
2.5.5 股票预测 32
2.6 MIL标准测试数据集 32
2.6.1 Musk数据集 32
2.6.2 Corel 2k数据集 33
2.6.3 SIVAL数据集 33
2.7 本章小结 33
参考文献 34
第3章 基于推土机距离的惰性多示例学习算法及应用 39
3.1 引言 39
3.2 多示例包的构造方法 40
3.2.1 JSEG图像分割 40
3.2.2 自适应JSEG图像分割 41
3.2.3 构造多示例包(特征提取) 42
3.3 Citation-kNN算法及其不足 42
3.4 推土机距离 43
3.5 基于自适应推土机距离的MIL算法与图像检索 44
3.5.1 自适应推土机距离 44
3.5.2 AEMD-CkNN算法步骤 45
3.5.3 图像检索试验结果与分析 46
3.6 基于区域权值调整推土机距离的MIL算法与图像分类 48
3.6.1 区域权值调整推土机距离 48
3.6.2 EMD-CkNN算法步骤 50
3.6.3 图像分类试验结果与分析 50
3.7 本章小结 53
参考文献 53
第4章 基于FSVM-MIL算法的对象图像检索 55
4.1 引言 55
4.2 基于模糊支持向量机的多示例学习算法 55
4.2.1 模糊支持向量机 56
4.2.2 模糊隶属度函数 57
4.2.3 FSVM-MIL算法步骤 58
4.3 试验结果与分析 59
4.3.1 试验方法 59
4.3.2 试验结果与效率分析 60
4.4 本章小结 61
参考文献 62
第5章 基于QPSO-MIL算法的图像标注 63
5.1 引言 63
5.2 基于区域的图像标注 64
5.3 图像标注问题的数学描述 65
5.4 图像标注与多示例学习 65
5.5 QPSO-MIL算法及步骤 67
5.5.1 量子粒子群优化算法 67
5.5.2 适应度函数设计 67
5.5.3 QPSO-MIL算法步骤 68
5.6 试验结果与分析 69
5.6.1 试验图像库 69
5.6.2 试验方法 69
5.6.3 试验结果与分析 70
5.6.4 算法效率分析 72
5.7 本章小结 72
参考文献 72
第6章 基于视觉空间投影的多示例学习算法与图像检索 75
6.1 引言 75
6.2 现有工作与不足 77
6.3 RSTSVM-MIL算法 77
6.3.1 视觉投影空间构造 77
6.3.2 视觉投影特征计算 79
6.3.3 RSTSVM-MIL算法步骤 79
6.4 试验结果与分析 82
6.4.1 图像库及试验方法 82
6.4.2 算法性能与K的关系 82
6.4.3 对比试验及分析 83
6.5 本章小结 85
参考文献 86
第7章 基于模糊潜在语义分析的多示例学习算法与图像分类 88
7.1 引言 88
7.2 FLSA-SSMIL算法 89
7.2.1 建立视觉词汇表 89
7.2.2 构造模糊“词-文档”矩阵 90
7.2.3 模糊潜在语义特征 92
7.2.4 FLSA-SSMIL算法步骤 93
7.3 试验结果与分析 94
7.3.1 药物活性预测 94
7.3.2 图像分类试验 95
7.3.3 算法效率 99
7.4 本章小结 99
参考文献 99
第8章 基于多示例学习的目标跟踪算法 102
8.1 引言 102
8.2 基于外观模型的跟踪算法 103
8.2.1 概述 103
8.2.2 分类 104
8.2.3 数据库 109
8.2.4 评价标准 110
8.3 基于多示例学习的跟踪算法原理 110
8.3.1 算法框架 111
8.3.2 在线多示例学习分类器 112
8.3.3 弱分类器构造 113
8.4 基于混合高斯模型和多示例学习的跟踪算法 113
8.4.1 算法概述 114
8.4.2 包中示例特征建模 115
8.4.3 训练弱分类器 116
8.4.4 构造强分类器 117
8.4.5 试验 117
8.5 本章小结 122
参考文献 122
第9章 基于多示例集成学习的色情图像识别 126
9.1 研究现状及趋势 126
9.1.1 色情图像识别研究现状 126
9.1.2 色情图像识别技术发展趋势 127
9.2 基于SSP多示例建模 129
9.2.1 多示例建模 129
9.2.2 基于稀疏编码的“元数据”提取 133
9.3 基于极限学习机的集成多示例学习算法 135
9.3.1 基于极限学习机的基分类器 135
9.3.2 ELMCE-MIL算法及步骤 136
9.4 试验结果与分析 137
9.4.1 实验图像与方法 137
9.4.2 多示例建模方法对比试验 138
9.4.3 试验结果与分析 138
9.5 本章小结 140
参考文献 141
第10章 多示例框架下的刑侦图像检索及实现 144
10.1 引言 144
10.2 基于多示例学习的刑侦图像检索 146
10.2.1 有重叠网格分块方法 146
10.2.2 分块视觉特征提取 146
10.2.3 基于推土机距离的多示例包相似度量 149
10.2.4 算法流程 150
10.3 MATLAB仿真程序 150
10.3.1 基于网格分块构造多示例包 150
10.3.2 相似检索MATLAB程序 157
10.3.3 使用方法 159
10.4 试验结果与分析 159
10.5 本章小结 162
参考文献 162
第11章 基于MIL的红外图像人脸识别及实现 165
11.1 引言 165
11.2 SIFT算法原理及描述子 166
11.2.1 关键点检测 166
11.2.2 关键点描述 170
11.3 基于MIL的红外人脸识别算法 172
11.3.1 MIL建模 173
11.3.2 LSA-MIL算法原理 173
11.4 MATLAB仿真程序 178
11.4.1 构造多示例包 178
11.4.2 计算潜在语义特征 179
11.4.3 训练与识别 183
11.4.4 使用方法 185
11.5 试验结果与分析 186
11.5.1 人脸库与试验方法 186
11.5.2 对比试验及分析 187
11.6 本章小结 188
参考文献 188
第12章 基于MIL的图像分类算法及实现 190
12.1 引言 190
12.2 基于MIL的图像分类算法原理 191
12.2.1 基于图像分割构造多示例包 191
12.2.2 计算多示例包的投影特征 194
12.2.3 投影特征分析 195
12.2.4 有监督学习求解MIL问题 197
12.3 MATLAB仿真程序 198
12.3.1 构造多示例包MATLAB程序 199
12.3.2 投影特征计算MATLAB程序 203
12.3.3 支持向量机训练与预测MATLAB程序 205
12.3.4 使用方法 210
12.4 试验方法与结果 212
12.4.1 试验图像库 212
12.4.2 试验结果 212
12.5 本章小结 215
参考文献 216
第13章 总结与展望 218
13.1 工作总结 218
13.2 进一步研究与展望 219
前言
第1章 绪论 1
1.1 图像语义分析研究的背景 1
1.2 图像语义分析研究的意义 3
1.3 图像语义分析存在的问题与研究方向 4
1.4 本书的主要内容与创新点 6
1.5 本书的组织结构 7
参考文献 9
第2章 多示例学习算法研究现状及应用 15
2.1 多示例学习的起源 15
2.2 多示例学习与传统机器学习的区别 17
2.3 多示例学习的主要概念 18
2.4 多示例学习的主要算法 20
2.4.1 轴平行矩形算法 20
2.4.2 多样性密度算法 21
2.4.3 基于kNN的惰性多示例学习方法 22
2.4.4 基于支持向量机的多示例学习方法 23
2.4.5 半监督的MIL算法 28
2.4.6 其他的多示例学习算法 29
2.5 多示例学习的应用领域 30
2.5.1 基于内容的图像检索 30
2.5.2 目标识别 30
2.5.3 医疗图像辅助识别 31
2.5.4 文本分类 31
2.5.5 股票预测 32
2.6 MIL标准测试数据集 32
2.6.1 Musk数据集 32
2.6.2 Corel 2k数据集 33
2.6.3 SIVAL数据集 33
2.7 本章小结 33
参考文献 34
第3章 基于推土机距离的惰性多示例学习算法及应用 39
3.1 引言 39
3.2 多示例包的构造方法 40
3.2.1 JSEG图像分割 40
3.2.2 自适应JSEG图像分割 41
3.2.3 构造多示例包(特征提取) 42
3.3 Citation-kNN算法及其不足 42
3.4 推土机距离 43
3.5 基于自适应推土机距离的MIL算法与图像检索 44
3.5.1 自适应推土机距离 44
3.5.2 AEMD-CkNN算法步骤 45
3.5.3 图像检索试验结果与分析 46
3.6 基于区域权值调整推土机距离的MIL算法与图像分类 48
3.6.1 区域权值调整推土机距离 48
3.6.2 EMD-CkNN算法步骤 50
3.6.3 图像分类试验结果与分析 50
3.7 本章小结 53
参考文献 53
第4章 基于FSVM-MIL算法的对象图像检索 55
4.1 引言 55
4.2 基于模糊支持向量机的多示例学习算法 55
4.2.1 模糊支持向量机 56
4.2.2 模糊隶属度函数 57
4.2.3 FSVM-MIL算法步骤 58
4.3 试验结果与分析 59
4.3.1 试验方法 59
4.3.2 试验结果与效率分析 60
4.4 本章小结 61
参考文献 62
第5章 基于QPSO-MIL算法的图像标注 63
5.1 引言 63
5.2 基于区域的图像标注 64
5.3 图像标注问题的数学描述 65
5.4 图像标注与多示例学习 65
5.5 QPSO-MIL算法及步骤 67
5.5.1 量子粒子群优化算法 67
5.5.2 适应度函数设计 67
5.5.3 QPSO-MIL算法步骤 68
5.6 试验结果与分析 69
5.6.1 试验图像库 69
5.6.2 试验方法 69
5.6.3 试验结果与分析 70
5.6.4 算法效率分析 72
5.7 本章小结 72
参考文献 72
第6章 基于视觉空间投影的多示例学习算法与图像检索 75
6.1 引言 75
6.2 现有工作与不足 77
6.3 RSTSVM-MIL算法 77
6.3.1 视觉投影空间构造 77
6.3.2 视觉投影特征计算 79
6.3.3 RSTSVM-MIL算法步骤 79
6.4 试验结果与分析 82
6.4.1 图像库及试验方法 82
6.4.2 算法性能与K的关系 82
6.4.3 对比试验及分析 83
6.5 本章小结 85
参考文献 86
第7章 基于模糊潜在语义分析的多示例学习算法与图像分类 88
7.1 引言 88
7.2 FLSA-SSMIL算法 89
7.2.1 建立视觉词汇表 89
7.2.2 构造模糊“词-文档”矩阵 90
7.2.3 模糊潜在语义特征 92
7.2.4 FLSA-SSMIL算法步骤 93
7.3 试验结果与分析 94
7.3.1 药物活性预测 94
7.3.2 图像分类试验 95
7.3.3 算法效率 99
7.4 本章小结 99
参考文献 99
第8章 基于多示例学习的目标跟踪算法 102
8.1 引言 102
8.2 基于外观模型的跟踪算法 103
8.2.1 概述 103
8.2.2 分类 104
8.2.3 数据库 109
8.2.4 评价标准 110
8.3 基于多示例学习的跟踪算法原理 110
8.3.1 算法框架 111
8.3.2 在线多示例学习分类器 112
8.3.3 弱分类器构造 113
8.4 基于混合高斯模型和多示例学习的跟踪算法 113
8.4.1 算法概述 114
8.4.2 包中示例特征建模 115
8.4.3 训练弱分类器 116
8.4.4 构造强分类器 117
8.4.5 试验 117
8.5 本章小结 122
参考文献 122
第9章 基于多示例集成学习的色情图像识别 126
9.1 研究现状及趋势 126
9.1.1 色情图像识别研究现状 126
9.1.2 色情图像识别技术发展趋势 127
9.2 基于SSP多示例建模 129
9.2.1 多示例建模 129
9.2.2 基于稀疏编码的“元数据”提取 133
9.3 基于极限学习机的集成多示例学习算法 135
9.3.1 基于极限学习机的基分类器 135
9.3.2 ELMCE-MIL算法及步骤 136
9.4 试验结果与分析 137
9.4.1 实验图像与方法 137
9.4.2 多示例建模方法对比试验 138
9.4.3 试验结果与分析 138
9.5 本章小结 140
参考文献 141
第10章 多示例框架下的刑侦图像检索及实现 144
10.1 引言 144
10.2 基于多示例学习的刑侦图像检索 146
10.2.1 有重叠网格分块方法 146
10.2.2 分块视觉特征提取 146
10.2.3 基于推土机距离的多示例包相似度量 149
10.2.4 算法流程 150
10.3 MATLAB仿真程序 150
10.3.1 基于网格分块构造多示例包 150
10.3.2 相似检索MATLAB程序 157
10.3.3 使用方法 159
10.4 试验结果与分析 159
10.5 本章小结 162
参考文献 162
第11章 基于MIL的红外图像人脸识别及实现 165
11.1 引言 165
11.2 SIFT算法原理及描述子 166
11.2.1 关键点检测 166
11.2.2 关键点描述 170
11.3 基于MIL的红外人脸识别算法 172
11.3.1 MIL建模 173
11.3.2 LSA-MIL算法原理 173
11.4 MATLAB仿真程序 178
11.4.1 构造多示例包 178
11.4.2 计算潜在语义特征 179
11.4.3 训练与识别 183
11.4.4 使用方法 185
11.5 试验结果与分析 186
11.5.1 人脸库与试验方法 186
11.5.2 对比试验及分析 187
11.6 本章小结 188
参考文献 188
第12章 基于MIL的图像分类算法及实现 190
12.1 引言 190
12.2 基于MIL的图像分类算法原理 191
12.2.1 基于图像分割构造多示例包 191
12.2.2 计算多示例包的投影特征 194
12.2.3 投影特征分析 195
12.2.4 有监督学习求解MIL问题 197
12.3 MATLAB仿真程序 198
12.3.1 构造多示例包MATLAB程序 199
12.3.2 投影特征计算MATLAB程序 203
12.3.3 支持向量机训练与预测MATLAB程序 205
12.3.4 使用方法 210
12.4 试验方法与结果 212
12.4.1 试验图像库 212
12.4.2 试验结果 212
12.5 本章小结 215
参考文献 216
第13章 总结与展望 218
13.1 工作总结 218
13.2 进一步研究与展望 219
前 言
序言
媒体评论
评论
在线试读
第1章 绪论
随着多媒体、计算机、通信、互联网技术的迅速发展,以及近年来数码成像电子产品(如数码照相机、数码摄像机、带摄像头的手机等)的普及,无论在个人计算机还是国际互联网领域,存在的图像数量都在飞速增长。如何对这些海量图像进行管理与分类,从中准确而高效地寻找到用户所需要的图像,已成为信息检索领域中迫切需要解决的问题。各种图像分类与检索技术正是在这种背景下提出的,并成为近二十年的研究热点之一[1]。
本章首先对本书研究的背景与意义进行介绍,并且指出其中存在的主要问题,然后总结主要研究工作与创新性,*后给出本书的结构。
1.1 图像语义分析研究的背景
中外谚语“百闻不如一见”“A picture is worth a thousand words”等都说明视觉是人类认识世界、获取信息的主要途径。现代心理学研究也表明,人类在日常生活中大约有83%的信息是靠视觉来获取的[2]。视觉信息的常用载体是图像,因为它不但形象直观,而且还包含丰富的内容,所以图像是构成多媒体信息的基础元素。随着数字图像数量的爆炸式增长,人们苦恼的问题已经不再是缺少图像信息,而是如何从浩如烟海的图像信息中寻找到自己真正想要的图像。
为了从数量众多的图像集中找到所需要的图像,早期采用基于文本(或关键字)的图像检索(text-based image retrieval, TBIR)[3-5]方式进行检索,在文献[6]中进行了较为全面的综述,其基本思路是:首先对图像进行文本标注,然后通过对输入的文本进行匹配得到检索结果,即把图像检索问题转化为成熟的文本检索问题。该图像检索方法的优点是:算法思路简单直观,并且图像标注的关键词可以简洁、准确地描述图像所包含的高层语义概念,因此,当前互联网上的多数图像搜索引擎,如Google、百度、Yahoo等,普遍采用此种基于文本的方式进行图像检索。但是,基于文本的图像检索方法也存在很大的局限性[7,8]:一是对图像进行文本标注需要人工来完成,这是一个非常费时费力的过程,尤其是面对海量的图像库时,对所有的图像进行人工文本标注因工作量巨大而变得无法实现;二是由于图像本身往往包含着非常丰富的内容,不同人或在不同的情况下对同一幅图像进行标注时,因理解方式的差异,给出的标注文本也会各不相同,也就是说,人工对图像进行文本标注时存在主观歧义性问题,会直接影响图像检索结果的准确性。
于是自20世纪90年代,直接利用图像底层视觉特征的基于内容的图像检索(content-based image retrieval, CBIR)[9]方法被提出,并成为图像检索领域中的主流算法。由于基于内容的图像检索方法不需要人工对图像进行文本标注,而是直接利用图像的底层视觉特征(包括颜色、纹理、形状等)来进行图像相似性匹配,输出特征相似的图像作为检索结果。通常情况下,这些视觉特征可以利用计算机自动地从图像中客观地提取出来,则有效地避免了文本人工标注所产生的主观歧义性,因此基于内容的图像检索方法有望成为解决海量图像信息检索问题的关键技术一直得到相关研究者的普遍关注[10,11]。
自1992年起,基于内容的图像检索方法就开始得到应用,并在之后的十几年中得到了很大的发展[12]。由于图像的视觉特征是实现基于内容的图像检索方法的基础,因此图像的特征提取方式非常重要,基于内容的图像检索系统对图像特征的要求是:它不但要准确地描述图像所包含的各种高层语义概念,当环境发生改变时,还要具有较强的鲁棒性与稳定性。其原因在于:优秀的图像特征不但能够简化分类器的设计,还能够帮助提高分类器的预测精度;而不好的图像特征则会导致图像在特征空间的分布杂乱无序,使分类器无法对图像进行分类预测。当前基于内容的图像检索系统中,提取的图像特征主要用于描述图像的颜色、形状、纹理和空间关系等性质[13,14],并且针对不同的应用场合,采用不同的特征或特征组合。通常,基于内容的图像检索系统中提取特征的方式分为以下三种类型。**,图像的全局特征,这种方式就是对整幅图像提取颜色[15-17]、纹理[18-20]或形状[21,22]等特征,用于图像检索。第二,图像的局部区域特征,因为图像的区域特征能够利用图像局部的语义信息,能在一定程度上简化图像特征,并且具有较好的解释性。常见的方法就是采用图像分割技术,把图像分割成几个不同的区域,分别提取每个区域的颜色和纹理等特征,实现图像检索。例如,Carson等[23]提出的Blobworld系统和美国宾州大学的Wang等[24]提出的SIMPLIcity系统,都采用了典型的基于区域的图像检索方法。就目前的技术条件,图像分割还是一个开放性问题,通常所得的分割结果并不理想,因此,Vogel和Schiele[25]采用网格分块的方法,将图像分成多个子块,并且提取每个子块的色彩和纹理特征,用来构建区域语义模型,*后利用概念共现矢量(concept occurrence vector,COV)来表示图像,作为图像的特征向量用于机器学习。第三,图像的关键点特征,为了进一步提高基于内容的图像检索系统检索的准确性,研究发现局部显著性特征与人对图像的理解更为一致,更能体现图像的语义,因此越来越多的图像检索方法利用图像的显著点特征,如小波显著点[26]、Harris角点[27]、SIFT点[28]等。与此同时,各大研究机构和公司也都相继推出自己的基于内容的图像检索系统,典型的图像检索系统主要有IBM公司的QBIC[29,30]、麻省理工学院的Photobook系统[31,32]、Virage公司的Virage系统[33]、哥伦比亚大学开发的VisualSeek[34,35]和Webseek[36],以及伊利诺伊大学开发的MARS系统[37,38]等。
现实应用中,人在判断两幅图像的相似性时,往往并不完全依赖于“视觉相似”,而是“语义相似”,即是否包含相同的主要目标对象或属于相同的场景类型,但是因为“语义鸿沟”(semantic gap)的存在,即图像的底层视觉特征所代表图像的视觉信息与图像的高层语义之间存在着较大的差异[38,39],所以,基于内容的图像检索技术往往难以获得用户满意的检索或分类结果[40]。因此,如何利用计算机按照用户理解的方式将图像划分到不同的语义类别之中,并实现图像的语义分类或检索,已成为当今一个新的研究热点,并且是一个机遇与挑战同时存在的研究领域[41-45]。
1.2 图像语义分析研究的意义
要按照人类理解或认知的方式对图像进行分类或检索,其关键点在于如何利用计算机来自动获取图像的高层语义概念,则“语义清晰”已经成为构建大规模图像数据管理系统的重要前提[46]。如何利用计算机自动获取图像的语义内容,实现基于语义的图像分类或检索,涉及机器学习、模式识别、数据挖掘、计算机视觉和图像处理等多个研究领域的理论与知识,是一个颇具生命力的研究方向,不但具有重大的理论研究价值,而且在如下方面具有广阔的应用前景[2]。
(1)数字化图书馆的建立与管理。随着数字化成像技术的发展与广泛应用,越来越多的图书馆开始把已有的馆藏资料扫描成图像,对这些图像数据进行存储和检索,这一过程可以利用本书的研究成果。
(2)家庭数字照片的自动管理[47-49]。近些年,随着数码技术的发展,数字相机、摄像头与拍照手机得到迅速普及与应用,在家庭个人计算机上,存储的数字照片在不断增多,本书研究的方法可以用于这些照片的自动分类和管理。
(3)网络图像检索[2]。随着互联网技术的发展与普及,个人或各种组织在网络中发布与共享的数字图像数量呈爆炸式增长,在网络信息海洋中,如何帮助用户检索到其真正想要的图像,是信息检索面临的一个主要问题。目前,常用的图像搜索引擎有百度、Google、Live Search 、Yahoo等,在一定程度上帮助了广大用户对图像进行检索,但是,由于这些图像搜索引擎利用的不是图像的语义信息,而是基于网页中的文本内容,因此,很可能会检索到与用户要求完全无关的垃圾图像。本书的研究成果能一定程度上提高互联网图像检索的精度。
(4)视频分析与检索[50]。在信息化时代,每天都会有大量的“播客”视频与“拍客”视频在网上共享。因为图像是构成视频的基础,所以图像分类与检索方法也可应用于视频分类或检索,实现通过对视频的语义内容分析而检索到自己感兴趣的视频片断或单帧图像。
(5)医学图像分析[51-53]。医学图像分析是图像识别技术的一个重要应用分支,也是医学图像处理系统的一个重要组成部分,其研究内容是如何从大量的CT、X光透视或磁共振图片中把带病变的图片检测出来,并进一步定位病变的具体位置,这涉及的就是图像的分类与目标检测技术。
(6)不良图像过滤[54]。在互联网这个庞大的资源库中,各种信息鱼龙混杂,一些不法分子为了谋利,在互联网上存放着色情或暴力等各种不利于青少年成长的图像,研究开发一种图像过滤系统,用来过滤不良图像,从而净化网络环境,已成为当前图像分析领域的一个重要应用方向。因此,不良图像过滤也是图像分类的一个很有潜力的应用领域。
除此之外,基于语义的图像分类与检索技术还可以应用到遥感图像分类[55]、图像编辑、工业流水线上的图像检测、追捕逃犯与知识产权保护等方面。
1.3 图像语义分析存在的问题与研究方向
对图像进行语义理解,然后根据语义来进行图像分类或检索,已经得到研究者的广泛关注[56-61],但由于直接对图像的语义进行描述、提取以及相似性度量是一个非常复杂的过程,其技术仍相当不成熟,理论上有许多问题需要解决,因此,要完全跨越“语义鸿沟”还任重而道远[62]。为了建立图像与语义类别之间的联系,通常提取图像的全局视觉特征(颜色、纹理和形状等)或中间语义特征(自然性、开放性、粗糙性、辽阔性和险峻性等[63])或局部不变特征[64-67],再结合有监督学习方法实现图像语义分类或检索。在有监督学习框架下进行语义图像分类或检索,存在的主要问题如下。
1. 图像语义表示问题
图像语义表示即研究如何描述图像所包含的各种语义概念,以利于对不同语义的图像进行鉴别。通常情况下,图像的语义分为场景语义与对象语义,场景语义往往由整幅图像或图像的多个区域才能共同表达,而对象语义则对应图像的个别区域,因此图像或区域的底层视觉特征(如颜色、纹理和形状特征等)则被直接用来对图像的语义进行描述。由于图像的视觉内容和语义的不一致性,即视觉内容相似的图像在语义上可能并不一致,例如,“蓝色的大海”和“蓝色的天空”,它们在颜色与纹理等视觉内容上呈现很强的相似性,然而其语义则完全不同。又如,“行人”在不同的图像中,可能由于其性别、年龄、所穿衣服的颜色(红色的、黄色的、白色)、所处环境的光照条件与拍摄角度不同,而呈现出不同的视觉特征,则相同的语义概念在不同的图像中可以呈现出完全不同的视觉特征。因此,在图像理解应用中,图像所包含的语义概念无法用一种相对固定的特征向量进行表示[68]。
因为语义概念通常反映的是用户对图像的一种主观理解,也就是说,图像语义具有模糊性和不精确性,并且它们之间的关系也比较复杂,所以,不能用类似于图像底层视觉特征的描述方法来表示图像的高层语义。就目前的技术水平,想准确地表示图像的语义概念仍有难度。总之,研究如何有效地表示图像所包含的高层语义,并且这种描述方式还能推广到其他未知图像,在图像语义分类与检索系统中非常重要。
2. 训练样本的标注问题用于有监督学习的每个训练样本,都要有一个明确的类别标号,这一般都依靠手工标注的方式来获得[69],如图1-1所示,假设这是两幅用户反馈的“horse”类图像及其分割区域,若用传统的有监督机器学习方法来训练“horse”分类器,用户在手工标注训练样本时,必须标注到图像中的具体“horse”区域(因为图像中还包含grass和fence这样的无关区域),其过程
随着多媒体、计算机、通信、互联网技术的迅速发展,以及近年来数码成像电子产品(如数码照相机、数码摄像机、带摄像头的手机等)的普及,无论在个人计算机还是国际互联网领域,存在的图像数量都在飞速增长。如何对这些海量图像进行管理与分类,从中准确而高效地寻找到用户所需要的图像,已成为信息检索领域中迫切需要解决的问题。各种图像分类与检索技术正是在这种背景下提出的,并成为近二十年的研究热点之一[1]。
本章首先对本书研究的背景与意义进行介绍,并且指出其中存在的主要问题,然后总结主要研究工作与创新性,*后给出本书的结构。
1.1 图像语义分析研究的背景
中外谚语“百闻不如一见”“A picture is worth a thousand words”等都说明视觉是人类认识世界、获取信息的主要途径。现代心理学研究也表明,人类在日常生活中大约有83%的信息是靠视觉来获取的[2]。视觉信息的常用载体是图像,因为它不但形象直观,而且还包含丰富的内容,所以图像是构成多媒体信息的基础元素。随着数字图像数量的爆炸式增长,人们苦恼的问题已经不再是缺少图像信息,而是如何从浩如烟海的图像信息中寻找到自己真正想要的图像。
为了从数量众多的图像集中找到所需要的图像,早期采用基于文本(或关键字)的图像检索(text-based image retrieval, TBIR)[3-5]方式进行检索,在文献[6]中进行了较为全面的综述,其基本思路是:首先对图像进行文本标注,然后通过对输入的文本进行匹配得到检索结果,即把图像检索问题转化为成熟的文本检索问题。该图像检索方法的优点是:算法思路简单直观,并且图像标注的关键词可以简洁、准确地描述图像所包含的高层语义概念,因此,当前互联网上的多数图像搜索引擎,如Google、百度、Yahoo等,普遍采用此种基于文本的方式进行图像检索。但是,基于文本的图像检索方法也存在很大的局限性[7,8]:一是对图像进行文本标注需要人工来完成,这是一个非常费时费力的过程,尤其是面对海量的图像库时,对所有的图像进行人工文本标注因工作量巨大而变得无法实现;二是由于图像本身往往包含着非常丰富的内容,不同人或在不同的情况下对同一幅图像进行标注时,因理解方式的差异,给出的标注文本也会各不相同,也就是说,人工对图像进行文本标注时存在主观歧义性问题,会直接影响图像检索结果的准确性。
于是自20世纪90年代,直接利用图像底层视觉特征的基于内容的图像检索(content-based image retrieval, CBIR)[9]方法被提出,并成为图像检索领域中的主流算法。由于基于内容的图像检索方法不需要人工对图像进行文本标注,而是直接利用图像的底层视觉特征(包括颜色、纹理、形状等)来进行图像相似性匹配,输出特征相似的图像作为检索结果。通常情况下,这些视觉特征可以利用计算机自动地从图像中客观地提取出来,则有效地避免了文本人工标注所产生的主观歧义性,因此基于内容的图像检索方法有望成为解决海量图像信息检索问题的关键技术一直得到相关研究者的普遍关注[10,11]。
自1992年起,基于内容的图像检索方法就开始得到应用,并在之后的十几年中得到了很大的发展[12]。由于图像的视觉特征是实现基于内容的图像检索方法的基础,因此图像的特征提取方式非常重要,基于内容的图像检索系统对图像特征的要求是:它不但要准确地描述图像所包含的各种高层语义概念,当环境发生改变时,还要具有较强的鲁棒性与稳定性。其原因在于:优秀的图像特征不但能够简化分类器的设计,还能够帮助提高分类器的预测精度;而不好的图像特征则会导致图像在特征空间的分布杂乱无序,使分类器无法对图像进行分类预测。当前基于内容的图像检索系统中,提取的图像特征主要用于描述图像的颜色、形状、纹理和空间关系等性质[13,14],并且针对不同的应用场合,采用不同的特征或特征组合。通常,基于内容的图像检索系统中提取特征的方式分为以下三种类型。**,图像的全局特征,这种方式就是对整幅图像提取颜色[15-17]、纹理[18-20]或形状[21,22]等特征,用于图像检索。第二,图像的局部区域特征,因为图像的区域特征能够利用图像局部的语义信息,能在一定程度上简化图像特征,并且具有较好的解释性。常见的方法就是采用图像分割技术,把图像分割成几个不同的区域,分别提取每个区域的颜色和纹理等特征,实现图像检索。例如,Carson等[23]提出的Blobworld系统和美国宾州大学的Wang等[24]提出的SIMPLIcity系统,都采用了典型的基于区域的图像检索方法。就目前的技术条件,图像分割还是一个开放性问题,通常所得的分割结果并不理想,因此,Vogel和Schiele[25]采用网格分块的方法,将图像分成多个子块,并且提取每个子块的色彩和纹理特征,用来构建区域语义模型,*后利用概念共现矢量(concept occurrence vector,COV)来表示图像,作为图像的特征向量用于机器学习。第三,图像的关键点特征,为了进一步提高基于内容的图像检索系统检索的准确性,研究发现局部显著性特征与人对图像的理解更为一致,更能体现图像的语义,因此越来越多的图像检索方法利用图像的显著点特征,如小波显著点[26]、Harris角点[27]、SIFT点[28]等。与此同时,各大研究机构和公司也都相继推出自己的基于内容的图像检索系统,典型的图像检索系统主要有IBM公司的QBIC[29,30]、麻省理工学院的Photobook系统[31,32]、Virage公司的Virage系统[33]、哥伦比亚大学开发的VisualSeek[34,35]和Webseek[36],以及伊利诺伊大学开发的MARS系统[37,38]等。
现实应用中,人在判断两幅图像的相似性时,往往并不完全依赖于“视觉相似”,而是“语义相似”,即是否包含相同的主要目标对象或属于相同的场景类型,但是因为“语义鸿沟”(semantic gap)的存在,即图像的底层视觉特征所代表图像的视觉信息与图像的高层语义之间存在着较大的差异[38,39],所以,基于内容的图像检索技术往往难以获得用户满意的检索或分类结果[40]。因此,如何利用计算机按照用户理解的方式将图像划分到不同的语义类别之中,并实现图像的语义分类或检索,已成为当今一个新的研究热点,并且是一个机遇与挑战同时存在的研究领域[41-45]。
1.2 图像语义分析研究的意义
要按照人类理解或认知的方式对图像进行分类或检索,其关键点在于如何利用计算机来自动获取图像的高层语义概念,则“语义清晰”已经成为构建大规模图像数据管理系统的重要前提[46]。如何利用计算机自动获取图像的语义内容,实现基于语义的图像分类或检索,涉及机器学习、模式识别、数据挖掘、计算机视觉和图像处理等多个研究领域的理论与知识,是一个颇具生命力的研究方向,不但具有重大的理论研究价值,而且在如下方面具有广阔的应用前景[2]。
(1)数字化图书馆的建立与管理。随着数字化成像技术的发展与广泛应用,越来越多的图书馆开始把已有的馆藏资料扫描成图像,对这些图像数据进行存储和检索,这一过程可以利用本书的研究成果。
(2)家庭数字照片的自动管理[47-49]。近些年,随着数码技术的发展,数字相机、摄像头与拍照手机得到迅速普及与应用,在家庭个人计算机上,存储的数字照片在不断增多,本书研究的方法可以用于这些照片的自动分类和管理。
(3)网络图像检索[2]。随着互联网技术的发展与普及,个人或各种组织在网络中发布与共享的数字图像数量呈爆炸式增长,在网络信息海洋中,如何帮助用户检索到其真正想要的图像,是信息检索面临的一个主要问题。目前,常用的图像搜索引擎有百度、Google、Live Search 、Yahoo等,在一定程度上帮助了广大用户对图像进行检索,但是,由于这些图像搜索引擎利用的不是图像的语义信息,而是基于网页中的文本内容,因此,很可能会检索到与用户要求完全无关的垃圾图像。本书的研究成果能一定程度上提高互联网图像检索的精度。
(4)视频分析与检索[50]。在信息化时代,每天都会有大量的“播客”视频与“拍客”视频在网上共享。因为图像是构成视频的基础,所以图像分类与检索方法也可应用于视频分类或检索,实现通过对视频的语义内容分析而检索到自己感兴趣的视频片断或单帧图像。
(5)医学图像分析[51-53]。医学图像分析是图像识别技术的一个重要应用分支,也是医学图像处理系统的一个重要组成部分,其研究内容是如何从大量的CT、X光透视或磁共振图片中把带病变的图片检测出来,并进一步定位病变的具体位置,这涉及的就是图像的分类与目标检测技术。
(6)不良图像过滤[54]。在互联网这个庞大的资源库中,各种信息鱼龙混杂,一些不法分子为了谋利,在互联网上存放着色情或暴力等各种不利于青少年成长的图像,研究开发一种图像过滤系统,用来过滤不良图像,从而净化网络环境,已成为当前图像分析领域的一个重要应用方向。因此,不良图像过滤也是图像分类的一个很有潜力的应用领域。
除此之外,基于语义的图像分类与检索技术还可以应用到遥感图像分类[55]、图像编辑、工业流水线上的图像检测、追捕逃犯与知识产权保护等方面。
1.3 图像语义分析存在的问题与研究方向
对图像进行语义理解,然后根据语义来进行图像分类或检索,已经得到研究者的广泛关注[56-61],但由于直接对图像的语义进行描述、提取以及相似性度量是一个非常复杂的过程,其技术仍相当不成熟,理论上有许多问题需要解决,因此,要完全跨越“语义鸿沟”还任重而道远[62]。为了建立图像与语义类别之间的联系,通常提取图像的全局视觉特征(颜色、纹理和形状等)或中间语义特征(自然性、开放性、粗糙性、辽阔性和险峻性等[63])或局部不变特征[64-67],再结合有监督学习方法实现图像语义分类或检索。在有监督学习框架下进行语义图像分类或检索,存在的主要问题如下。
1. 图像语义表示问题
图像语义表示即研究如何描述图像所包含的各种语义概念,以利于对不同语义的图像进行鉴别。通常情况下,图像的语义分为场景语义与对象语义,场景语义往往由整幅图像或图像的多个区域才能共同表达,而对象语义则对应图像的个别区域,因此图像或区域的底层视觉特征(如颜色、纹理和形状特征等)则被直接用来对图像的语义进行描述。由于图像的视觉内容和语义的不一致性,即视觉内容相似的图像在语义上可能并不一致,例如,“蓝色的大海”和“蓝色的天空”,它们在颜色与纹理等视觉内容上呈现很强的相似性,然而其语义则完全不同。又如,“行人”在不同的图像中,可能由于其性别、年龄、所穿衣服的颜色(红色的、黄色的、白色)、所处环境的光照条件与拍摄角度不同,而呈现出不同的视觉特征,则相同的语义概念在不同的图像中可以呈现出完全不同的视觉特征。因此,在图像理解应用中,图像所包含的语义概念无法用一种相对固定的特征向量进行表示[68]。
因为语义概念通常反映的是用户对图像的一种主观理解,也就是说,图像语义具有模糊性和不精确性,并且它们之间的关系也比较复杂,所以,不能用类似于图像底层视觉特征的描述方法来表示图像的高层语义。就目前的技术水平,想准确地表示图像的语义概念仍有难度。总之,研究如何有效地表示图像所包含的高层语义,并且这种描述方式还能推广到其他未知图像,在图像语义分类与检索系统中非常重要。
2. 训练样本的标注问题用于有监督学习的每个训练样本,都要有一个明确的类别标号,这一般都依靠手工标注的方式来获得[69],如图1-1所示,假设这是两幅用户反馈的“horse”类图像及其分割区域,若用传统的有监督机器学习方法来训练“horse”分类器,用户在手工标注训练样本时,必须标注到图像中的具体“horse”区域(因为图像中还包含grass和fence这样的无关区域),其过程
评论
还没有评论。