描述
开 本: 32开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302473671
本书可为高等院校计算机科学、电子科学与技术、信息科学、控制科学与工程、人工智能等领域的研究人员提供参考,以及作为相关专业本科生及研究生教学参考书,同时可供深度学习及其应用感兴趣的研究人员和工程技术人员参考。
目录
第1章深度学习基础
1.1数学基础
1.1.1矩阵论
1.1.2概率论
1.1.3优化分析
1.1.4框架分析
1.2稀疏表示
1.2.1稀疏表示初步
1.2.2稀疏模型
1.2.3稀疏认知学习、计算与识别的范式
1.3机器学习与神经网络
1.3.1机器学习
1.3.2神经网络
参考文献
第2章深度前馈神经网络
2.1神经元的生物机理
2.1.1生物机理
2.1.2单隐层前馈神经网络
2.2多隐层前馈神经网络
2.3反向传播算法
2.4深度前馈神经网络的学习范式
参考文献
第3章深度卷积神经网络
3.1卷积神经网络的生物机理及数学刻画
3.1.1生物机理
3.1.2卷积流的数学刻画
3.2深度卷积神经网络
3.2.1典型网络模型与框架
3.2.2学习算法及训练策略
3.2.3模型的优缺点分析
3.3深度反卷积神经网络
3.3.1卷积稀疏编码
3.3.2深度反卷积神经网络
3.3.3网络模型的性能分析与应用举例
3.4全卷积神经网络
3.4.1网络模型的数学刻画
3.4.2网络模型的性能分析及应用举例
参考文献
第4章深度堆栈自编码网络
4.1自编码网络
4.1.1逐层学习策略
4.1.2自编码网络
4.1.3自编码网络的常见范式
4.2深度堆栈网络
4.3深度置信网络/深度玻尔兹曼机网络
4.3.1玻尔兹曼机/受限玻尔兹曼机
4.3.2深度玻尔兹曼机/深度置信网络
参考文献
第5章稀疏深度神经网络
5.1稀疏性的生物机理
5.1.1生物视觉机理
5.1.2稀疏性响应与数学物理描述
5.2稀疏深度网络模型及基本性质
5.2.1数据的稀疏性
5.2.2稀疏正则
5.2.3稀疏连接
5.2.4稀疏分类器设计
5.2.5深度学习中关于稀疏的技巧与策略
5.3网络模型的性能分析
5.3.1稀疏性对深度学习的影响
5.3.2对比试验及结果分析
参考文献
第6章深度融合网络
6.1深度SVM网络
6.1.1从神经网络到SVM
6.1.2网络模型的结构
6.1.3训练技巧
6.2深度PCA网络
6.3深度ADMM网络
6.4深度极限学习机
6.4.1极限学习机
6.4.2深度极限学习机
6.5深度多尺度几何网络
6.5.1深度脊波网络
6.5.2深度轮廓波网络
6.6深度森林
6.6.1多分辨特性融合
6.6.2级联特征深度处理
参考文献
第7章深度生成网络
7.1生成式对抗网络的基本原理
7.1.1网络模型的动机
7.1.2网络模型的数学物理描述
7.2深度卷积对抗生成网络
7.2.1网络模型的基本结构
7.2.2网络模型的性能分析
7.2.3网络模型的典型应用
7.3深度生成网络模型的新范式
7.3.1生成式对抗网络的新范式
7.3.2网络框架的性能分析与改进
7.4应用驱动下的两种新生成式对抗网络
7.4.1堆栈生成式对抗网络
7.4.2对偶学习范式下的生成式对抗网络
7.5变分自编码器
参考文献
第8章深度复卷积神经网络与深度二值神经网络
8.1深度复卷积神经网络
8.1.1网络模型构造的动机
8.1.2网络模型的数学物理描述
8.2深度二值神经网络
8.2.1网络基本结构
8.2.2网络的数学物理描述
8.2.3讨论
参考文献
第9章深度循环和递归神经网络
9.1深度循环神经网络
9.1.1循环神经网络的生物机理
9.1.2简单的循环神经网络
9.1.3深度循环神经网络的数学物理描述
9.2深度递归神经网络
9.2.1简单的递归神经网络
9.2.2深度递归神经网络的优势
9.3长短时记忆神经网络
9.3.1改进动机分析
9.3.2长短时记忆神经网络的数学分析
9.4典型应用
9.4.1深度循环神经网络的应用举例
9.4.2深度递归神经网络的应用举例
参考文献
第10章深度强化学习
10.1深度强化学习简介
10.1.1深度强化学习的基本思路
10.1.2发展历程
10.1.3应用新方向
10.2深度Q网络
10.2.1网络基本模型与框架
10.2.2深度Q网络的数学分析
10.3应用举例——AlphaGo
10.3.1AlphaGo原理分析
10.3.2深度强化学习性能分析
参考文献
第11章深度学习软件仿真平台及开发环境
11.1Caffe平台
11.1.1Caffe平台开发环境
11.1.2AlexNet神经网络学习
11.1.3AlexNet神经网络应用于图像分类
11.2TensorFlow平台
11.2.1TensorFlow平台开发环境
11.2.2深度卷积生成式对抗网DCGAN
11.2.3DAN应用于样本扩充
11.3MXNet平台
11.3.1MXNet平台开发环境
11.3.2VGGNET深度神经网络学习
11.3.3图像分类应用任务
11.4Torch 7平台
11.4.1Torch 7平台开发环境
11.4.2二值神经网络
11.4.3二值神经网络应用于图像分类
11.5Theano平台
11.5.1Theano平台开发环境
11.5.2递归神经网络
11.5.3LSTM应用于情感分类任务
参考文献
第12章基于深度神经网络的SAR/PolSAR影像地物分类
12.1数据集及研究目的
12.1.1数据集特性分析
12.1.2基本数据集
12.1.3研究目的
12.2基于深度神经网络的SAR影像地物分类
12.2.1基于自适应自编码和超像素的SAR图像分类
12.2.2基于卷积中层特征学习的SAR图像分类
12.3基于代深度神经网络的PolSAR影像地物分类
12.3.1基于稀疏极化DBN的极化SAR地物分类
12.3.2基于深度PCA网络的极化SAR影像地物分类
12.4基于第二代深度神经网络的PolSAR影像地物分类
12.4.1基于深度复卷积网络的PolSAR影像地物分类
12.4.2基于生成式对抗网的PolSAR影像地物分类
12.4.3基于深度残差网络的PolSAR影像地物分类
参考文献
第13章基于深度神经网络的SAR影像的变化检测
13.1数据集特点及研究目的
13.1.1研究目的
13.1.2数据基本特性
13.1.3典型数据集
13.2基于深度学习和SIFT特征的SAR图像变化检测
13.2.1基本方法与实现策略
13.2.2对比试验结果分析
13.3基于SAE的SAR图像变化检测
13.3.1基本方法与实现策略
13.3.2实验结果和分析
13.4基于CNN的SAR图像变化检测
13.4.1基本方法与实现策略
13.4.2对比试验结果分析
参考文献
第14章基于深度神经网络的高光谱图像分类与压缩
14.1数据集及研究目的
14.1.1高光谱遥感技术
14.1.2高光谱遥感的研究目的
14.1.3常用的高光谱数据集
14.2基于深度神经网络的高光谱影像的分类
14.2.1基于堆栈自编码的高光谱影像的分类
14.2.2基于卷积神经网络的高光谱影像的分类
14.3基于深度神经网络的高光谱影像的压缩
14.3.1基于深度自编码网络的高光谱图像压缩方法
14.3.2实验设计及分类结果
参考文献
第15章基于深度神经网络的目标检测与识别
15.1数据特性及研究目的
15.1.1研究目的
15.1.2常用数据集
15.2基于快速CNN的目标检测与识别
15.2.1RCNN
15.2.2Fast RCNN
15.2.3Faster RCNN
15.2.4对比实验结果与分析
15.3基于回归学习的目标检测与识别
15.3.1YOLO
15.3.2SSD
15.3.3对比实验结果与分析
15.4基于学习搜索的目标检测与识别
15.4.1基于深度学习的主动目标定位
15.4.2AttentionNet
15.4.3对比实验结果与分析
参考文献
第16章总结与展望
16.1深度学习发展历史图
16.1.1从机器学习、稀疏表示学习到深度学习
16.1.2深度学习、计算与认知的范式演进
16.1.3深度学习形成脉络
16.2深度学习的应用介绍
16.2.1目标检测与识别
16.2.2超分辨
16.2.3自然语言处理
16.3深度神经网络的可塑性
16.3.1旋转不变性
16.3.2平移不变性
16.3.3多尺度、多分辨和多通路特性
16.3.4稀疏性
16.4基于脑启发式的深度学习前沿方向
16.4.1生物神经领域关于认知、识别、注意等的研究进展
16.4.2深度神经网络的进一步研究方向
16.4.3深度学习的可拓展性
参考文献
附录A基于深度学习的常见任务处理介绍
附录B代码介绍
序从1308年加泰罗尼亚诗人、神学家雷蒙·卢尔(Ramon Llull)发表了有关用机械方法从一系列现象中创造新知识的论文开始,到1943年美国心理学家W.S. McCulloch和数学家W.Pitts提出MP模型及1950年A.Turing提出著名的图灵测试,再到1956年达特茅斯会议上人工智能的诞生,神经网络几经沉浮,走过了艰难曲折的历程; 2006年从单隐层神经网络到深度神经网络模型,迎来了神经网络发展的又一高潮,深度学习及其应用受到了前所未有的重视与关注,世界迎来又一轮人工智能变革的高潮,从谷歌脑到中国脑科学计划,再到互联网 和中国人工智能2.0,人工智能及深度学习也首次写进了2017年全国人民代表大会第十五次会议国务院政府工作报告。深度学习是人工智能及机器学习的一个重要方向,在未来,它将会不断出现激动人心的理论进展和方法实践,深刻影响我们生活的方方面面。随着研究的不断深入,深度学习已经超越了目前机器学习模型的神经科学观点,学习多层次组合的这一设计原则更加吸引人。从代的深度前馈神经网络开始,随之而来的就有如下三个问题: 一是可用训练数据量远小于模型中的参数量,容易出现过(欠)拟合现象; 二是随着层级的增加,模型的优化目标函数呈现高度非凸性,由于待优化参数所在的可行域中存在着大量的鞍点和局部极小值点,所以参数初始化策略影响着网络模型的稳定性和收敛性; 三是基于误差的反向传播算法越靠近输出层变化越大,越靠近输入层变化越小,这对通过梯度下降方式来实现逐层参数更新会导致梯度弥散现象。为了解决个问题便提出了深度卷积神经网络和深度循环神经网络,其核心均是通过约减参数量间接提升数据量的方式降低过拟合现象的发生; 针对第二个问题和第三个问题便引入了基于自编码器的逐层初始化策略,以期获取的初始化参数能够避免过早地陷入局部,同时弱化或克服梯度弥散现象,例如基于受限波尔兹曼机的深度置信网络。进一步,基于传统的机器学习算法来实现参数初始化方向上涌现了如深度PCA网络、深度ICA网络、深度SVM网络、深度森林(随机森林多层级联)、深度极限学习机和深度ADMM网络等模型。同时与之类似的,通过更改非线性函数以换取模型“扭曲”能力的提升,产生了如深度小波网络、深度脊波网络和深度轮廓波网络等模型。根据其特性,我们称这些网络为深度融合网络。2014年以来,大量的研究文献表明层级“深度”的不断增加,或导致性能显著提升(如深度残差网络、深度分形网络),抑或导致性能严重下降(本质上是参数量远大于训练数据量)。为了解决该问题,一方面通过多通路、并行化的网络设计来削弱“深度”对性能的依赖性,同时塔式结构、对称性等也被融入网络的设计过程中; 另一方面,深度生成模型也悄然兴起,其核心是通过生成训练数据集的概率密度函数来实现数据的扩充,其代表便是生成式对抗网络和变分自编码器。值得注意的是,与传统的深度学习设计“单网络”不同,生成式对抗网络采用了“两个子网络”来实现非合作状态下的博弈,在小值定理的保证下,理论上可以保证网络的收敛性。除了模型结构和优化策略改进外,应用问题背景也不再是经典的输入输出“单数据对”刻画,而是从状态到行动“整体性”刻画。众所周知,感知、认知和决策是衡量智能化的标准,充分发挥深度学习的感知能力和强化学习的决策能力,形成的深度强化学习已在众多应用问题上取得突破,如无人驾驶、计算机围棋程序和智能机器人等。在后深度学习时代,其核心在于生成数据、环境交互和领域迁移,对应着深度生成网络、深度强化学习和深度迁移学习将继续成为人工智能领域的研究热点。另外,根据数据的属性和操作的有效性,衍生的网络包括深度复数域神经网络(如深度复卷积神经网络)、深度二值神经网络和深度脉冲神经网络等。我们依托智能感知与图像理解*重点实验室、智能感知与计算国际联合实验室及智能感知与计算国际联合研究中心于2014年成立了类脑计算与深度学习研究中心,致力于类脑计算与深度学习的基础与应用研究,搭建了多个深度学习应用平台,并在深度学习理论、应用及实现等方面取得了突破性的进展,本书即是我们在该领域研究工作的初步总结。本书的完成离不开团队多位老师和研究生的支持与帮助,感谢团队中侯彪、刘静、公茂果、王爽、张向荣、吴建设、缑水平、尚荣华、刘波、刘若辰等教授以及马晶晶、马文萍、白静、朱虎明、田小林、张小华、曹向海等副教授对本工作的关心支持与辛勤付出。感谢王蓉芳博士、冯捷博士、张丹老师,以及唐旭、刘芳、谢雯、任博、魏野、王善峰、冯志玺等博士生在学术交流过程中无私的付出与生活上的关心。同时,特别感谢赵佳琦、刘旭、赵暐、朱浩、孙其功、任仲乐、李娟飞、张雅科、宋玮、张文华等博士生,以及马丽媛、杨争艳、张婷、李晰、孟繁荣、汶茂宁、侯瑶琪、孙莹莹、张佳琪、杨慧、王美玲等研究生在写作过程中无私付出的辛勤劳动与努力。感谢宋玮、张文华等博士生帮忙校勘时发现了许多笔误。本书是我们团队在该领域工作的一个小结,也汇聚了西安电子科技大学智能感知与图像理解*重点实验室、智能感知与计算国际联合实验室及智能感知与计算国际联合研究中心的集体智慧。在本书出版之际,特别感谢邱关源先生及保铮院士三十多年来的悉心培养与教导,特别感谢徐宗本院士、张钹院士、李衍达院士、郭爱克院士、郑南宁院士、谭铁牛院士、马远良院士、包为民院士、郝跃院士、陈国良院士、韩崇昭教授,IEEE Fellows管晓宏教授、张青富教授、张军教授、姚新教授、刘德荣教授、金耀初教授、周志华教授、李学龙教授、吴枫教授、田捷教授、屈嵘教授、李军教授和张艳宁教授,以及马西奎教授、潘泉教授、高新波教授、石光明教授、李小平教授、陈莉教授、王磊教授等多年来的关怀、帮助与指导,感谢*创新团队和国家“111”创新引智基地的支持; 同时,我们的工作也得到西安电子科技大学领导及国家“973”计划(2013CB329402)、国家自然科学基金(61573267,61472306,61671305,61573267,61473215,61571342,61572383,61501353,61502369,61271302,61272282,61202176)、重大专项计划(91438201,91438103)等科研任务的支持,特此感谢。同时特别感谢清华大学出版社的大力支持和帮助,感谢王芳老师和薛阳老师付出的辛勤劳动与努力。感谢书中所有被引用文献的作者。20世纪90年代初我们出版了《神经网络系统理论》《神经网络计算》《神经网络的应用与实现》等系列专著,三十年来神经网络取得了长足的进展,本书的取材和安排完全是作者的偏好,由于水平有限,书中不妥之处恳请广大读者批评指正。
著者2017年3月西安电子科技大学
5.1稀疏性的生物机理深度学习与稀疏认知学习、计算与识别之间的关系深刻而且本质,从机器学习中的特征工程(人工特征提取与特征筛选)到深度学习中的特征学习(通过线性与非线性操作的不断复合获取数据的高层统计或语义特性),无论是以显性还是隐性的嵌入方式,稀疏性都在模型中扮演着重要的角色。下面简要从生物视觉机理和数学物理角度来描述稀疏性。备注: 稀疏认知学习、计算与识别的范畴包括表示理论(即基于稀疏表示的压缩感知和稀疏编码),数学计算(匹配追踪算法)和模式识别(稀疏表示分类器SRC及稀疏分类器设计SparseMax)等。5.1.1生物视觉机理视觉感知机理的研究表明,视觉系统可以看成一种合理而且高效的图像处理系统,从视网膜到大脑皮层存在一系列具有不同生物学功能的神经细胞,例如随着层级信息不断的“加深”,不同视觉皮层上的神经细胞对特定形状的视觉图案有的响应和偏好的刺激,简言之,层级越高感受野越大,即信息处理从局部到更大的区域,类似尺度特性。层级较低时,感受野所处理的区域越小,稀疏性越强(特指层级间的连接特性),层级较高时,感受野所处理的区域越大,稀疏性越弱。另外,Barlow推论出在稀疏性和自然环境的统计特性之间必然存在某种联系,随后诸多基于生物视觉和计算的模型被提出来,都成功地例证了生物视觉针对自然环境所反馈出的物理统计特性蕴含着稀疏性。当层级较低时,其简单细胞对应着严格的方向和带通特性,而复杂细胞在保持简单细胞特性的基础上进一步具有局部变换(如平移)不变性,简言之,简单细胞处理信息具有稀疏(即局部连接)特性,而复杂细胞具有聚类(连接计算共享)特性。神经科学研究成果表明,稀疏编码是视觉系统中图像表示的主要方式,初级视觉皮层(V1区)中的神经元对视觉信息的反应具有稀疏性,V4区的神经元通过稀疏编码的方式实现视觉信息的表示。从表5.1中可知,随着对计算机视觉研究的深入,人类对自身视觉感知系统的理解也在不断加深。借鉴生物视觉机理的研究成果,模拟建立相应的视觉计算模型,将成为一个极具挑战性和吸引力的研究方向。下面给出生物(人类)视觉与计算机视觉的对比表(表5.1)。
表5.1生物(人类)视觉与计算机视觉对比
对比项人 类 视 觉计算机视觉
适应性适应性强,可在复杂及变化的环境中识别目标适应性差,容易受复杂背景及环境变化的影响智能具有高级智能,可运用逻辑分析及推理能力识别变化的目标,并能总结规律虽然可利用人工智能及神经网络技术,但智能很差,不能很好地识别变化的目标续表
对比项人 类 视 觉计算机视觉
彩色识别能力对色彩的分辨能力强,但容易受人的心理影响,不能量化受硬件条件的制约,目前一般的图像采集系统对色彩的分辨能力较差,但具有可量化的优点灰度分辨能力差,一般只能分辨64个灰度级强,目前一般使用256灰度级,采集系统可具有10bit、12bit、16bit等灰度级空间分辨能力分辨率较差,不能观看微小的目标目前有4K×4K的面阵摄像机和8K的线阵摄像机,通过备置各种光学镜头,可以观测小到微米大到天体的目标速度0.1秒的视觉暂留使人眼无法看清较快速运动的目标快门时间可达到10微秒左右,高速相机帧率可达到1000以上,处理器的速度越来越快感光范围400~750nm范围的可见光从紫外到红外的较宽光谱范围,另外有X光等特殊摄像机环境要求对环境温度、湿度的适应性差,另外有许多场合对人有损害对环境适应性强,另外可加防护装置观测精度精度低,无法量化精度高,可到微米级,易量化其他主观性,受心理影响,易疲劳客观性,可连续工作
另外,关于生物视觉与计算机视觉之间核心的模块对应关系见图5.1,值得注意的是: 理解并分析大脑是如何在算法层面上工作的尝试是鲜活且发展良好的,这项尝试被称为“计算神经科学”,并且是独立于深度学习的一个领域。研究人员两个领域间反复研究是很常见的,深度学习主要关注如何构建智能的计算机系统,以用来解决需要智能才能解决的任务,而计算神经科学领域主要是关注构建大脑如何工作的更精确的模型。
图5.1生物视觉与计算机视觉核心模块对应
5.1.2稀疏性响应与数学物理描述目前,构建高性能的计算模型,并不是模型越复杂越好,特别针对变量维数很高,样本量不是很大的情形下,构建一个合理的,相对简单的稀疏模型往往具有更高的性能,更为重要的是还具有生物可解释性。从数学角度来看,依据模型的低复杂性结构(如向量的稀疏性,矩阵的低秩性等),如何高效地从病态的线性逆问题中且稳健地恢复出特定的信息。值得指出的是: 常见的稀疏性是指向量中绝大多数元素的值为零或者接近于零; 而广义的稀疏性是指通过特定变换后目标的稀疏性。可以看出,当前为了使得模型具备学习能力、高容量的表达能力、快速推断能力以及多任务信息共享能力; 借鉴生物视觉的认知机理已成为一种必然趋势。众所周知,1996年Olshausen和Field在Nature杂志上发表的一篇重要论文指出,自然图像经过稀疏编码后得到的基函数类似于初级视觉皮层V1区上简单细胞感受野的反应特性(即空间域的局部性、时域和频域的方向性和选择性)。需要指出的是稀疏编码与稀疏表示是不同的,例如关于系数的稀疏性约束,前者采用光滑可导的函数,而后者采用伪范数或L1范数; 另外稀疏编码不要求基原子个数一定要大于数据的维数。本节更为详细的论述与解释请参考第1章的稀疏表示,另外稀疏编码部分可参考相关论文,这里不再赘述。5.2稀疏深度网络模型及基本性质在深度神经网络引入显式稀疏性之前,关于稀疏模型的研究就已经成为机器学习中的热点,特别是针对线性稀疏模型的研究,如压缩感知、双稀疏模型、结构化稀疏模型(如群稀疏)、SHMAX模型、SRC模型等。当然,除了显式稀疏性(如稀疏正则化理论等)外,还有隐式稀疏性的研究,它通常内蕴在非线性激活函数和损失函数(如交互熵,非L2范数下的能量损失)的构建过程中。众所周知,自从2006年至今深度神经网络的一个重要体现或要求便是训练数据量的规模要大(衡量标准可利用模型的参数个数与训练数据量的个数来比较),由于以往训练数据集规模很小,加上计算性能很慢(硬件加速设备导致),同时权值矩阵的初始化方式较为笨拙(容易出现梯度弥散现象),以及使用了某种错误的非线性模型,导致深度神经网络在过去的表现并不好。经过十余年的积累,目前深度神经网络可简略地认为是大规模训练数据集,并行计算和规模化、灵巧的算法三者的结合。深度神经网络中引入稀疏正则或蕴含稀疏性可以认为是病态模型良态化的过程,如稀疏正则的核心是解决过拟合问题,稀疏权值连接(DropOut策略)的本质是通过约减参数量间接增加训练数据,以及非线性激活函数中所隐含的稀疏性是为了增加“扭曲”程度,即不同类别的(线性不可分)输入随着层级的增加,隐层特征所对应的线性可分性逐渐增强。下面简要地分析深度神经网络在各阶段所出现的稀疏性及其优势。备注: SHMAX为稀疏层次识别模型,SRC为稀疏表示分类器,结构化稀疏模型,基于稀疏正则的设计有群稀疏、图稀疏、随机场稀疏等。5.2.1数据的稀疏性数据的稀疏性包含三点: 一是数据中所包含某种拓扑特性或目标相对数据本身呈现出非零元素较少的情形; 二是数据在某种(线性或非线性)自适应或非自适应变换下对应的表示系数具有非零元素较少的状况; 三是随着数据集规模的增加,呈现出某种统计或物理特性的数据占整个数据集的少数,例如分辨率特别好的样本或分辨率特别差的样本在整个数据集中呈较少的状态。目前,常用的稀疏性描述是基于第二点假设,并且作为一种有效的(稀疏性)正则约束,在优化目标函数关于解存在多样性的问题中给出合理的解释与逼近。而基于点,通常可作为一种有效的处理方式(如二值化处理,或者零化无关区域),例如输入到深度神经网络中的一幅图像,有效的目标占图像的比例较少,便可以将图像中除去目标的部分置为零; 值得注意的是: 利用视觉机制中的显著性检测方法。另外针对第三点,其核心问题是如何利用稀疏编码筛选出这些重要样本(或剔除少数样本)。从框架(Frame Analysis)分析角度,认为比较好的冗余框架应该是紧框架,进而对输入描述便可以得到较好的紧表示系数,也就是说框架上界和框架下界尽可能相等。但是通常获取到的字典,也就是框架,不是紧的,能否利用大量无类标样本将框架的上界与下界估计出来,然后利用输入信号的逼近表示的二范数比上表示系数的二范数,看这个比值是否在框架上界与下界的中间,来判断该样本对字典(框架或系统)的表示是否是welldefined的,进而实现对样本的有效筛选。备注: 本小节讲的框架,是数学分析中的一支理论,继傅里叶分析、时频分析和小波分析之后,框架分析被提出,它指带有冗余特性“基”的表示理论。5.2.2稀疏正则众所周知,正则化的目的在于减少学习算法的泛化误差(亦称测试误差)以期提高测试识别率。目前,有许多正则化策略,常用的方式是对参数进行约束或限制,以及基于某种特定类型的先验知识进行约束与惩罚设计,注意这些惩罚和约束通过将模型求解参数良态化的过程来实现泛化性能的提升。基于如下的优化目标函数:
minθJ(θ)=1N∑Nn=1loss(x(n),y(n),θ) λ·R(θ)(5.1)
其中的R(θ)为参数范数惩罚,例如常用的有L2范数下的吉洪诺夫正则(Tikhonov Regularization),但它并没有蕴含稀疏特性。而使用L1范数则通常可以诱导出稀疏特性,即
R(θ)=‖W‖1=∑i|Wi|(5.2)
注意参数θ包括权值连接W与偏置b,而正则约束往往只针对权值连接。除了在权值连接上引入稀疏正则外,还可以在某个隐层输出层引入稀疏性,例如对于如下的目标函数:
min J()=‖x-D·‖22 λ·‖‖1(5.3)
注意这里的D为字典,数学中称其为框架,即有冗余的“基”; x为输入,为输出,其L1范数的定义与式(5.2)对应。值得指出的是反卷积神经网络中的卷积稀疏编码可以认为是一种带有共享机制下的权值稀疏性约束策略。备注: 除了上述具有稀疏特性的L1范数外,还可以引入群稀疏的策略,以及伪范数L1/2等,这里不再赘述。5.2.3稀疏连接众所周知,卷积神经网络的特性包括局部连接,权值共享和变换不变等特性且都蕴含着稀疏性,首先针对局部连接,相比较全连接策略,它更符合外侧膝状体到初级视觉皮层上的稀疏响应特性; 其次权值共享,进一步约束相似隐单元具有同样的激活特性,使得局部连接后的权值具有结构特性,实际应用中可进一步约减参数个数,间接增加数据量; 后,变换不变性是由池化方式诱导获取,也可认为是一种有效的“删减”参数的方式,即带有稀疏性的零化操作。下面介绍一种经典的自适应权值删减技巧DropOut,即指在模型训练时随机让网络某些隐含层节点的权重不工作,不工作的那些节点可以暂时认为不是网络结构的一部分,但是它的权重需保留下来(注意只是暂时不更新),因为下次样本输入时它可能又得工作了,见图5.2。
评论
还没有评论。