描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302636403丛书名: 电子信息前沿技术丛书
全面为机器学习提供数学基础:从线性代数的核心知识,到大规模矩阵计算,到低秩近似和特殊矩阵,再到统计基础和优化算法。
•延续Strang教材的一贯风格:内容丰富,深入浅出,透过技术外壳,直指本质内核。
•解释构建神经网络的基础知识和核心思想。
•包含丰富的应用背景介绍、参考文献及网络资源。
•每章含有练习和编程习题。
Gilbert Strang是麻省理工学院数学教授,美国国家科学院院士和美国艺术与科学院院士,在有限元理论、变分法、小波分析及线性代数等领域卓有成就,著有多部经典数学教材,开设多门开放式课程,享有国际盛誉。本书是深度学习的导论,全面介绍机器学习的数学基础,阐述架构神经网络的核心思想,主要内容包括线性代数的重点、大规模矩阵的计算、低秩与压缩传感、特殊矩阵、概率与统计、**化、数据学习等。本书可作为数据科学方向的数学基础课程教材,也可供人工智能、深度学习领域的科研人员和工程技术人员参考。
第1章 线性代数的重点
1.1 使用A的列向量实现Ax的相乘
1.2 矩阵与矩阵相乘:AB
1.3 4个基本子空间
1.4 消元法与A=LU
1.5 正交矩阵与子空间
1.6 特征值和特征向量
1.7 对称正定矩阵
1.8 奇异值分解中的奇异值和奇异向量
1.9 主成分和最佳低秩矩阵
1.10 Rayleigh商和广义特征值
1.11 向量、函数和矩阵的范数
1.12 矩阵和张量的分解:非负性和稀疏性
第2章 大规模矩阵的计算
2.1 数值线性代数
2.2 最小二乘:4种方法
2.3 列空间的3种基
2.4 随机线性代数
第3章 低秩与压缩传感
3.1 A的变化导致A-1的改变
3.2 交错特征值与低秩信号
3.3 快速衰减的奇异值
3.4 对e2 e1的拆分算法
3.5 压缩传感与矩阵补全
第4章 特殊矩阵
4.1 傅里叶变换:离散与连续
4.2 移位矩阵与循环矩阵
4.3 克罗内克积AB
4.4 出自克罗内克和的正弦、余弦变换
4.5 Toeplitz矩阵与移位不变滤波器
4.6 图、拉普拉斯算子及基尔霍夫定律
4.7 采用谱方法与k-均值的聚类
4.8 完成秩为1的矩阵
4.9 正交的普鲁斯特问题
4.10 距离矩阵
第5章 概率与统计
5.1 均值、方差和概率
5.2 概率分布
5.3 矩、累积量以及统计不等式
5.4 协方差矩阵与联合概率
5.5 多元高斯分布和加权最小二乘法
5.6 马尔可夫链
第6章 最优化
6.1 最小值问题:凸性与牛顿法
6.2 拉格朗日乘子=成本函数的导数
6.3 线性规划、博弈论和对偶性
6.4 指向最小值的梯度下降
6.5 随机梯度下降法与ADAM
第7章 数据学习
7.1 深度神经网络的构建
7.2 卷积神经网络
7.3 反向传播与链式法则
7.4 超参数:至关重要的决定
7.5 机器学习的世界
有关机器学习的书
附录A 采用SVD的图像压缩
附录B 数值线性代数的代码和算法
附录C 基本因式分解中的参数计算
作者索引
索引
符号索引
前言与致谢
我深深地感谢密歇根大学的 Raj Rao Nadakuditi教授。 2017年,Raj在学术休假期间把 EECS 551课程带到了麻省理工学院( MIT)。他每周飞来波士顿讲授课程 18.065。感谢 Raj,学生们学到了一门新课。他主导了课堂计算,布置了课后作业,还取消了考试。
这是针对信号和数据的线性代数,而且是十分活跃的领域。 140名 MIT的学生选修了这门课。 Alan Edelman在课上介绍了功能强大的编程语言 Julia,我解释了 4个基本子空间和奇异值分解。来自密歇根大学的实验室承担了矩阵的秩、 SVD及其应用。我们要求学生具备计算思维。
尽管是第一次开课,但该课程十分成功。只是它没有涉及一个大课题:深度学习。我指的是在神经网络上创建学习函数的令人兴奋之处,其隐藏层和非线性激活函数使其如此强大。系统会根据预先正确分类的数据进行自我训练。权重的优化能发现重要的表征,如字母的形状、图像的边缘、句子的语法及信号的识别细节。这些表征得到了更大的权重,无须过拟合数据和学习所有内容。然后,可通过具有相同的表征来识别类似群体中未见过的测试数据。
能做所有这些事情的算法不断地得以改进。更确切地说,它们正在得到改进。这是计算机科学家、工程师、生物学家、语言学家和数学家,尤其是那些通过优化权重来最大程度地减少错误的优化学家,以及那些相信深度学习可以改善我们的生活的人所做的贡献。
为什么要写这本书呢?
1.
组织数据科学的核心方法和思想。
2.
看看如何用线性代数的语言表达这些想法。
3.最重要的是,展示如何向自己或学生解释和传授这些想法。我当然知道课程大作业要比考试好得多。这样学生可以提出自己的问题,编写自己的程序。那么从现在开始大作业。
线性代数与微积分
读者将会接触本科数学的两个核心科目——线性代数和微积分。对于深度学习,线性代数是最重要的。我们计算 “权重”来挑选训练数据的重要表征,然后将这些权重转化成矩阵。学习函数的形式在后面描述。微积分则向我们展示了移动的方向,以改进当前的权重 xk。
我们需要的是偏导数(而不是积分):
通过从 xk移至 xk 1 = xk . sk.L来减小误差 L(x)
符号 .L代表 L(x)的一阶导数。因为有这个负号,L(x)的图中 xk 1是从 xk下降的。步长
sk(也称为学习速率)决定了移动多远。基本思想是通过在最快下降的方向移动来减小损失函数 L(x)。在最佳权重 x扩下,.L =0。
复杂的是向量 x代表数以千计的权重,所以必须计算 L的数千个偏导数。L本身是一个复杂的函数,它依赖 x的多层结构以及数据。因此,需要链式法则来求 .L。
第 6章的引言将回顾多变量微积分的一些基本结论。
相比之下,线性代数在数据学习的世界中无处不在。这是需要知道的主题。本书的前几章实质上是一门应用线性代数的课程——基本理论及其在计算中的应用。我可以尝试概述这种方法(针对我们需要的概念)与早期的线性代数课程的差异。这些是完全不同的,意味着有很多有用的东西要学习。
基础课程
1.消元法求解
Ax = b
2.
矩阵运算、逆运算和行列式
3.
向量空间和子空间
4.
无关性、维数和矩阵的秩
5.特征值和特征向量如果一门课程主要学习定义,那就不是实用线性代数。更强的课程是将线性代数付诸实践。定义是有目的的,教材也是如此。
高阶课程
1.任意情形下的
Ax = b:(方块方程组,太多方程与太多未知量)
2.将
A分解为 LU、QR、U.V T和 CMR(列乘以行)
3.
四个基本子空间:维数、正交性和好的基
4.
用特征向量与左、右奇异向量来对角化 A
5.
应用:图、卷积、迭代、协方差、投影、滤波器、网络、图像、数据矩阵线性代数已成为机器学习的中心,我们需要跟进。课程 18.065需要一本教材。它始于最初的 2017年班级,第一个版本发布在 2018年班级。
我很高兴将这本书的问世归功于 Ashley C. Fernandes。Ashley收到在波士顿扫描的页面,然后从孟买发回新的章节,从而为更多工作做好准备。这是我们一起合作的第 7本书,我非常感谢他。
两个班的学生们都慷慨地提供了帮助,特别是 William Loucks、Claire Khodadad、Alex LeNail和 Jack Strang。Alex的课程大作业产生了他的在线编码 alexlenail.me/NN-SVG/,可用来绘制神经网络。 Jack在 http://www.teachyourmachine.com上发布的大作业可以通过学习来识别用户手写的数字和字母(这个程序是开放供实验试用的)。而新网站 math.mit.edu/ENNUI旨在帮助简化深度学习函数的构建。
麻省理工学院的教职工给予了慷慨和急需的帮助:
Suvrit Sra就随机梯度下降法做了一个精彩的演讲(现在是 18.065课程视频);
Alex Postnikov解释了何时矩阵补齐导致秩为 1的矩阵(见 4.8节);
T
T 奇异向量。奇异值 替换特征值。分解 依然是正确的(这就是 ληA λλ ···= uvuv112212
本书的内容
T
学的重要贡献。
TommyPoggio向他的学生演示了深度学习如何推广到新的数据; JonathanHarmonTomMullalyLiangWang、和都对本书做出了贡献。TimBaumannSVD各种想法从四面八方涌来,逐渐完善了这本教科书。请不要错过 关于采用 本书旨在说明数据科学所依赖的数学,即线性代数、最优化、概率和统计。学习函数中的stochasticrandom权重组成矩阵。这些权重通过随机梯度下降法得以优化。随机( 或)是一个表明成功取决于概率而不是确定性的信号。大数定律扩展到大函数定律:若架构设计合理且参数计算正确,则成功的可能性就很高。注意,这不是一本关于计算、编程或软件的书。很多书在这些方面都十分出色。我们最钟AurélienGéron2017Hands-OnMachineLearning爱的书之一是著的(《机器学习手册》年由, O’ReillyTensorFlowKerasMathWorksCaffe发行)。而来自 、、和等的在线帮助都是对数据科线性代数中有各种各样奇妙的矩阵,如对称矩阵、正交矩阵、三角矩阵、带状矩阵、置换矩阵、投影矩阵和循环矩阵。根据我的经验,正定对称矩阵 是最优的。它们具有正特ST征值 与正交特征向量 。它们是简单的秩为 的到这些特征向量的投影 的组合, η1qqqT..。并且若 ,则 是中信息量最大的部分。对S ηηηηηS ······= qqqqqq121211122111第章最重要的一步是将这些想法从对称矩阵推广到所有的矩阵。现在需要 与 两组uvT SVDEckart-Young)。随着 的减小,的秩为的部分仍然按重要性顺序排列。关于 的“ λA1AT定理”补充了我们长期以来对对称矩阵的了解:对于秩为的矩阵,分解止于。AAkλuvkk12第章中的想法在第章中变成了算法。对于相当大的矩阵,、和是可计算的。对λuvk于非常大的矩阵,我们需要求助于随机化,对列和行进行采样。对各种各样的大型矩阵,这种34第章重点介绍低秩矩阵,第 章讨论许多重要的例子。我们正在寻找使计算特别快(在34第章中)或特别有用(在第 章中)的属性。傅里叶矩阵是每个常系数(不随位置变化)问FFT题的基础。由于快速傅里叶变换(),这种离散变换是超快的。5第章以尽可能简单的方式解释了我们需要的统计学知识。中心思想始终是均值和方差:平均值与围绕平均值的分布。通常可以通过简单的平移将均值降为零。减少方差(不确定性)是真正要解决的问题。对于随机向量、矩阵和张量,该问题变为更深层次。可以理解为,统计的线6第章介绍了两类最优化问题。首先是线性和二次规划以及博弈论的好问题。对偶性和鞍点是关键概念。深度学习和本书的目标却在其他地方,即规模非常大但其结构尽可能简单的问题。“导数等于零”仍然是最基本的方程。牛顿法用到的二阶导数数量太多,计算也太复杂。(当我们采用一步下降法来减小损失函数时)即使用到了所有的数据通常也是不可能的。这就是我们在随机梯度下降的每个步骤中只选择一小批输入数据的原因。
方法压缩照片的页面。T 于样本协方差矩阵,这部分的方差最大。
方法很有效。
性代数对于机器学习是至关重要的。
大规模学习的成功来自以下这个神奇的结论:当有数千或数百万个变量时,随机化往往会
导致可靠性。
第 7章从神经网络的架构开始。输入层连接到隐藏层,最后连接到输出层。对于训练数据,
输入向量 v是已知的。正确的输出也是已知的(通常 w是 v的正确分类)。我们优化学习函数
F中的权重 x,使得对于几乎每个训练输入 v,F (x, v)都接近 w。
然后将 F应用于测试数据,这些数据来自与训练数据相同的总体。如果 F学到了所需要的
东西(没有过拟合:我们不想用 99次多项式来拟合 100个数据点),测试误差也会很低。该系统
识别图像与语音。它可在不同的语言之间进行翻译。它可能会遵循大型比赛的获胜者 ImageNet
或 AlexNet等的设计。一个神经网络击败了围棋世界冠军。
函数 F经常是分段线性的——权重进入矩阵乘法。每个隐藏层上的每个神经元都有一个非
线性的 “激活函数”。斜坡函数 ReLU(x)= (0与 x的最大值)现在是压倒性的选择。
在设计构成 F (x, v)的网络层方面,存在着一个专业知识不断积累的增长领域。我们从完
全连接的层开始,第 n层上的所有神经元都连接到第 n 1层上的所有神经元。通常, CNN(卷积神经网络)更好——在图像中的所有像素周围重复相同的权重,这是一个非常重要的构造。其他层是不同的。池化层减小了维数。随机丢弃(Dropout)随机地跳过神经元。批归一化重置均值和方差。所有这些步骤创建了一个与训练数据紧密匹配的函数。然后就可以随时使用
F (x, v)。
致谢
最重要的是,我很高兴有机会感谢这些慷慨和鼓舞人心的朋友:
剑桥大学的 Pawan Kumar、Leonard Berrada、Mike Giles和 Nick Trefethen
香港的 Ding-Xuan Zhou和 Yunwen Lei
康奈尔大学的 Alex Townsend和 Heather Wilber
芝加哥大学的 Nati Srebro和 Srinadh Bhojanapalli
加州的 Tammy Kolda、Thomas Strohmer、Trevor Hastie和 Jay Kuo
Bill Hager、Mark Embree和 Wotao Yin(在第 3章给予的帮助)
Stephen Boyd和 Lieven Vandenberghe(提供了出色的参考书)
Alex Strang(绘制了众多漂亮的图及其他)
特别是伯克利的 Ben Recht。
他们的文章、电子邮件、讲座和建议都很棒。
视频讲座: OpenCourseWareocw.mit.edu和 YouTube (Math 18.06、18.065) Introduction to Linear Algebra (5th ed) by Gilbert Strang, Wellesley-Cambridge Press图书网址: math.mit.edu/linearalgebra和 math.mit.edu/learningfromdata
评论
还没有评论。