描述
开 本: 16开纸 张: 胶版纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787030773302
内容简介
《机器学习数学基础》*先介绍机器学习的矩阵代数基础, 包括线性代数基础、范数理论与投影映射、矩阵分解及应用、梯度矩阵; 然后介绍机器学习的概率与优化基础, 包含概率统计与信息论基础、凸函数、优化理论、迭代算法; *后介绍几个**的机器学习模型. 阅读《机器学习数学基础》需要微积分、线性代数和概率论与数理统计的基础知识.
目 录
目录
前言
符号说明
第1章 线性代数基础 1
1.1 向量空间 1
1.1.1 研究对象与向量 1
1.1.2 群 2
1.1.3 向量空间的定义 3
1.1.4 生成集和基 6
1.1.5 子空间的交与和 7
1.2 线性映射 9
1.2.1 线性映射的定义 9
1.2.2 线性映射的矩阵表示 11
1.2.3 基变换 13
1.2.4 像集与核 18
1.3 内积空间 20
1.3.1 内积空间的定义 20
1.3.2 常见概念与相关结论 21
1.3.3 四个基本子空间 23
1.4 仿射子空间与仿射映射 29
1.4.1 仿射子空间 29
1.4.2 仿射映射 31
习题 1 32
第2章 范数理论与投影映射 37
2.1 向量范数 37
2.1.1 向量范数的定义 37
2.1.2 常用的向量范数 39
2.1.3 向量序列的收敛性 43
2.1.4 向量范数的对偶范数 47
2.2 矩阵范数 49
2.2.1 矩阵范数的定义和性质 49
2.2.2 几种常用的矩阵范数 51
2.2.3 由向量范数诱导的矩阵范数 53
2.3 范数的一些应用 59
2.3.1 谱半径与矩阵范数 59
2.3.2 线性方程组解的扰动分析 62
2.4 投影映射 66
2.4.1 投影映射 66
2.4.2 正交投影的几个应用 70
习题 2 77
第3章 矩阵分解及应用 80
3.1 方阵的两个重要数字特征 80
3.1.1 行列式 80
3.1.2 迹函数 82
3.2 LU 分解 82
3.2.1 LU 分解 83
3.2.2 平方根分解 88
3.3 QR 分解 91
3.3.1 Gram-Schmidt 正交化算法与 QR 分解 92
3.3.2 Householder 变换法与 QR 分解 94
3.3.3 Givens 旋转和 QR 分解 98
3.3.4 QR 分解的应用 102
3.4 奇异值分解 103
3.4.1 特征值分解 104
3.4.2 奇异值分解的定义 104
3.4.3 奇异值分解的几何解释与性质 111
3.5 矩阵的低秩逼近 114
3.5.1 秩 k 逼近 115
3.5.2 低秩逼近的应用 118
习题 3 122
第4章 梯度矩阵 125
4.1 标量函数的梯度矩阵 125
4.1.1 标量函数的梯度定义 125
4.1.2 标量函数对向量的梯度 127
4.1.3 标量函数对矩阵的梯度 130
4.2 矩阵函数的梯度矩阵 132
4.2.1 向量函数的梯度矩阵 132
4.2.2 矩阵函数的梯度矩阵 134
4.3 矩阵微分 137
4.3.1 矩阵微分的定义与性质 137
4.3.2 标量函数的矩阵微分 139
4.3.3 矩阵函数的矩阵微分 141
4.4 链式法则 143
4.5 标量函数的可微性 147
4.5.1 Fréchet 可微与 Gateaux 可微 147
4.5.2 多元函数的 Taylor 公式 150
习题 4 152
第5章 概率统计与信息论基础 154
5.1 概率分布、期望和方差 154
5.1.1 一维随机变量的概率分布 154
5.1.2 二维随机变量的联合分布 157
5.1.3 期望与方差 158
5.1.4 协方差矩阵与相关系数 160
5.1.5 样本期望与方差 162
5.1.6 蒙特卡罗模拟 163
5.2 矩和重要不等式 164
5.2.1 矩 164
5.2.2 重要不等式 167
5.3 多元高斯分布和加权*小二乘法 170
5.3.1 多元高斯分布 170
5.3.2 *小二乘估计 171
5.4 马尔可夫链 174
5.4.1 离散时间的马尔可夫链 174
5.4.2 连续时间的马尔可夫链 177
5.5 熵 179
5.5.1 离散随机变量的熵 180
5.5.2 连续型随机变量的微分熵 184
5.6 KL 散度与互信息 184
5.6.1 KL 散度 184
5.6.2 互信息 187
习题 5 189
第6章 凸函数 191
6.1 凸集 191
6.1.1 集合的基本拓扑概念 191
6.1.2 仿射集合 193
6.1.3 凸集 196
6.1.4 凸集的内部与闭包 200
6.2 凸集的保凸运算 201
6.2.1 交集 201
6.2.2 仿射函数 204
6.2.3 透视函数 207
6.3 凸函数 210
6.3.1 凸函数的定义 210
6.3.2 水平集和上图 213
6.3.3 Jensen 不等式 218
6.3.4 凸函数的极值 220
6.4 保凸运算与可微性条件 221
6.4.1 保凸运算 222
6.4.2 可微性与凸性 226
6.5 凸分离 230
6.5.1 投影定理 230
6.5.2 分离和超支撑平面的定义 232
6.5.3 凸分离定理 233
6.5.4 择一定理与不等式 236
6.6 拟凸函数与伪凸函数 240
6.6.1 拟凸函数 240
6.6.2 伪凸函数 243
6.7 次梯度 245
6.7.1 次梯度的定义 245
6.7.2 次梯度的性质与重要结论 247
习题 6 256
第7章 优化理论 259
7.1 *优化问题 259
7.1.1 局部极值的*优化条件 259
7.1.2 *优化问题的一般形式 263
7.2 非光滑优化与光滑优化 264
7.2.1 非光滑优化 265
7.2.2 光滑优化 269
7.3 对偶理论 276
7.3.1 对偶问题 276
7.3.2 强对偶 283
习题 7 287
第8章 迭代算法 290
8.1 线搜索方法 290
8.1.1 线搜索算法 290
8.1.2 步长的选择 292
8.2 梯度下降法 293
8.2.1 梯度下降法 294
8.2.2 梯度下降法的收敛性 296
8.2.3 随机梯度下降法 301
8.2.4 次梯度算法 303
8.3 牛顿法 304
8.3.1 **牛顿法 304
8.3.2 牛顿法的收敛性 306
8.3.3 修正的牛顿法 309
8.3.4 拟牛顿算法 310
8.4 共轭梯度法 311
8.4.1 共轭方向 312
8.4.2 共轭梯度法 316
习题 8 318
第9章 机器学习模型 320
9.1 线性模型 320
9.1.1 线性回归 320
9.1.2 逻辑回归 322
9.1.3 正则化 325
9.2 支持向量机 328
9.2.1 *大分类间隔分类器 328
9.2.2 对偶问题 330
9.2.3 软间隔分类器 331
9.3 神经网络 333
9.3.1 从线性模型到神经网络 333
9.3.2 神经网络与生物学的联系 334
9.3.3 多层感知机 335
9.3.4 反向传播 338
9.4 主成分分析 342
9.4.1 算法的推导 342
9.4.2 PAC 在应用中的问题 346
9.4.3 潜在维数的选择 347
参考文献 351
索引 353
前言
符号说明
第1章 线性代数基础 1
1.1 向量空间 1
1.1.1 研究对象与向量 1
1.1.2 群 2
1.1.3 向量空间的定义 3
1.1.4 生成集和基 6
1.1.5 子空间的交与和 7
1.2 线性映射 9
1.2.1 线性映射的定义 9
1.2.2 线性映射的矩阵表示 11
1.2.3 基变换 13
1.2.4 像集与核 18
1.3 内积空间 20
1.3.1 内积空间的定义 20
1.3.2 常见概念与相关结论 21
1.3.3 四个基本子空间 23
1.4 仿射子空间与仿射映射 29
1.4.1 仿射子空间 29
1.4.2 仿射映射 31
习题 1 32
第2章 范数理论与投影映射 37
2.1 向量范数 37
2.1.1 向量范数的定义 37
2.1.2 常用的向量范数 39
2.1.3 向量序列的收敛性 43
2.1.4 向量范数的对偶范数 47
2.2 矩阵范数 49
2.2.1 矩阵范数的定义和性质 49
2.2.2 几种常用的矩阵范数 51
2.2.3 由向量范数诱导的矩阵范数 53
2.3 范数的一些应用 59
2.3.1 谱半径与矩阵范数 59
2.3.2 线性方程组解的扰动分析 62
2.4 投影映射 66
2.4.1 投影映射 66
2.4.2 正交投影的几个应用 70
习题 2 77
第3章 矩阵分解及应用 80
3.1 方阵的两个重要数字特征 80
3.1.1 行列式 80
3.1.2 迹函数 82
3.2 LU 分解 82
3.2.1 LU 分解 83
3.2.2 平方根分解 88
3.3 QR 分解 91
3.3.1 Gram-Schmidt 正交化算法与 QR 分解 92
3.3.2 Householder 变换法与 QR 分解 94
3.3.3 Givens 旋转和 QR 分解 98
3.3.4 QR 分解的应用 102
3.4 奇异值分解 103
3.4.1 特征值分解 104
3.4.2 奇异值分解的定义 104
3.4.3 奇异值分解的几何解释与性质 111
3.5 矩阵的低秩逼近 114
3.5.1 秩 k 逼近 115
3.5.2 低秩逼近的应用 118
习题 3 122
第4章 梯度矩阵 125
4.1 标量函数的梯度矩阵 125
4.1.1 标量函数的梯度定义 125
4.1.2 标量函数对向量的梯度 127
4.1.3 标量函数对矩阵的梯度 130
4.2 矩阵函数的梯度矩阵 132
4.2.1 向量函数的梯度矩阵 132
4.2.2 矩阵函数的梯度矩阵 134
4.3 矩阵微分 137
4.3.1 矩阵微分的定义与性质 137
4.3.2 标量函数的矩阵微分 139
4.3.3 矩阵函数的矩阵微分 141
4.4 链式法则 143
4.5 标量函数的可微性 147
4.5.1 Fréchet 可微与 Gateaux 可微 147
4.5.2 多元函数的 Taylor 公式 150
习题 4 152
第5章 概率统计与信息论基础 154
5.1 概率分布、期望和方差 154
5.1.1 一维随机变量的概率分布 154
5.1.2 二维随机变量的联合分布 157
5.1.3 期望与方差 158
5.1.4 协方差矩阵与相关系数 160
5.1.5 样本期望与方差 162
5.1.6 蒙特卡罗模拟 163
5.2 矩和重要不等式 164
5.2.1 矩 164
5.2.2 重要不等式 167
5.3 多元高斯分布和加权*小二乘法 170
5.3.1 多元高斯分布 170
5.3.2 *小二乘估计 171
5.4 马尔可夫链 174
5.4.1 离散时间的马尔可夫链 174
5.4.2 连续时间的马尔可夫链 177
5.5 熵 179
5.5.1 离散随机变量的熵 180
5.5.2 连续型随机变量的微分熵 184
5.6 KL 散度与互信息 184
5.6.1 KL 散度 184
5.6.2 互信息 187
习题 5 189
第6章 凸函数 191
6.1 凸集 191
6.1.1 集合的基本拓扑概念 191
6.1.2 仿射集合 193
6.1.3 凸集 196
6.1.4 凸集的内部与闭包 200
6.2 凸集的保凸运算 201
6.2.1 交集 201
6.2.2 仿射函数 204
6.2.3 透视函数 207
6.3 凸函数 210
6.3.1 凸函数的定义 210
6.3.2 水平集和上图 213
6.3.3 Jensen 不等式 218
6.3.4 凸函数的极值 220
6.4 保凸运算与可微性条件 221
6.4.1 保凸运算 222
6.4.2 可微性与凸性 226
6.5 凸分离 230
6.5.1 投影定理 230
6.5.2 分离和超支撑平面的定义 232
6.5.3 凸分离定理 233
6.5.4 择一定理与不等式 236
6.6 拟凸函数与伪凸函数 240
6.6.1 拟凸函数 240
6.6.2 伪凸函数 243
6.7 次梯度 245
6.7.1 次梯度的定义 245
6.7.2 次梯度的性质与重要结论 247
习题 6 256
第7章 优化理论 259
7.1 *优化问题 259
7.1.1 局部极值的*优化条件 259
7.1.2 *优化问题的一般形式 263
7.2 非光滑优化与光滑优化 264
7.2.1 非光滑优化 265
7.2.2 光滑优化 269
7.3 对偶理论 276
7.3.1 对偶问题 276
7.3.2 强对偶 283
习题 7 287
第8章 迭代算法 290
8.1 线搜索方法 290
8.1.1 线搜索算法 290
8.1.2 步长的选择 292
8.2 梯度下降法 293
8.2.1 梯度下降法 294
8.2.2 梯度下降法的收敛性 296
8.2.3 随机梯度下降法 301
8.2.4 次梯度算法 303
8.3 牛顿法 304
8.3.1 **牛顿法 304
8.3.2 牛顿法的收敛性 306
8.3.3 修正的牛顿法 309
8.3.4 拟牛顿算法 310
8.4 共轭梯度法 311
8.4.1 共轭方向 312
8.4.2 共轭梯度法 316
习题 8 318
第9章 机器学习模型 320
9.1 线性模型 320
9.1.1 线性回归 320
9.1.2 逻辑回归 322
9.1.3 正则化 325
9.2 支持向量机 328
9.2.1 *大分类间隔分类器 328
9.2.2 对偶问题 330
9.2.3 软间隔分类器 331
9.3 神经网络 333
9.3.1 从线性模型到神经网络 333
9.3.2 神经网络与生物学的联系 334
9.3.3 多层感知机 335
9.3.4 反向传播 338
9.4 主成分分析 342
9.4.1 算法的推导 342
9.4.2 PAC 在应用中的问题 346
9.4.3 潜在维数的选择 347
参考文献 351
索引 353
评论
还没有评论。