描述
内容简介
本书以线性代数、微积分、概率论为逻辑主线,讲解了与深度学习有关的大部分数学内容。本书以理论结合实际的方式讲解,使数学知识不再是冰冷的公式堆砌,而变成一个个真实的案例,同时对案例背后的原理进行理论上的升华,希望达到一通百通的效果。读者通过阅读本书,不仅能够提升阅读学术论文中的数学公式的能力,还能加深对深度学习本身的理解。 本书面向入门级读者,摒弃复杂的数学推导和证明,重视逻辑推理和简单的表达,特别适合数学基础不足的读者阅读。
目 录
目 录
第1章 线性代数的基本概念 1
1.1 向量和深度学习 1
1.2 向量距离计算 7
1.3 向量的基本性质 11
1.3.1 向量的基本运算 11
1.3.2 线性相关和线性无关 14
1.3.3 向量的投影和正交 15
1.4 矩阵 18
1.4.1 矩阵的基本概念 18
1.4.2 矩阵和神经网络 26
1.4.3 矩阵的秩 28
1.5 一些特殊的矩阵 30
1.5.1 矩阵的逆和广义逆 30
1.5.2 正交矩阵 32
第2章 线性代数在深度学习中的应用 34
2.1 特征值和特征向量 34
2.1.1 特征值和特征向量的定义 34
2.1.2 一般矩阵的特征分解 37
2.1.3 对称矩阵的特征分解 38
2.2 奇异值分解 41
2.3 正定矩阵 45
2.4 矩阵的范数和神经网络 46
2.5 主成分分析 49
2.6 推荐系统中的矩阵分解 55
第3章 微积分的基本概念 59
3.1 导数的定义和几何意义 59
3.2 复杂函数求导 61
3.3 导数的存在性 64
3.4 多元函数求导 65
3.5 二阶导数和高阶导数 65
3.6 函数的极大值和极小值 69
3.6.1 一元函数的极大值和极小值 69
3.6.2 多元函数的凹凸性和海森矩阵 72
3.6.3 凸优化证明 73
第4章 微积分在深度学习中的应用 77
4.1 梯度下降法 77
4.1.1 梯度下降法在深度学习中的应用 77
4.1.2 泰勒公式和梯度下降法 80
4.1.3 牛顿迭代法 81
4.2 梯度下降法的缺点 84
4.3 矩阵求导术 88
4.3.1 标量对向量和矩阵求导 88
4.3.2 向量对向量求导 89
4.3.3 链式法则 91
4.4 常见激活函数及其导数 92
4.5 常见损失函数及其导数 99
4.5.1 分类和回归 99
4.5.2 哈夫曼树和负采样 103
4.5.3 度量学习 106
4.6 积分和求和 108
4.6.1 积分和不定积分 108
4.6.2 多重积分 111
4.6.3 分类模型的效果指标AUC 113
第5章 概率的基本概念 117
5.1 概率入门 117
5.2 联合概率和条件概率 119
5.3 贝叶斯定理 122
5.4 连续概率分布 124
5.5 均值和方差 126
5.6 相关性 130
5.7 正态分布 133
5.7.1 正态分布的基本概念和性质 133
5.7.2 正态分布和逻辑回归 137
第6章 概率在深度学习中的应用 139
6.1 概率分布之间的距离 139
6.2 最大似然估计 140
6.3 Logit和Softmax 143
6.3.1 二分类的Logit 143
6.3.2 多分类的Softmax 144
6.4 语言模型 147
6.5 概率悖论 150
6.5.1 辛普森悖论 150
6.5.2 基本比率谬误 151
6.5.3 罗杰斯现象 153
6.5.4 伯克森悖论 153
6.6 统计学基础 155
6.6.1 卡方分布和学生分布 155
6.6.2 假设检验 158
6.6.3 AB测试 168
6.7 各类散列变换 172
6.7.1 特征Hash 172
6.7.2 MD5 174
6.7.3 特征空间的投影 175
6.7.4 simhash 177
6.7.5 minhash 178
6.8 分类器性能的极限 181
6.8.1 最大AUC 181
6.8.2 贝叶斯错误率 184
第1章 线性代数的基本概念 1
1.1 向量和深度学习 1
1.2 向量距离计算 7
1.3 向量的基本性质 11
1.3.1 向量的基本运算 11
1.3.2 线性相关和线性无关 14
1.3.3 向量的投影和正交 15
1.4 矩阵 18
1.4.1 矩阵的基本概念 18
1.4.2 矩阵和神经网络 26
1.4.3 矩阵的秩 28
1.5 一些特殊的矩阵 30
1.5.1 矩阵的逆和广义逆 30
1.5.2 正交矩阵 32
第2章 线性代数在深度学习中的应用 34
2.1 特征值和特征向量 34
2.1.1 特征值和特征向量的定义 34
2.1.2 一般矩阵的特征分解 37
2.1.3 对称矩阵的特征分解 38
2.2 奇异值分解 41
2.3 正定矩阵 45
2.4 矩阵的范数和神经网络 46
2.5 主成分分析 49
2.6 推荐系统中的矩阵分解 55
第3章 微积分的基本概念 59
3.1 导数的定义和几何意义 59
3.2 复杂函数求导 61
3.3 导数的存在性 64
3.4 多元函数求导 65
3.5 二阶导数和高阶导数 65
3.6 函数的极大值和极小值 69
3.6.1 一元函数的极大值和极小值 69
3.6.2 多元函数的凹凸性和海森矩阵 72
3.6.3 凸优化证明 73
第4章 微积分在深度学习中的应用 77
4.1 梯度下降法 77
4.1.1 梯度下降法在深度学习中的应用 77
4.1.2 泰勒公式和梯度下降法 80
4.1.3 牛顿迭代法 81
4.2 梯度下降法的缺点 84
4.3 矩阵求导术 88
4.3.1 标量对向量和矩阵求导 88
4.3.2 向量对向量求导 89
4.3.3 链式法则 91
4.4 常见激活函数及其导数 92
4.5 常见损失函数及其导数 99
4.5.1 分类和回归 99
4.5.2 哈夫曼树和负采样 103
4.5.3 度量学习 106
4.6 积分和求和 108
4.6.1 积分和不定积分 108
4.6.2 多重积分 111
4.6.3 分类模型的效果指标AUC 113
第5章 概率的基本概念 117
5.1 概率入门 117
5.2 联合概率和条件概率 119
5.3 贝叶斯定理 122
5.4 连续概率分布 124
5.5 均值和方差 126
5.6 相关性 130
5.7 正态分布 133
5.7.1 正态分布的基本概念和性质 133
5.7.2 正态分布和逻辑回归 137
第6章 概率在深度学习中的应用 139
6.1 概率分布之间的距离 139
6.2 最大似然估计 140
6.3 Logit和Softmax 143
6.3.1 二分类的Logit 143
6.3.2 多分类的Softmax 144
6.4 语言模型 147
6.5 概率悖论 150
6.5.1 辛普森悖论 150
6.5.2 基本比率谬误 151
6.5.3 罗杰斯现象 153
6.5.4 伯克森悖论 153
6.6 统计学基础 155
6.6.1 卡方分布和学生分布 155
6.6.2 假设检验 158
6.6.3 AB测试 168
6.7 各类散列变换 172
6.7.1 特征Hash 172
6.7.2 MD5 174
6.7.3 特征空间的投影 175
6.7.4 simhash 177
6.7.5 minhash 178
6.8 分类器性能的极限 181
6.8.1 最大AUC 181
6.8.2 贝叶斯错误率 184
评论
还没有评论。