描述

开本: 16开纸张: 胶版纸包装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302597308

编辑推荐

《机器学习方法》在《统计学习方法》的基础上增加了深度学习的内容，全面系统地介绍了机器学习的主要方法，系统阐述其理论、模型、策略和算法，从具体例子入手，由浅入深，帮助读者直观地理解基本思路，同时从理论角度出发，给出严格的数学推导，严谨详实，让读者更好地掌握基本原理和概念。《机器学习方法》可作为机器学习及相关课程的教学参考书，适合人工智能、文本数据挖掘、信息检索及自然语言处理等专业的本科生、研究生使用，也供计算机各个领域的专业研发人员参考。

内容简介

机器学习是以概率论、统计学、信息论、**化理论、计算理论等为基础的计算机应用理论学科，也是人工智能、数据挖掘等领域的基础学科。《机器学习方法》全面系统地介绍了机器学习的主要方法，共分三篇。篇介绍监督学习的主要方法，包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与**熵模型、支持向量机、Boosting、EM算法、隐马尔可夫模型、条件随机场等；第二篇介绍无监督学习的主要方法，包括聚类、奇异值分解、主成分分析、潜在语义分析、概率潜在语义分析、马尔可夫链蒙特卡罗法、潜在狄利克雷分配、PageRank算法等。第三篇介绍深度学习的主要方法，包括前馈神经网络、卷积神经网络、循环神经网络、序列到序列模型、预训练语言模型、生成对抗网络等。书中每章介绍一两种机器学习方法，详细叙述各个方法的模型、策略和算法。从具体例子入手，由浅入深，帮助读者直观地理解基本思路，同时从理论角度出发，给出严格的数学推导，严谨详实，让读者更好地掌握基本原理和概念。目的是使读者能学会和使用这些机器学习的基本技术。为满足读者进一步学习的需要，书中还对各个方法的要点进行了总结，给出了一些习题，并列出了主要参考文献。《机器学习方法》是机器学习及相关课程的教学参考书，适合人工智能、数据挖掘等专业的本科生、研究生使用，也供计算机各个领域的专业研发人员参考。

作者简介

李航，字节跳动科技有限公司人工智能实验室总监， IEEE会士、ACL会士、ACM杰出科学家、CCF杰出会员。研究方向包括信息检索、自然语言处理、统计机器学习及数据挖掘。李航于1988年从日本京都大学电气工程系毕业，1998年获得日本东京大学计算机科学博士。他1990年至2001年就职于日本NEC公司中央研究所，任研究员；2001年至2012年就职于微软亚洲研究院，任高级研究员与主任研究员；2012年至2017年就职于华为技术有限公司诺亚方舟实验室，任首席科学家、主任。李航一直活跃在相关学术领域，曽出版过四部学术专著，并在国际学术会议和国际学术期刊上发表过120多篇学术论文，包括SIGIR, WWW, WSDM, ACL, EMNLP, ICML, NIPS, SIGKDD, AAAI, IJCAI，以及NLE, JMLR, TOIS, IRJ, IPM, TKDE, TWEB, TIST等。他和同事的论文获得了KDD2008应用论文奖，他指导的学生获得了SIGIR2008，ACL2012学生论文奖。李航参与了多项产品开发，包括Microsoft SQL Server 2005, Microsoft Office 2007, Microsoft Live Search 2008, Microsoft Bing 2009, Bing 2010, Office 2010, Office 2012，拥有42项授权美国专利。李航还在国际学术会议和国际学术期刊担任许多重要工作，如大会程序委员会主席，资深委员，及委员，期刊编委，包括SIGIR, WWW, WSDM, ACL, NAACL, EMNLP, NIPS,SIGKDD, ICDM, ACML, IJCAI, IRJ, TIST, JASIST, JCST等。

目　　录

第1篇监督学习

第1章机器学习及监督学习概论 3

11机器学习 3

12机器学习的分类 5

121基本分类 5

122按模型分类 10

123按算法分类 11

124按技巧分类 12

13机器学习方法三要素 13

131模型 13

132策略 14

133算法 16

14模型评估与模型选择 17

141训练误差与测试误差 17

142过拟合与模型选择 18

15正则化与交叉验证 20

151正则化 20

152交叉验证 20

16泛化能力 21

161泛化误差 21

162泛化误差上界 22

17生成模型与判别模型 24

18监督学习应用 24

181分类问题 24

182标注问题 26

183回归问题 27
本章概要 28
继续阅读 29
习题 29
参考文献 29

VIII机器学习方法
第 2章感知机 30

21感知机模型 30

22感知机学习策略 31

221数据集的线性可分性 31

222感知机学习策略 31

23感知机学习算法 32

231感知机学习算法的原始形式 33

232算法的收敛性 35

233感知机学习算法的对偶形式 37
本章概要 39
继续阅读 40
习题 40
参考文献 40

第 3章 k近邻法 41

31 k近邻算法 41

32 k近邻模型 42

321模型 42

322距离度量 42

323 k值的选择 43

324分类决策规则 44

33 k近邻法的实现：kd树 44

331构造 kd树 45

332搜索 kd树 46
本章概要 48
继续阅读 48
习题 48
参考文献 49

第 4章朴素贝叶斯法 50

41朴素贝叶斯法的学习与分类 50

411基本方法 50

412后验概率化的含义 51

42朴素贝叶斯法的参数估计 52

421极大似然估计 52

422学习与分类算法 53

423贝叶斯估计 54
本章概要 55
继续阅读 56

目录 IX
习题 56
参考文献 56

第 5章决策树 57

51决策树模型与学习 57

511决策树模型 57

512决策树与 if-then规则 58

513决策树与条件概率分布 58

514决策树学习 58

52特征选择 60

521特征选择问题 60

522信息增益 61

523信息增益比 64

53决策树的生成 64

531 ID3算法 65

532 C45的生成算法 66

54决策树的剪枝 66

55 CART算法 68

551 CART生成 69

552 CART剪枝 72
本章概要 74
继续阅读 75
习题 75
参考文献 75

第 6章逻辑斯谛回归与熵模型 77

61逻辑斯谛回归模型 77

611逻辑斯谛分布 77

612二项逻辑斯谛回归模型 78

613模型参数估计 79

614多项逻辑斯谛回归 79

62熵模型 80

621熵原理 80

622熵模型的定义 82

623熵模型的学习 83

624极大似然估计 86

63模型学习的化算法 87

631改进的迭代尺度法 87

632拟牛顿法 90

机器学习方法
本章概要 91
继续阅读 92
习题 92
参考文献 93

第 7章支持向量机 94

71线性可分支持向量机与硬间隔化 94

711线性可分支持向量机 94

712函数间隔和几何间隔 96

713间隔化 97

714学习的对偶算法 101

72线性支持向量机与软间隔化 106

721线性支持向量机 106

722学习的对偶算法 107

723支持向量 110

724合页损失函数 111

73非线性支持向量机与核函数 112

731核技巧 112

732正定核 115

733常用核函数 118

734非线性支持向量分类机 120

74序列小化算法 121

741两个变量二次规划的求解方法 122

742变量的选择方法 124

743 SMO算法 126
本章概要 127
继续阅读 129
习题 129
参考文献 129

第 8章 Boosting 131

81 AdaBoost算法 131

811 Boosting的基本思路 131

812 AdaBoost算法 132

813 AdaBoost的例子 134

82 AdaBoost算法的训练误差分析 135

83 AdaBoost算法的解释 137

831前向分步算法 137

832前向分步算法与 AdaBoost 138

目录 XI
84提升树 140

841提升树模型 140

842提升树算法 140

843梯度提升 144
本章概要 145
继续阅读 146
习题 146
参考文献 146

第 9章 EM算法及其推广 148

91 EM算法的引入 148

911 EM算法 148

912 EM算法的导出 151

913 EM算法在无监督学习中的应用 153

92 EM算法的收敛性 153

93 EM算法在高斯混合模型学习中的应用 154

931高斯混合模型 155

932高斯混合模型参数估计的 EM算法 155

94 EM算法的推广 158

941 F函数的极大-极大算法 158

942 GEM算法 160
本章概要 161
继续阅读 162
习题 162
参考文献 162

第 10章隐马尔可夫模型 163

101隐马尔可夫模型的基本概念 163

1011隐马尔可夫模型的定义 163

1012观测序列的生成过程 166

1013隐马尔可夫模型的 3个基本问题 166

102概率计算算法 166

1021直接计算法 166

1022前向算法 167

1023后向算法 169

1024一些概率与期望值的计算 170

103学习算法 172

1031监督学习方法 172

1032 Baum-Welch算法 172

XII机器学习方法
1033 Baum-Welch模型参数估计公式 174

104预测算法 175

1041近似算法 175

1042维特比算法 176
本章概要 179
继续阅读 179
习题 180
参考文献 180

第 11章条件随机场 181

111概率无向图模型 181

1111模型定义 181

1112概率无向图模型的因子分解 183

112条件随机场的定义与形式 184

1121条件随机场的定义 184

1122条件随机场的参数化形式 185

1123条件随机场的简化形式 186

1124条件随机场的矩阵形式 187

113条件随机场的概率计算问题 189

1131前向-后向算法 189

1132概率计算 189

1133期望值的计算 190

114条件随机场的学习算法 191

1141改进的迭代尺度法 191

1142拟牛顿法 194

115条件随机场的预测算法 195
本章概要 197
继续阅读 198
习题 198
参考文献 199

第 12章监督学习方法总结 200

第
2篇
无
监
督
学
习

无监学习
第 13章无监督学习概论 207

131无监督学习基本原理 207

132基本问题 208

133机器学习三要素 210

134无监督学习方法 210

目录 XIII
本章概要 214
继续阅读 215
参考文献 215

第 14章聚类方法 216

141聚类的基本概念 216

1411相似度或距离 216

1412类或簇 219

1413类与类之间的距离 220

142层次聚类 220

143 k均值聚类 222

1431模型 222

1432策略 223

1433算法 224

1434算法特性 225
本章概要 226
继续阅读 227
习题 227
参考文献 227

第 15章奇异值分解 229

151奇异值分解的定义与性质 229

1511定义与定理 229

1512紧奇异值分解与截断奇异值分解 233

1513几何解释 235

1514主要性质 237

152奇异值分解的计算 238

153奇异值分解与矩阵近似 241

1531弗罗贝尼乌斯范数 241

1532矩阵的近似 242

1533矩阵的外积展开式 245
本章概要 247
继续阅读 248
习题 248
参考文献 249

第 16章主成分分析 250

161总体主成分分析 250

1611基本想法 250

XIV机器学习方法
1612定义和导出 252

1613主要性质 253

1614主成分的个数 257

1615规范化变量的总体主成分 260

162样本主成分分析 260

1621样本主成分的定义和性质 261

1622相关矩阵的特征值分解算法 263

1623数据矩阵的奇异值分解算法 265
本章概要 267
继续阅读 269
习题 269
参考文献 269

第 17章潜在语义分析 271

171单词向量空间与话题向量空间 271

1711单词向量空间 271

1712话题向量空间 273

172潜在语义分析算法 276

1721矩阵奇异值分解算法 276

1722例子 278

173非负矩阵分解算法 279

1731非负矩阵分解 279

1732潜在语义分析模型 280

1733非负矩阵分解的形式化 280

1734算法 281
本章概要 283
继续阅读 284
习题 284
参考文献 285

第 18章概率潜在语义分析 286

181概率潜在语义分析模型 286

1811基本想法 286

1812生成模型 287

1813共现模型 288

1814模型性质 289

182概率潜在语义分析的算法 291
本章概要 293
继续阅读 294

目录 XV
习题 294
参考文献 295

第 19章马尔可夫链蒙特卡罗法 296

191蒙特卡罗法 296

1911随机抽样 296

1912数学期望估计 297

1913积分计算 298

192马尔可夫链 299

1921基本定义 299

1922离散状态马尔可夫链 300

1923连续状态马尔可夫链 305

1924马尔可夫链的性质 306

193马尔可夫链蒙特卡罗法 310

1931基本想法 310

1932基本步骤 311

1933马尔可夫链蒙特卡罗法与统计学习 311

194 Metropolis-Hastings算法 312

1941基本原理 312

1942 Metropolis-Hastings算法 315

1943单分量 Metropolis-Hastings算法 315

195吉布斯抽样 316

1951基本原理 316

1952吉布斯抽样算法 318

1953抽样计算 319
本章概要 320
继续阅读 321
习题 321
参考文献 322

第 20章潜在狄利克雷分配 324

201狄利克雷分布 324

2011分布定义 324

2012共轭先验 327

202潜在狄利克雷分配模型 328

2021基本想法 328

2022模型定义 329

2023概率图模型 331

2024随机变量序列的可交换性 332

XVI机器学习方法
2025概率公式 332

203 LDA的吉布斯抽样算法 333

2031基本想法 333

2032算法的主要部分 334

2033算法的后处理 336

2034算法 337

204 LDA的变分 EM算法 338

2041变分推理 338

2042变分 EM算法 339

2043算法推导 340

2044算法总结 346
本章概要 346
继续阅读 348
习题 348
参考文献 348

第 21章 PageRank算法 349

211 PageRank的定义 349

2111基本想法 349

2112有向图和随机游走模型 350

2113 PageRank的基本定义 352

2114 PageRank的一般定义 354

212 PageRank的计算 355

2121迭代算法 355

2122幂法 357

2123代数算法 361
本章概要 362
继续阅读 363
习题 363
参考文献 364

第 22章无监督学习方法总结 365

221无监督学习方法的关系和特点 365

2211各种方法之间的关系 365

2212无监督学习方法 366

2213基础机器学习方法 366

222话题模型之间的关系和特点 367
参考文献 368

目录 XVII
第
3篇
深
度
学
习

第 23章前馈神经网络 371

231前馈神经网络的模型 371

2311前馈神经网络定义 372

2312前馈神经网络的例子 381

2313前馈神经网络的表示能力 386

232前馈神经网络的学习算法 389

2321前馈神经网络学习 389

2322前馈神经网络学习的优化算法 391

2323反向传播算法 393

2324在计算图上的实现 397

2325算法的实现技巧 401

233前馈神经网络学习的正则化 406

2331深度学习中的正则化 406

2332早停法 406

2333暂退法 408
本章概要 410
继续阅读 413
习题 413
参考文献 414

第 24章卷积神经网络 415

241卷积神经网络的模型 415

2411背景 415

2412卷积 416

2413汇聚 424

2414卷积神经网络 427

2415卷积神经网络性质 430

242卷积神经网络的学习算法 432

2421卷积导数 432

2422反向传播算法 433

243图像分类中的应用 436

2431 AlexNet 436

2432残差网络 437
本章概要 441
继续阅读 443
习题 443
参考文献 445

XVIII机器学习方法
第 25章循环神经网络 447

251简单循环神经网络 447

2511模型 447

2512学习算法 450

252常用循环神经网络 454

2521长短期记忆网络 454

2522门控循环单元网络 457

2523深度循环神经网络 458

2524双向循环神经网络 459

253自然语言生成中的应用 460

2531词向量 460

2532语言模型与语言生成 463
本章概要 465
继续阅读 467
习题 467
参考文献 468

第 26章序列到序列模型 469

261序列到序列基本模型 469

2611序列到序列学习 469

2612基本模型 471

262 RNN Search模型 472

2621注意力 472

2622模型定义 474

2623模型特点 475

263 Transformer模型 475

2631模型架构 476

2632模型特点 482
本章概要 483
继续阅读 486
习题 486
参考文献 486

第 27章预训练语言模型 488

271 GPT模型 488

2711预训练语言模型 488

2712模型和学习 490

272 BERT模型 493

2721去噪自动编码器 493

2722模型和学习 495

目录 XIX
2723模型特点 499
本章概要 500
继续阅读 502
习题 502
参考文献 502

第 28章生成对抗网络 504

281 GAN基本模型 504

2811模型 504

2812学习算法 506

2813理论分析 507

282图像生成中的应用 508

2821转置卷积 509

2822 DCGAN 511
本章概要 513
继续阅读 514
习题 514
参考文献 515

第 29章深度学习方法总结 516

291深度学习的模型 516

292深度学习的方法 518

293深度学习的优化算法 520

294深度学习的优缺点 522
参考文献 523

附录 A梯度下降法 524

附录 B牛顿法和拟牛顿法 526

附录 C拉格朗日对偶性 531

附录 D矩阵的基本子空间 534

附录 E KL散度的定义和狄利克雷分布的性质 537

附录 F软化函数的偏导数和交叉熵损失函数的偏导数 539

索引 541

第1篇监督学习

第1章机器学习及监督学习概论 3

11机器学习 3

12机器学习的分类 5

121基本分类 5

122按模型分类 10

123按算法分类 11

124按技巧分类 12

13机器学习方法三要素 13

131模型 13

132策略 14

133算法 16

14模型评估与模型选择 17

141训练误差与测试误差 17

142过拟合与模型选择 18

15正则化与交叉验证 20

151正则化 20

152交叉验证 20

16泛化能力 21

161泛化误差 21

162泛化误差上界 22

17生成模型与判别模型 24

18监督学习应用 24

181分类问题 24

182标注问题 26

183回归问题 27
本章概要 28
继续阅读 29
习题 29
参考文献 29

VIII机器学习方法
第 2章感知机 30

21感知机模型 30

22感知机学习策略 31

221数据集的线性可分性 31

222感知机学习策略 31

23感知机学习算法 32

231感知机学习算法的原始形式 33

232算法的收敛性 35

233感知机学习算法的对偶形式 37
本章概要 39
继续阅读 40
习题 40
参考文献 40

第 3章 k近邻法 41

31 k近邻算法 41

32 k近邻模型 42

321模型 42

322距离度量 42

323 k值的选择 43

324分类决策规则 44

33 k近邻法的实现：kd树 44

331构造 kd树 45

332搜索 kd树 46
本章概要 48
继续阅读 48
习题 48
参考文献 49

第 4章朴素贝叶斯法 50

41朴素贝叶斯法的学习与分类 50

411基本方法 50

412后验概率化的含义 51

42朴素贝叶斯法的参数估计 52

421极大似然估计 52

422学习与分类算法 53

423贝叶斯估计 54
本章概要 55
继续阅读 56

目录 IX
习题 56
参考文献 56

第 5章决策树 57

51决策树模型与学习 57

511决策树模型 57

512决策树与 if-then规则 58

513决策树与条件概率分布 58

514决策树学习 58

52特征选择 60

521特征选择问题 60

522信息增益 61

523信息增益比 64

53决策树的生成 64

531 ID3算法 65

532 C45的生成算法 66

54决策树的剪枝 66

55 CART算法 68

551 CART生成 69

552 CART剪枝 72
本章概要 74
继续阅读 75
习题 75
参考文献 75

第 6章逻辑斯谛回归与熵模型 77

61逻辑斯谛回归模型 77

611逻辑斯谛分布 77

612二项逻辑斯谛回归模型 78

613模型参数估计 79

614多项逻辑斯谛回归 79

62熵模型 80

621熵原理 80

622熵模型的定义 82

623熵模型的学习 83

624极大似然估计 86

63模型学习的化算法 87

631改进的迭代尺度法 87

632拟牛顿法 90

机器学习方法
本章概要 91
继续阅读 92
习题 92
参考文献 93

第 7章支持向量机 94

71线性可分支持向量机与硬间隔化 94

711线性可分支持向量机 94

712函数间隔和几何间隔 96

713间隔化 97

714学习的对偶算法 101

72线性支持向量机与软间隔化 106

721线性支持向量机 106

722学习的对偶算法 107

723支持向量 110

724合页损失函数 111

73非线性支持向量机与核函数 112

731核技巧 112

732正定核 115

733常用核函数 118

734非线性支持向量分类机 120

74序列小化算法 121

741两个变量二次规划的求解方法 122

742变量的选择方法 124

743 SMO算法 126
本章概要 127
继续阅读 129
习题 129
参考文献 129

第 8章 Boosting 131

81 AdaBoost算法 131

811 Boosting的基本思路 131

812 AdaBoost算法 132

813 AdaBoost的例子 134

82 AdaBoost算法的训练误差分析 135

83 AdaBoost算法的解释 137

831前向分步算法 137

832前向分步算法与 AdaBoost 138

目录 XI
84提升树 140

841提升树模型 140

842提升树算法 140

843梯度提升 144
本章概要 145
继续阅读 146
习题 146
参考文献 146

第 9章 EM算法及其推广 148

91 EM算法的引入 148

911 EM算法 148

912 EM算法的导出 151

913 EM算法在无监督学习中的应用 153

92 EM算法的收敛性 153

93 EM算法在高斯混合模型学习中的应用 154

931高斯混合模型 155

932高斯混合模型参数估计的 EM算法 155

94 EM算法的推广 158

941 F函数的极大-极大算法 158

942 GEM算法 160
本章概要 161
继续阅读 162
习题 162
参考文献 162

第 10章隐马尔可夫模型 163

101隐马尔可夫模型的基本概念 163

1011隐马尔可夫模型的定义 163

1012观测序列的生成过程 166

1013隐马尔可夫模型的 3个基本问题 166

102概率计算算法 166

1021直接计算法 166

1022前向算法 167

1023后向算法 169

1024一些概率与期望值的计算 170

103学习算法 172

1031监督学习方法 172

1032 Baum-Welch算法 172

XII机器学习方法
1033 Baum-Welch模型参数估计公式 174

104预测算法 175

1041近似算法 175

1042维特比算法 176
本章概要 179
继续阅读 179
习题 180
参考文献 180

第 11章条件随机场 181

111概率无向图模型 181

1111模型定义 181

1112概率无向图模型的因子分解 183

112条件随机场的定义与形式 184

1121条件随机场的定义 184

1122条件随机场的参数化形式 185

1123条件随机场的简化形式 186

1124条件随机场的矩阵形式 187

113条件随机场的概率计算问题 189

1131前向-后向算法 189

1132概率计算 189

1133期望值的计算 190

114条件随机场的学习算法 191

1141改进的迭代尺度法 191

1142拟牛顿法 194

115条件随机场的预测算法 195
本章概要 197
继续阅读 198
习题 198
参考文献 199

第 12章监督学习方法总结 200

第
2篇
无
监
督
学
习

无监学习
第 13章无监督学习概论 207

131无监督学习基本原理 207

132基本问题 208

133机器学习三要素 210

134无监督学习方法 210

目录 XIII
本章概要 214
继续阅读 215
参考文献 215

第 14章聚类方法 216

141聚类的基本概念 216

1411相似度或距离 216

1412类或簇 219

1413类与类之间的距离 220

142层次聚类 220

143 k均值聚类 222

1431模型 222

1432策略 223

1433算法 224

1434算法特性 225
本章概要 226
继续阅读 227
习题 227
参考文献 227

第 15章奇异值分解 229

151奇异值分解的定义与性质 229

1511定义与定理 229

1512紧奇异值分解与截断奇异值分解 233

1513几何解释 235

1514主要性质 237

152奇异值分解的计算 238

153奇异值分解与矩阵近似 241

1531弗罗贝尼乌斯范数 241

1532矩阵的近似 242

1533矩阵的外积展开式 245
本章概要 247
继续阅读 248
习题 248
参考文献 249

第 16章主成分分析 250

161总体主成分分析 250

1611基本想法 250

XIV机器学习方法
1612定义和导出 252

1613主要性质 253

1614主成分的个数 257

1615规范化变量的总体主成分 260

162样本主成分分析 260

1621样本主成分的定义和性质 261

1622相关矩阵的特征值分解算法 263

1623数据矩阵的奇异值分解算法 265
本章概要 267
继续阅读 269
习题 269
参考文献 269

第 17章潜在语义分析 271

171单词向量空间与话题向量空间 271

1711单词向量空间 271

1712话题向量空间 273

172潜在语义分析算法 276

1721矩阵奇异值分解算法 276

1722例子 278

173非负矩阵分解算法 279

1731非负矩阵分解 279

1732潜在语义分析模型 280

1733非负矩阵分解的形式化 280

1734算法 281
本章概要 283
继续阅读 284
习题 284
参考文献 285

第 18章概率潜在语义分析 286

181概率潜在语义分析模型 286

1811基本想法 286

1812生成模型 287

1813共现模型 288

1814模型性质 289

182概率潜在语义分析的算法 291
本章概要 293
继续阅读 294

目录 XV
习题 294
参考文献 295

第 19章马尔可夫链蒙特卡罗法 296

191蒙特卡罗法 296

1911随机抽样 296

1912数学期望估计 297

1913积分计算 298

192马尔可夫链 299

1921基本定义 299

1922离散状态马尔可夫链 300

1923连续状态马尔可夫链 305

1924马尔可夫链的性质 306

193马尔可夫链蒙特卡罗法 310

1931基本想法 310

1932基本步骤 311

1933马尔可夫链蒙特卡罗法与统计学习 311

194 Metropolis-Hastings算法 312

1941基本原理 312

1942 Metropolis-Hastings算法 315

1943单分量 Metropolis-Hastings算法 315

195吉布斯抽样 316

1951基本原理 316

1952吉布斯抽样算法 318

1953抽样计算 319
本章概要 320
继续阅读 321
习题 321
参考文献 322

第 20章潜在狄利克雷分配 324

201狄利克雷分布 324

2011分布定义 324

2012共轭先验 327

202潜在狄利克雷分配模型 328

2021基本想法 328

2022模型定义 329

2023概率图模型 331

2024随机变量序列的可交换性 332

XVI机器学习方法
2025概率公式 332

203 LDA的吉布斯抽样算法 333

2031基本想法 333

2032算法的主要部分 334

2033算法的后处理 336

2034算法 337

204 LDA的变分 EM算法 338

2041变分推理 338

2042变分 EM算法 339

2043算法推导 340

2044算法总结 346
本章概要 346
继续阅读 348
习题 348
参考文献 348

第 21章 PageRank算法 349

211 PageRank的定义 349

2111基本想法 349

2112有向图和随机游走模型 350

2113 PageRank的基本定义 352

2114 PageRank的一般定义 354

212 PageRank的计算 355

2121迭代算法 355

2122幂法 357

2123代数算法 361
本章概要 362
继续阅读 363
习题 363
参考文献 364

第 22章无监督学习方法总结 365

221无监督学习方法的关系和特点 365

2211各种方法之间的关系 365

2212无监督学习方法 366

2213基础机器学习方法 366

222话题模型之间的关系和特点 367
参考文献 368

目录 XVII
第
3篇
深
度
学
习

第 23章前馈神经网络 371

231前馈神经网络的模型 371

2311前馈神经网络定义 372

2312前馈神经网络的例子 381

2313前馈神经网络的表示能力 386

232前馈神经网络的学习算法 389

2321前馈神经网络学习 389

2322前馈神经网络学习的优化算法 391

2323反向传播算法 393

2324在计算图上的实现 397

2325算法的实现技巧 401

233前馈神经网络学习的正则化 406

2331深度学习中的正则化 406

2332早停法 406

2333暂退法 408
本章概要 410
继续阅读 413
习题 413
参考文献 414

第 24章卷积神经网络 415

241卷积神经网络的模型 415

2411背景 415

2412卷积 416

2413汇聚 424

2414卷积神经网络 427

2415卷积神经网络性质 430

242卷积神经网络的学习算法 432

2421卷积导数 432

2422反向传播算法 433

243图像分类中的应用 436

2431 AlexNet 436

2432残差网络 437
本章概要 441
继续阅读 443
习题 443
参考文献 445

XVIII机器学习方法
第 25章循环神经网络 447

251简单循环神经网络 447

2511模型 447

2512学习算法 450

252常用循环神经网络 454

2521长短期记忆网络 454

2522门控循环单元网络 457

2523深度循环神经网络 458

2524双向循环神经网络 459

253自然语言生成中的应用 460

2531词向量 460

2532语言模型与语言生成 463
本章概要 465
继续阅读 467
习题 467
参考文献 468

第 26章序列到序列模型 469

261序列到序列基本模型 469

2611序列到序列学习 469

2612基本模型 471

262 RNN Search模型 472

2621注意力 472

2622模型定义 474

2623模型特点 475

263 Transformer模型 475

2631模型架构 476

2632模型特点 482
本章概要 483
继续阅读 486
习题 486
参考文献 486

第 27章预训练语言模型 488

271 GPT模型 488

2711预训练语言模型 488

2712模型和学习 490

272 BERT模型 493

2721去噪自动编码器 493

2722模型和学习 495

目录 XIX
2723模型特点 499
本章概要 500
继续阅读 502
习题 502
参考文献 502

第 28章生成对抗网络 504

281 GAN基本模型 504

2811模型 504

2812学习算法 506

2813理论分析 507

282图像生成中的应用 508

2821转置卷积 509

2822 DCGAN 511
本章概要 513
继续阅读 514
习题 514
参考文献 515

第 29章深度学习方法总结 516

291深度学习的模型 516

292深度学习的方法 518

293深度学习的优化算法 520

294深度学习的优缺点 522
参考文献 523

附录 A梯度下降法 524

附录 B牛顿法和拟牛顿法 526

附录 C拉格朗日对偶性 531

附录 D矩阵的基本子空间 534

附录 E KL散度的定义和狄利克雷分布的性质 537

附录 F软化函数的偏导数和交叉熵损失函数的偏导数 539

索引 541

前　　言

2012年《统计学习方法 (第 1版)》出版，内容涵盖监督学习的主要方法， 2019年第 2版出版，增加了无监督学习的主要方法，都属于传统机器学习。在这段时间里，机器学习领域发生了巨大变化，深度学习在人工智能各个应用方向取得了巨大突破，成为机器学习的主流技术，彻底改变了机器学习的面貌。有些读者希望能看到与之前风格相同的讲解深度学习的书籍，这也触发了作者在原来《统计学习方法》的基础上增加深度学习内容的想法（计划今后再增加强化学习）。从 2018年开始，历时 3年左右，完成了深度学习的写作。
考虑到内容的变化，现将书名更改为《机器学习方法》。第 1篇监督学习和第 2篇无监督学习基本为原来的内容，增加第 3篇深度学习，希望对读者有所裨益。传统机器学习是深度学习的基础，所以将这些内容放在一本书里讲述也有其合理之处。虽然深度学习目前是大家关注的重点，但传统机器学习仍然有其不容忽视的地位。事实上，传统机器学习和深度学习各自有更适合的应用场景，比如，深度学习长于大数据、复杂问题的预测，特别是人工智能的应用；传统机器学习善于小数据、相对简单问题的预测。
本书的定位是讲解机器学习的基本内容，并不完全是入门书。介绍的内容都是基本的，在这种意义上适合初学者。但主旨是把重要的原理和方法做系统的总结，方便大家经常阅读和复习。在写第 3篇的时候也接受大家对第 1篇和第 2篇的反馈意见，在力求文字简练清晰的同时，也确保叙述的详尽明了，以方便读者理解。在各章方法的导入部分适当增加了背景和动机的介绍。
第 3篇中使用的数学符号与第 1篇和第 2篇有一定的对应关系，但由于深度学习的特点也有一些改变，也都能自成体系。将符号完全统一于一个框架内还需要做大量的工作，希望在增加第 4篇强化学习之后再做处理。
对第 3篇的原稿，郑诗源、张新松等帮助做了校阅，对一些章节的内容提出了宝贵的意见。责任编辑王倩也为本书的出版做了大量工作。在此对他们表示衷心的感谢。
李航
2021年 5月 27日

机器学习方法

作者:李航出版社:清华大学出版社出版时间:2022年03月

ISBN: 9787302597308

年中特卖用“SALE15”折扣卷全场书籍85折！可与三本88折，六本78折的优惠叠加计算！全球包邮!

描述

抢先评论了 “机器学习方法” 取消回复

评论

机器学习方法

作者:李航 出版社:清华大学出版社 出版时间:2022年03月

ISBN: 9787302597308

年中特卖用“SALE15”折扣卷全场书籍85折！可与三本88折，六本78折的优惠叠加计算！全球包邮!

描述

抢先评论了 “机器学习方法” 取消回复

评论

相关产品

探索式软件测试

About Face 4: 交互设计精髓

Python Cookbook（第3版）中文版

深入理解Nginx：模块开发与架构解析（第2版）

作者:李航出版社:清华大学出版社出版时间:2022年03月