描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111652335
内容简介
本书重点讲述用于预测性数据分析的*重要的机器学习方法,包括理论概念和实际应用。
目 录
译者序
前言
符号记法
第1章 面向预测数据分析的机器学习 1
1.1 什么是预测数据分析 1
1.2 什么是机器学习 2
1.3 机器学习的工作原理 4
1.4 机器学习会产生什么问题 7
1.5 预测数据分析项目的生命周期:CRISP-DM 9
1.6 预测数据分析工具 10
1.7 本书概览 11
1.8 习题 12
第2章 数据到见解再到决策 13
2.1 将商业问题转化为分析解决方案 13
2.2 可行性评估 14
2.3 设计分析基础表 16
2.4 特征的设计与实现 19
2.4.1 不同的数据类型 20
2.4.2 不同的特征类型 20
2.4.3 处理时间 21
2.4.4 法律问题 23
2.4.5 特征的实现 25
2.4.6 案例研究:汽车保险诈骗 25
2.5 总结 28
2.6 延伸阅读 28
2.7 习题 29
第3章 数据探索 31
3.1 数据质量报告 31
3.2 了解数据 35
3.2.1 正态分布 37
3.2.2 案例研究:汽车保险诈骗 38
3.3 找出数据质量问题 39
3.3.1 缺失值 39
3.3.2 异常基数 40
3.3.3 离群点 40
3.3.4 案例研究:汽车保险诈骗 41
3.4 处理数据质量问题 42
3.4.1 处理缺失值 43
3.4.2 处理离群点 43
3.4.3 案例研究:汽车保险诈骗 44
3.5 高阶数据探索 45
3.5.1 可视化特征之间的关系 45
3.5.2 度量协方差和相关性 52
3.6 数据准备 56
3.6.1 归一化 56
3.6.2 分箱 57
3.6.3 采样 60
3.7 总结 61
3.8 延伸阅读 62
3.9 习题 62
第4章 基于信息的学习 73
4.1 大思路 73
4.2 基础知识 75
4.2.1 决策树 75
4.2.2 香农熵模型 77
4.2.3 信息增益 80
4.3 标准方法:ID3算法 83
4.4 延伸与拓展 89
4.4.1 其他特征选取与纯度度量方法 89
4.4.2 处理连续描述性特征 92
4.4.3 预测连续目标 95
4.4.4 剪枝 98
4.4.5 模型组合 100
4.5 总结 103
4.6 延伸阅读 104
4.7 习题 104
第5章 基于相似性的学习 109
5.1 大思路 109
5.2 基本概念 110
5.2.1 特征空间 110
5.2.2 用距离度量测量相似性 111
5.3 标准方法:最近邻算法 113
5.4 延伸与拓展 116
5.4.1 处理嘈杂数据 116
5.4.2 高效内存搜索 118
5.4.3 数据归一化 124
5.4.4 预测连续目标 127
5.4.5 其他相似性测量 129
5.4.6 特征选取 136
5.5 总结 141
5.6 延伸阅读 143
5.7 后记 144
5.8 习题 144
第6章 基于概率的学习 149
6.1 大思路 149
6.2 基础知识 151
6.2.1 贝叶斯定理 152
6.2.2 贝叶斯预测 154
6.2.3 条件独立与因子化 157
6.3 标准方法:朴素贝叶斯模型 160
6.4 延伸与拓展 163
6.4.1 平滑 163
6.4.2 连续特征:概率密度函数 166
6.4.3 连续特征:分箱 174
6.4.4 贝叶斯网络 177
6.5 总结 187
6.6 延伸阅读 188
6.7 习题 188
第7章 基于误差的学习 192
7.1 大思路 192
7.2 基础知识 192
7.2.1 简单线性回归 193
7.2.2 测量误差 194
7.2.3 误差曲面 196
7.3 标准方法:使用梯度下降法的多变量线性回归 197
7.3.1 多变量线性回归 198
7.3.2 梯度下降法 198
7.3.3 选择学习率和初始权值 203
7.3.4 实用范例 204
7.4 延伸与拓展 206
7.4.1 解释多变量线性回归模型 206
7.4.2 用权值衰减设定学习率 208
7.4.3 处理类别描述性特征 209
7.4.4 处理类别目标特征:对数几率回归 210
7.4.5 建模非线性关系 219
7.4.6 多项对数几率回归 223
7.4.7 支持向量机 226
7.5 总结 229
7.6 延伸阅读 231
7.7 习题 231
第8章 评估 237
8.1 大思路 237
8.2 基础知识 238
8.3 标准方法:留出测试集上的误分类率 238
8.4 延伸与拓展 241
8.4.1 设计评估实验 241
8.4.2 性能度量:类别目标 246
8.4.3 性能度量:预测得分 252
8.4.4 性能度量:多项目标 264
8.4.5 性能度量:连续目标 265
8.4.6 评估部署后的模型 268
8.5 总结 273
8.6 延伸阅读 273
8.7 习题 274
第9章 案例研究:客户流失 278
9.1 商业理解 278
9.2 数据理解 280
9.3 数据准备 283
9.4 建模 286
9.5 评估 289
9.6 部署 290
第10章 案例研究:星系分类 292
10.1 商业理解 292
10.2 数据理解 294
10.3 数据准备 299
10.4 建模 303
10.4.1 基准模型 303
10.4.2 特征选取 305
10.4.3 5级别模型 306
10.5 评估 307
10.6 部署 308
第11章 面向预测数据分析的机器学习艺术 309
11.1 预测模型的不同视角 310
11.2 选择机器学习方法 313
11.2.1 将机器学习方法和项目匹配 315
11.2.2 将机器学习方法和数据匹配 315
11.3 总结 316
附录A 机器学习的描述性统计量与数据可视化 317
附录B 机器学习的概率论导论 326
附录C 机器学习中的求导方法 332
参考文献 336
索引 343
前言
符号记法
第1章 面向预测数据分析的机器学习 1
1.1 什么是预测数据分析 1
1.2 什么是机器学习 2
1.3 机器学习的工作原理 4
1.4 机器学习会产生什么问题 7
1.5 预测数据分析项目的生命周期:CRISP-DM 9
1.6 预测数据分析工具 10
1.7 本书概览 11
1.8 习题 12
第2章 数据到见解再到决策 13
2.1 将商业问题转化为分析解决方案 13
2.2 可行性评估 14
2.3 设计分析基础表 16
2.4 特征的设计与实现 19
2.4.1 不同的数据类型 20
2.4.2 不同的特征类型 20
2.4.3 处理时间 21
2.4.4 法律问题 23
2.4.5 特征的实现 25
2.4.6 案例研究:汽车保险诈骗 25
2.5 总结 28
2.6 延伸阅读 28
2.7 习题 29
第3章 数据探索 31
3.1 数据质量报告 31
3.2 了解数据 35
3.2.1 正态分布 37
3.2.2 案例研究:汽车保险诈骗 38
3.3 找出数据质量问题 39
3.3.1 缺失值 39
3.3.2 异常基数 40
3.3.3 离群点 40
3.3.4 案例研究:汽车保险诈骗 41
3.4 处理数据质量问题 42
3.4.1 处理缺失值 43
3.4.2 处理离群点 43
3.4.3 案例研究:汽车保险诈骗 44
3.5 高阶数据探索 45
3.5.1 可视化特征之间的关系 45
3.5.2 度量协方差和相关性 52
3.6 数据准备 56
3.6.1 归一化 56
3.6.2 分箱 57
3.6.3 采样 60
3.7 总结 61
3.8 延伸阅读 62
3.9 习题 62
第4章 基于信息的学习 73
4.1 大思路 73
4.2 基础知识 75
4.2.1 决策树 75
4.2.2 香农熵模型 77
4.2.3 信息增益 80
4.3 标准方法:ID3算法 83
4.4 延伸与拓展 89
4.4.1 其他特征选取与纯度度量方法 89
4.4.2 处理连续描述性特征 92
4.4.3 预测连续目标 95
4.4.4 剪枝 98
4.4.5 模型组合 100
4.5 总结 103
4.6 延伸阅读 104
4.7 习题 104
第5章 基于相似性的学习 109
5.1 大思路 109
5.2 基本概念 110
5.2.1 特征空间 110
5.2.2 用距离度量测量相似性 111
5.3 标准方法:最近邻算法 113
5.4 延伸与拓展 116
5.4.1 处理嘈杂数据 116
5.4.2 高效内存搜索 118
5.4.3 数据归一化 124
5.4.4 预测连续目标 127
5.4.5 其他相似性测量 129
5.4.6 特征选取 136
5.5 总结 141
5.6 延伸阅读 143
5.7 后记 144
5.8 习题 144
第6章 基于概率的学习 149
6.1 大思路 149
6.2 基础知识 151
6.2.1 贝叶斯定理 152
6.2.2 贝叶斯预测 154
6.2.3 条件独立与因子化 157
6.3 标准方法:朴素贝叶斯模型 160
6.4 延伸与拓展 163
6.4.1 平滑 163
6.4.2 连续特征:概率密度函数 166
6.4.3 连续特征:分箱 174
6.4.4 贝叶斯网络 177
6.5 总结 187
6.6 延伸阅读 188
6.7 习题 188
第7章 基于误差的学习 192
7.1 大思路 192
7.2 基础知识 192
7.2.1 简单线性回归 193
7.2.2 测量误差 194
7.2.3 误差曲面 196
7.3 标准方法:使用梯度下降法的多变量线性回归 197
7.3.1 多变量线性回归 198
7.3.2 梯度下降法 198
7.3.3 选择学习率和初始权值 203
7.3.4 实用范例 204
7.4 延伸与拓展 206
7.4.1 解释多变量线性回归模型 206
7.4.2 用权值衰减设定学习率 208
7.4.3 处理类别描述性特征 209
7.4.4 处理类别目标特征:对数几率回归 210
7.4.5 建模非线性关系 219
7.4.6 多项对数几率回归 223
7.4.7 支持向量机 226
7.5 总结 229
7.6 延伸阅读 231
7.7 习题 231
第8章 评估 237
8.1 大思路 237
8.2 基础知识 238
8.3 标准方法:留出测试集上的误分类率 238
8.4 延伸与拓展 241
8.4.1 设计评估实验 241
8.4.2 性能度量:类别目标 246
8.4.3 性能度量:预测得分 252
8.4.4 性能度量:多项目标 264
8.4.5 性能度量:连续目标 265
8.4.6 评估部署后的模型 268
8.5 总结 273
8.6 延伸阅读 273
8.7 习题 274
第9章 案例研究:客户流失 278
9.1 商业理解 278
9.2 数据理解 280
9.3 数据准备 283
9.4 建模 286
9.5 评估 289
9.6 部署 290
第10章 案例研究:星系分类 292
10.1 商业理解 292
10.2 数据理解 294
10.3 数据准备 299
10.4 建模 303
10.4.1 基准模型 303
10.4.2 特征选取 305
10.4.3 5级别模型 306
10.5 评估 307
10.6 部署 308
第11章 面向预测数据分析的机器学习艺术 309
11.1 预测模型的不同视角 310
11.2 选择机器学习方法 313
11.2.1 将机器学习方法和项目匹配 315
11.2.2 将机器学习方法和数据匹配 315
11.3 总结 316
附录A 机器学习的描述性统计量与数据可视化 317
附录B 机器学习的概率论导论 326
附录C 机器学习中的求导方法 332
参考文献 336
索引 343
前 言
本书的目的是呈现一个通俗易懂的、引导性的机器学习基础资料,并说明在实践中是如何利用机器学习解决商业、科学以及其他组织环境的预测数据分析问题的。因此,本书不仅讨论一般机器学习书籍所涵盖的内容,也讨论预测分析项目的生命周期、数据准备、特征设计和模型部署。
本书可作为计算机科学、自然与社会科学、工程以及商学专业本科生和研究生的机器学习、数据挖掘、数据分析或人工智能课程的教材。书中的案例研究展示了机器学习在工业领域的数据分析方面的应用,因此本书也可以作为从业者的参考材料,还可用作工业界的培训教材。
本书基于我们多年教授机器学习的经验编写而成,书中的方法和素材源于课堂,并经过了实践检验。在撰写本书的过程中,为使这些素材更易于理解,我们采用了如下指导原则:
将最重要且最常用的算法解释清楚,而不是笼统地囊括机器学习的所有方面。作为教师,我们认为让学生深入理解一个领域的核心和基础概念能够为他们打下坚实的基础,如此学生才能够独立地探索这个领域。这种见微知著的方法使我们能够用更多的篇幅去介绍、解释、阐明和情境化那些较为基础和实用的算法。
在从技术上正式地描述算法的原理之前,先通俗地解释算法的意图。对每个主题进行通俗的介绍,可以使学生在学习更为技术性的内容之前打下坚实的基础。我们针对本科生、研究生和专业人士等的教学经验表明,这些通俗的介绍能使学生轻松地理解主题。
提供完整的实用范例。在本书中,我们展示了所有范例的完整运作方式,这样能使读者检查自己的理解程度。
本书结构
在教授一个技术主题时,展示其实际应用是非常重要的。为此,我们在预测数据分析这一重要且处于成长期的工业界机器学习应用情境下展现机器学习。机器学习与数据分析的联系贯穿本书的每一章。在第1章中,介绍机器学习,并解释机器学习在标准的数据分析项目的生命周期中所扮演的角色。在第2章,呈现一个设计和构建预测分析解决方案的框架,该框架基于机器学习且能够满足商业需要。所有机器学习算法都假设存在一个可供训练的数据集。因此,第3章阐释在预先建好的预测模型上使用数据集前如何对数据集进行设计、构建和质量检查。
第4~7章是本书的主要机器学习章节,每一章都展示了不同的机器学习方法:第4章为通过搜集信息来学习;第5章为通过类比来学习;第6章为通过预测可能的结果来学习;第7章为通过搜索误差最小的解来学习。这些章节都分为如下两部分:
第一部分首先对该章内容进行通俗的介绍,紧接着详细地阐释理解这些内容所需的技术概念,然后展示使用该学习方法的一个标准机器学习算法以及详细的实用范例。
第二部分阐释该标准机器学习算法的各种拓展方法,以及所延伸出的著名的变种算法。
将这些章节分为两部分的目的在于自然地将该章内容分节。由此,一节课就可以涵盖每章的第一部分(大思路、基础知识、标准方法),即一个主题。接着——如果时间允许的话——课程的主题可以延伸至第二部分的全部或部分内容。第8章阐述如何评估预测模型的性能,并展示了一系列不同的评估指标。该章也由标准方法以及延伸与拓展这两部分组成。在所有技术章节中,更为广泛的预测分析场景持续地穿插于翔实、完整的实际范例中,并且给出了范例所基于的数据集和论文的引用来源。
第9和10章的案例研究(客户流失、星系分类)清晰地展现了广泛的商业情境与机器学习之间的联系,尤其强调许多超越建模的问题和任务(比如商业理解、问题定义、数据收集和准备,以及对见解进行交流)对预测分析项目的重要性。最后,第11章讨论机器学习中一系列基础性的话题,并强调了针对给定问题选择合适的机器学习方法不仅涉及关于模型精确度的因素,而且必须将模型的特性与商业需求进行匹配。
如何使用本书
多年的教学工作,使我们对适用于一学期的导论课程和适用于两学期的高阶课程所需的教学内容有了清晰的认识。为使本书适用于上述两种不同的教学情境,本书的内容是模块化的,各章之间没有太多依赖关系。因此,教师在使用本书时只需选择自己想要讲授的部分,而不需要担心这些部分之间的依赖关系。讲课时,第1、2、9~11章的内容通常需要2~3课时,而第3~8章的内容则通常需要4~6课时。
我们在表1中列出了针对不同情况的建议授课计划。所有课程都包含第1章(面向预测数据分析的机器学习)和第11章(面向预测数据分析的机器学习艺术)。列出的第一门课程M.L.(短,深入)设计为一学期机器学习课程,这门课程侧重于让学生深入理解两个机器学习方法,以及了解在评估一个机器学习模型时所应使用的正确方法。在建议的课程中,我们决定纳入全部第4章(基于信息的学习)的内容,以及第7章(基于误差的学习)的内容。但这些内容也可被第5章(基于相似性的学习)和/或第6章(基于概率的学习)取代。M.L. (短,深入)也是短期(一周)专业人员培训的理想课程。第二门课程M.L.(短,广泛)则是另一种一学期机器学习课程,这门课程侧重于涵盖一系列机器学习方法,并且包括了详细的评估方法。对于长达两学期的机器学习课程M.L.(长)来说,我们建议讲授数据准备(3.6节)、所有的
本书可作为计算机科学、自然与社会科学、工程以及商学专业本科生和研究生的机器学习、数据挖掘、数据分析或人工智能课程的教材。书中的案例研究展示了机器学习在工业领域的数据分析方面的应用,因此本书也可以作为从业者的参考材料,还可用作工业界的培训教材。
本书基于我们多年教授机器学习的经验编写而成,书中的方法和素材源于课堂,并经过了实践检验。在撰写本书的过程中,为使这些素材更易于理解,我们采用了如下指导原则:
将最重要且最常用的算法解释清楚,而不是笼统地囊括机器学习的所有方面。作为教师,我们认为让学生深入理解一个领域的核心和基础概念能够为他们打下坚实的基础,如此学生才能够独立地探索这个领域。这种见微知著的方法使我们能够用更多的篇幅去介绍、解释、阐明和情境化那些较为基础和实用的算法。
在从技术上正式地描述算法的原理之前,先通俗地解释算法的意图。对每个主题进行通俗的介绍,可以使学生在学习更为技术性的内容之前打下坚实的基础。我们针对本科生、研究生和专业人士等的教学经验表明,这些通俗的介绍能使学生轻松地理解主题。
提供完整的实用范例。在本书中,我们展示了所有范例的完整运作方式,这样能使读者检查自己的理解程度。
本书结构
在教授一个技术主题时,展示其实际应用是非常重要的。为此,我们在预测数据分析这一重要且处于成长期的工业界机器学习应用情境下展现机器学习。机器学习与数据分析的联系贯穿本书的每一章。在第1章中,介绍机器学习,并解释机器学习在标准的数据分析项目的生命周期中所扮演的角色。在第2章,呈现一个设计和构建预测分析解决方案的框架,该框架基于机器学习且能够满足商业需要。所有机器学习算法都假设存在一个可供训练的数据集。因此,第3章阐释在预先建好的预测模型上使用数据集前如何对数据集进行设计、构建和质量检查。
第4~7章是本书的主要机器学习章节,每一章都展示了不同的机器学习方法:第4章为通过搜集信息来学习;第5章为通过类比来学习;第6章为通过预测可能的结果来学习;第7章为通过搜索误差最小的解来学习。这些章节都分为如下两部分:
第一部分首先对该章内容进行通俗的介绍,紧接着详细地阐释理解这些内容所需的技术概念,然后展示使用该学习方法的一个标准机器学习算法以及详细的实用范例。
第二部分阐释该标准机器学习算法的各种拓展方法,以及所延伸出的著名的变种算法。
将这些章节分为两部分的目的在于自然地将该章内容分节。由此,一节课就可以涵盖每章的第一部分(大思路、基础知识、标准方法),即一个主题。接着——如果时间允许的话——课程的主题可以延伸至第二部分的全部或部分内容。第8章阐述如何评估预测模型的性能,并展示了一系列不同的评估指标。该章也由标准方法以及延伸与拓展这两部分组成。在所有技术章节中,更为广泛的预测分析场景持续地穿插于翔实、完整的实际范例中,并且给出了范例所基于的数据集和论文的引用来源。
第9和10章的案例研究(客户流失、星系分类)清晰地展现了广泛的商业情境与机器学习之间的联系,尤其强调许多超越建模的问题和任务(比如商业理解、问题定义、数据收集和准备,以及对见解进行交流)对预测分析项目的重要性。最后,第11章讨论机器学习中一系列基础性的话题,并强调了针对给定问题选择合适的机器学习方法不仅涉及关于模型精确度的因素,而且必须将模型的特性与商业需求进行匹配。
如何使用本书
多年的教学工作,使我们对适用于一学期的导论课程和适用于两学期的高阶课程所需的教学内容有了清晰的认识。为使本书适用于上述两种不同的教学情境,本书的内容是模块化的,各章之间没有太多依赖关系。因此,教师在使用本书时只需选择自己想要讲授的部分,而不需要担心这些部分之间的依赖关系。讲课时,第1、2、9~11章的内容通常需要2~3课时,而第3~8章的内容则通常需要4~6课时。
我们在表1中列出了针对不同情况的建议授课计划。所有课程都包含第1章(面向预测数据分析的机器学习)和第11章(面向预测数据分析的机器学习艺术)。列出的第一门课程M.L.(短,深入)设计为一学期机器学习课程,这门课程侧重于让学生深入理解两个机器学习方法,以及了解在评估一个机器学习模型时所应使用的正确方法。在建议的课程中,我们决定纳入全部第4章(基于信息的学习)的内容,以及第7章(基于误差的学习)的内容。但这些内容也可被第5章(基于相似性的学习)和/或第6章(基于概率的学习)取代。M.L. (短,深入)也是短期(一周)专业人员培训的理想课程。第二门课程M.L.(短,广泛)则是另一种一学期机器学习课程,这门课程侧重于涵盖一系列机器学习方法,并且包括了详细的评估方法。对于长达两学期的机器学习课程M.L.(长)来说,我们建议讲授数据准备(3.6节)、所有的
评论
还没有评论。