描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302531104丛书名: 大数据应用与技术丛书
《数据科学实用算法》将重点讲述数据分析的基石——算法。要成为一名数据分析专家,你必须了解算法原理,否则会产生挫败感、进入死胡同、浪费时间以及失败。本书将基本原理、算法和数据融为一体,提供大量Python和R代码,执行真实的数据分析,帮助你熟练编写程序,处理富有挑战性的数据。在学习过程中,你将沉浸在Python中,深入了解数据科学的基本算法和方法,获得根据新问题改编算法和进行创新分析的能力。
《数据科学实用算法》面向数学、统计学和计算机科学专业的高年级本科生和研究生,可用作一学期或两学期的数据分析课本。先修科目要求不高,学过一两门概率论或统计学课程、接触过向量和矩阵、学过编程课程的学生不会遇到任何困难。每章结尾处通常进行扩展,介绍数据科学从业者感兴趣的创新内容,提供不同难度的练习。本书也非常适合自学,可作为从业人员的参考书籍。
《数据科学实用算法》分为三部分。
第I部分“数据约简”首先讨论数据约简和数据映射等概念,然后讲述关联统计、可扩展算法和分布式计算等基础知识。
第II部分“从数据中提取信息”呈现线性回归、数据可视化和聚类分析等主题,用一章的篇幅介绍医疗分析的关键领域。
第III部分“预测分析”通过开发两个基本且广泛使用的预测函数(k近邻和朴素贝叶斯)向读者介绍预测分析技术,用一章的篇幅专门论述预报,*后一章重点介绍数据流。
第I部分 数据约简
第1 章 数据科学概述 3
1.1 什么是数据科学? 3
1.2 美国的糖尿病数据 5
1.3 《联邦党人文集》的作者数据 6
1.4 预测纳斯达克股价 8
1.5 述评 9
1.6 关于本书 10
1.7 算法 12
1.8 Python语言 13
1.9 R语言 13
1.10 术语和符号 14
1.11 本书网站 16
第2 章 数据映射和数据字典 17
2.1 数据约简 17
2.2 政治捐款 18
2.3 字典 19
2.4 教程:大金主 20
2.5 数据约简 24
2.5.1 符号和术语 24
2.5.2 政治捐款示例 25
2.5.3 映射 26
2.6 教程:选举周期捐款 27
2.7 相似度度量 33
2.8 教程:计算相似度 37
2.9 关于字典的总结性述评 41
2.10 练习 41
2.10.1 概念练习 41
2.10.2 计算练习 42
第3 章 可扩展算法和联合统计 45
3.1 引言 45
3.2 示例:美国的肥胖症数据 46
3.3 关联统计数据 47
3.4 单变量观测 48
3.4.1 直方图 50
3.4.2 直方图的构建 51
3.5 函数 52
3.6 教程:直方图的构建 53
3.7 多变量数据 65
3.7.1 符号和术语 65
3.7.2 估计量 66
3.7.3 增广“矩”矩阵 69
3.7.4 述评 70
3.8 教程:计算相关矩阵 70
3.9 线性回归简介 77
3.9.1 线性回归模型 77
3.9.2 β的估计值 78
3.9.3 准确性评估 81
3.9.4 计算 82
3.10 教程:计算 83
3.11 练习 89
3.11.1 概念练习 89
3.12.2 计算练习 90
第4 章 Hadoop和MapReduce 93
4.1 引言 93
4.2 Hadoop生态系统 94
4.2.1 Hadoop分布式文件系统 94
4.2.2 MapReduce 95
4.2.3 映射 96
4.2.4 约简 97
4.3 开发Hadoop应用程序 98
4.4 医疗保险支付 98
4.5 命令行环境 99
4.6 教程:编程实现MapReduce算法 100
4.6.1 映射器 102
4.6.2 约简器 105
4.6.3 概要 108
4.7 教程:使用亚马逊网络服务 109
4.8 练习 113
4.8.1 概念练习 113
4.8.2 计算练习 113
第II部分 从数据中提取信息
第5 章 数据可视化 117
5.1 引言 117
5.2 数据可视化的原则 118
5.3 做出正确选择 121
5.3.1 单变量数据 122
5.3.2 双变量和多变量数据 125
5.4 利用好这台机器 132
5.4.1 绘制图5.2 134
5.4.2 绘制图5.3 135
5.4.3 绘制图5.4 136
5.4.4 绘制图5.5 136
5.4.5 绘制图5.8 138
5.4.6 绘制图5.10 139
5.4.7 绘制图5.11 140
5.5 练习 141
第6 章 线性回归方法 143
6.1 引言 143
6.2 线性回归模型 144
6.2.1 示例:抑郁症、宿命论和简单化 145
6.2.2 最小二乘法 147
6.2.3 置信区间 149
6.2.4 分布条件 150
6.2.5 假设检验 151
6.2.6 警示语 154
6.3 R语言简介 155
6.4 教程:R语言 156
6.5 教程:大数据集和R语言 159
6.6 因子 164
6.6.1 交互 166
6.6.2 扩展平方和F检验 168
6.7 教程:共享单车 171
6.8 残差分析 175
6.8.1 线性 176
6.8.2 示例:共享单车问题 177
6.8.3 独立性 179
6.9 教程:残差分析 182
6.10 练习 185
6.10.1 概念练习 185
6.10.2 计算练习 185
第7 章 医疗分析 189
7.1 引言 189
7.2 行为风险因素监测系统 190
7.2.1 患病率的估计 192
7.2.2 发病率的估计 193
7.3 教程:糖尿病的患病率和发病率 194
7.4 预测具有患病风险的个人 203
7.5 教程:确认具有患病风险的个体 208
7.6 非寻常的人口特征 213
7.7 教程:构建近邻集合 215
7.8 练习 219
7.8.1 概念练习 219
7.8.2 计算练习 220
第8 章 聚类分析 223
8.1 引言 223
8.2 凝聚层次聚类 224
8.3 各州间的对比 225
8.4 教程:各州的层次聚类 228
8.5 k均值算法 235
8.6 教程:k均值算法 236
8.7 练习 242
8.7.1 概念练习 242
8.7.2 计算练习 242
第III部分 预测分析
第9 章 k近邻预测函数 247
9.1 引言 247
9.2 符号和术语 249
9.3 距离度量 251
9.4 k近邻预测函数 252
9.5 指数加权k近邻 253
9.6 教程:数字识别 255
9.7 准确性估计 262
9.8 k近邻回归 264
9.9 预测标准普尔500指数 265
9.10 教程:利用模式回归进行预测 266
9.11 交叉验证 273
9.12 练习 275
9.12.1 概念练习 275
9.12.2 计算练习 275
第10 章 多项式朴素贝叶斯预测函数 279
10.1 引言 279
10.2 联邦党人文集 280
10.3 多项式朴素贝叶斯预测函数 281
10.4 教程:约简《联邦党人文集》 285
10.5 教程:预测有争议的《联邦党人文集》的作者 291
10.6 教程:客户细分 294
10.6.1 加法平滑 295
10.6.2 数据 296
10.6.3 述评 303
10.7 练习 303
10.7.1 概念练习 303
10.7.2 计算练习 304
第11 章 预报 307
11.1 引言 307
11.2 教程:处理时间 309
11.3 分析方法 313
11.3.1 符号 313
11.3.2 均值和方差的估计 313
11.3.3 指数预报 315
11.3.4 自相关 316
11.4 教程:计算 318
11.5 漂移和预报 322
11.6 Holt-Winters指数型预报 323
11.7 教程:Holt-Winters预报 326
11.8 基于回归的股价预报 330
11.9 教程:基于回归的预报 331
11.10 时变回归预报器 336
11.11 教程:时变回归预报器 337
11.12 练习 339
11.12.1 概念练习 339
11.12.2 计算练习 339
第12 章 实时分析 343
12.1 引言 343
12.2 用纳斯达克报价数据流进行预报 344
12.3 教程:预报Apple公司信息流 346
12.4 Twitter信息流API 351
12.5 教程:访问Twitter数据流 352
12.6 情感分析 357
12.7 教程:主题标签分组的情感分析 358
12.8 练习 360
附录 A 练习答案 363
附录 B 使用Twitter API 377
参考文献 379
前言
自2001年以来,数据科学被公认为一门科学。其根源在于技术的进步产生了几乎不可思议的海量数据。我们已经意识到,新数据的产生速度在一段时间内不太可能放缓,我们需要研究产生这些数据的系统和过程。原始数据的价值较小;矛盾的是,此类数据越多,价值越低。必须对其进行约简,以便从中提取真正有用的价值。从数据中提取信息是数据科学的主题。
成为一名成功的数据科学实践者是一项真正的挑战。所学的知识包含统计学、计算机科学乃至数学等多领域的主题。此外,特定领域的知识也非常有用,即使这些知识未必是关键知识。为这些领域培养学生是非常有必要的。但某些时候,这些学科领域需要作为连贯的一揽子方案汇集在一起,成为一门课程——数据科学(data science)。一个未学习数据科学课程的学生就没有为实践数据科学做好充分准备。《数据科学实用算法》作为一门课程的主干,介绍了主要的学科领域。
我们已注意到雇主对初级数据科学家的需求,以及这些新数据科学家所缺乏的技能。其中最缺乏的是编程能力。从教育者的角度看,我们要讲授原则和理论,让学生自行学习所需的具体知识。我们不可能教给他们职业生涯中所需的一切知识,即使是短期内的也不可能。但教学原则和基础是为独立学习做好充分准备。
《数据科学实用算法》要研究数据约简原理,分析数据科学中的核心算法。了解基本原理对于适应现有算法和创建新算法至关重要。《数据科学实用算法》为读者提供了许多提高编程技能的机会。每个详细讨论的算法都有一个指南,引导读者通过Python或R实现算法,然后将算法应用于真实的数据集。为便于描述,我们自编的编码命令清除了一些重要的预测分析算法。
《数据科学实用算法》主要针对两类读者。第一类读者是数据科学、统计学、数学和计算机科学相关领域的实践者。如果这些读者有兴趣提高分析能力(也许他们的目标是成为一名数据科学家),那么他们就会阅读《数据科学实用算法》。第二类读者是数据科学、商业分析、数学、统计和计算机科学的高年级本科生和研究生,这些读者将参加数据分析课程或自学课程的学习。
根据读者水平的不同,《数据科学实用算法》可用于一到两个学期的数据分析课程。如果用于一学期的课程,那么教师可采用多种方式选择课程内容。所有方式都要选择第1章和第2章,以便牢固树立数据约简和数据字典的概念。
(1) 如果教学重点是计算,那么务必学习第3章、第4章和第12章。第3章和第4章讨论用于大规模数据和分布式计算的方法。第12章是关于流数据的,所以这一章是结束课程的好选择。第7章介绍“医疗分析”,这一章是可选的,可在时间允许的情况下讲授;该章涉及较多具有挑战性的数据集,这些数据集为学生和教师提供了许多接触有趣项目的机会。
(2) 面向一般分析方法的课程可跳过第3章和第4章,而选择讲授第5章 (数据可视化)和第6章 (线性回归方法)。最后选择第9章(k近邻预测函数)以及第11章(预报)。
(3) 面向预测分析的课程将侧重于第9章和第10章(多项式朴素贝叶斯预测函数)。最后选择第11章(预报)和第12章(实时分析)。
本书内容丰富,编排精当,精彩讲解数据科学中使用的实用算法。介绍每种算法时,首先讲述基础概念,然后给出详明教程,其中包含实际数据集以及丰富的Python或R示例代码。每章末尾附有针对性极强的“概念练习”和“计算练习”,以便读者进一步巩固所学的知识。本书是数据科学从业人员的良师益友,也是数学、统计学和计算机科学专业的研究生和高年级本科生的优秀教材。
——Xiannong Meng, Computing Reviews
本书浓墨重彩地描述数据分析技术,全面系统地探讨数据科学基本原理、算法以及在多个领域的应用。本书由三位数据科学家联袂撰写,将枯燥的理论知识讲得生动有趣,为我们打开了数据科学的大门,让我们有机会接触到这个时下*热门、*发展潜力的领域。阅读本书后,读者将能根据具体问题调整算法,并实施具有创新意义的分析。本书既可作为教材,也是从业者案头必备的宝贵资料。
——Krzysztof J. Szajowski, zbMATH
评论
还没有评论。