描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787113251673丛书名: 高等学校大数据技术与应用规划教材
第 1 章
数据挖掘概述 …………………. 1
1.1 什么是数据挖掘
…………………. 1
1.1.1 数据、信息和知识 …….. 1
1.1.2 数据挖掘的定义 …………
2
1.1.3 数据挖掘的发展简史 …. 3
1.2 数据挖掘的基本流程
及方法概述 ……………………….. 4
1.2.1 数据挖掘的基本流程 …. 4
1.2.2 数据挖掘的任务
和方法概述 ………………. 6
1.3 数据挖掘的应用
…………………. 9
1.3.1 数据挖掘在商务
领域的应用 ………………. 9
1.3.2 数据挖掘在医疗
和医学领域的应用 …… 10
1.3.3 数据挖掘在银行
和保险领域的应用 …… 10
1.3.4 数据挖掘在社交
媒体领域的应用 ……… 11
习题 ……………………………………….. 11
第 2 章
数据的描述与可视化………. 12
2.1 概述
……………………………….. 12
2.2 数据对象与属性类型………….
12
2.2.1 什么是属性
…………….. 12
2.2.2 标称属性
………………… 12
2.2.3 二元属性
………………… 13
2.2.4 序数属性
………………… 13
2.2.5 数值属性
………………… 14
2.2.6 离散属性与连续
属性 ………………………. 14
2.3 数据的基本统计描述
………… 15
2.3.1 中心趋势度量 ………….
15
2.3.2 度量数据散布:极差、
四分位数、方差、
标准差和四分位数
极差 ………………………. 17
2.3.3 数据基本统计的
图形描述 ……………….. 19
2.4 数据可视化
……………………… 23
2.4.1 基于像素的可视化 …… 23
2.4.2 几何投影可视化………. 25
2.4.3 基于图符的可视化 …… 27
2.4.4 层次可视化
…………….. 28
2.4.5 可视化复杂对象和
关系 ………………………. 30
2.5 数据相似性和相异性度量 ….. 32
2.5.1 数据矩阵与相异性
矩阵 ………………………. 32
2.5.2 标称属性的邻近性
度量 ………………………. 33
2.5.3 二元属性的邻近性
度量 ………………………. 34
2.5.4 数值属性的相异性:
闵可夫斯基距离 ……… 36
2.5.5 序数属性的邻近性
度量 ………………………. 37
2.5.6 混合类型属性的
相异性 …………………… 38
2.5.7 余弦相似性
…………….. 40
习题……………………………………….. 40
第 3 章
数据的采集和预处理 ………. 42
3.1 概述
……………………………….. 42
3.1.1 大数据采集的特点 …… 42数据挖掘
2
3.1.2 大数据采集的方法 …… 43
3.2 数据预处理的目的和任务 ….. 44
3.3 数据清洗
…………………………. 45
3.3.1 缺失值清洗
…………….. 46
3.3.2 异常值清洗
…………….. 48
3.3.3 格式内容清洗 ………….
50
3.3.4 逻辑错误清洗 ………….
50
3.3.5 非需求数据清洗 ………. 51
3.3.6 关联性验证
…………….. 51
3.4 数据集成
…………………………. 52
3.5 数据变换 ………………………….
53
习题 ……………………………………….. 56
第 4 章
数据的归约…………………… 57
4.1 概述
……………………………….. 57
4.2 属性的选择与数值归约 ………
57
4.2.1 属性的评估准则 ………. 58
4.2.2 属性子集选择方法 …… 59
4.2.3 数值归约
………………… 60
4.3 线性回归
…………………………. 61
4.4 主成分分析
……………………… 63
习题 ……………………………………….. 66
第 5 章
关联规则挖掘 ……………….. 67
5.1 概述
……………………………….. 67
5.2 关联规则的分类
……………….. 68
5.3 关联规则的研究步骤………….
68
5.3.1 关联规则挖掘算法的
分类 ………………………. 69
5.3.2 各种算法类型的
对比 ………………………. 70
5.4 Apriori 算法分析
………………. 70
5.5 实例分析
…………………………. 70
5.6 关联规则的推广(GRI) …… 72
5.7 关联规则的深入挖掘………….
74
习题 ……………………………………….. 75
第 6 章
分类与预测…………………… 76
6.1 概述
……………………………….. 76
6.1.1 基本概念
………………… 76
6.1.2 数据分类的
一般方法 ……………….. 77
6.2 决策树模型
……………………… 77
6.2.1 决策树的工作原理 …… 78
6.2.2 决策树的适用问题 …… 78
6.2.3 ID3 算法
………………… 79
6.2.4 决策树的结点划分 …… 80
6.3 贝叶斯分类模型
……………….. 81
6.3.1 贝叶斯定理
…………….. 81
6.3.2 贝叶斯模型的特点 …… 82
6.4 线性判别模型
………………….. 82
6.5 逻辑回归模型
………………….. 83
6.5.1 逻辑回归模型
概述 ………………………. 83
6.5.2 逻辑回归模型的
基本概念 ……………….. 83
6.6 模型的评估与选择
……………. 85
6.6.1 评估分类器性能的
度量 ………………………. 85
6.6.2 保持方法和随机
二次抽样 ……………….. 90
6.6.3 交叉验证
………………… 90
6.6.4 自助法
…………………… 91
6.6.5 使用统计显著性检验
选择模型 ……………….. 91
习题……………………………………….. 93
第 7 章
非线性预测模型 …………….. 94
7.1 概述
……………………………….. 94
7.2 支持向量机
……………………… 94
7.2.1 支持向量机分类
原理 ………………………. 95
7.2.2 非线性支持向量机 …… 99
7.2.3 支持向量机回归
预测 …………………….. 102
7.2.4 基于支持向量机的
预测分析 ……………… 106
7.3 神经网络
……………………….. 108
7.3.1 人工神经网络模型
与分类 …………………. 108
7.3.2 BP 神经网络 ………….
112目 录
3
7.3.3 RBF 神经网络 ……….. 117
7.3.4 基于神经网络的
预测分析………………. 121
习题 ……………………………………… 124
第 8 章
聚类分析 ……………………. 125
8.1 概述
……………………………… 125
8.2 k-均值聚类
……………………. 126
8.3 k-中心聚类
……………………. 129
8.4 聚类评估
……………………….. 130
8.4.1 外部法
…………………. 130
8.4.2 内部法
…………………. 131
8.4.3 可视化方法 ……………
131
习题 ……………………………………… 131
第 9 章
深度学习简介 ……………… 133
9.1 概述
……………………………… 133
9.2 来自人类视觉机理的启发 … 134
9.3 深层神经网络………………….
136
9.4 卷积神经网络………………….
137
9.4.1 卷积和池化 ……………
138
9.4.2 CNN 网络框架 ………. 141
9.4.3 CNN 的应用 …………..
142
9.5 RNN 循环神经网络 ………….
144
9.5.1 RNN 的结构 …………..
145
9.5.2 RNN 的缺陷 …………..
146
9.5.3 RNN 的应用 …………..
147
9.6 生成对抗网络
………………… 147
9.6.1 GAN 的原理与架构 .. 148
9.6.2 GAN 的应用 …………..
150
习题……………………………………… 151
第 10 章
使用 Weka 进行
数据挖掘 ………………….. 153
10.1 概述
……………………………. 153
10.2 Weka 关联数据挖掘的
基本操作 ……………………… 153
10.3 数据格式
……………………… 158
10.4 关联规则挖掘
………………. 160
10.5 分类与回归
………………….. 163
10.6 聚类分析
……………………… 166
习题……………………………………… 167
附录 A 拉格朗日优化法 …………… 169
参考文献…………………………………. 177
随着信息技术的普及和应用,各行各业产生了大量的数据,人们持续不断地探索
处理这些数据的方法,以期大程度地从中挖掘有用信息,面对如潮水般不断增加的
数据,人们不再满足于数据的查询和统计分析,而是期望从数据中提取信息或者知识
为决策服务。数据挖掘技术突破数据分析技术的种种局限,结合统计学、数据库、机
器学习等技术解决从数据中发现新的信息并辅助决策这一难题,是正在飞速发展的前
沿学科。近年来,随着*“新工科”建设的不断推进,大数据技术受到广泛的关
注,数据挖掘作为大数据技术的重要实现手段,能够挖掘数据的关联规则,实现数据
的分类、聚类、异常检测和时间序列分析等,解决商务管理、生产控制、市场分析、
工程设计和科学探索等各行各业中的数据分析与信息挖掘问题。
截至 2018 年本书出版,共有 283 所高校获批“数据科学与大数据技术”专业,
其中 985 及 211 高校占比为 13%。目前国内数据人才缺口更是达到百万级。数据科学
是一门交叉学科,除了计算机相关知识,还需要统计和数学基础,以及业务应用能力。
目前,
数据科学与大数据逐渐成为高校信息类、
管理类和数学统计类专业的必修课程,
同时,作为面向各专业的通识课也广受欢迎。
本书作为立足于应用型本科数据科学与大数据教学的入门级教材,具有如下特色:
(1)内容安排合理且全面,从数据的预处理到常用数据挖掘算法的描述,循序渐
进,深入浅出。
(2)难度适中,适用于本科中低年级的入门级教材,零基础要求,对编程及数学
知识不作要求。
(3)融入了大量本领域的前沿知识与方法,如包括基于 GAN 网络的深度学习的
新进展。
(4)理论与案例相结合,理论与实践相结合,包含了 Weka 工具的使用。特别地
在第 10 章还给出了完整的数据挖掘应用案例,使读者能够在数据挖掘平台上感受完
整的数据分析过程。
本书全面介绍了数据挖掘的基础知识、
基本原理、 常用算法以及相应的实践工具,
主要内容分为以下四块内容:
(1)数据挖掘基本知识。第 1 章为数据挖掘概述,主要介绍数据挖掘的基本概念、
基本流程及算法等。第 2 章介绍数据的描述与可视化,包括数据按属性分类、数据的
基本统计描述、数据的相似性度量方法及数据的可视化技术等。
(2)数据预处理。第 3 章介绍数据的采集和预处理,包括数据的采集、数据预处
理的目的和任务、数据清洗、数据集成和数据变换等。第 4 章介绍数据的归约,包括
线性回归和主成分分析。
(3)数据挖掘算法详解。第 5 章介绍关联规则挖掘,包括关联规则挖掘的概念、
关联规则挖掘算法及应用实例。第 6 章介绍分类与预测,包括决策树模型、贝叶斯分数据挖掘
2
类模型、线性判别模型、逻辑回归模型以及模型的评估与选择方法。第 7 章介绍非线
性预测模型,包括支持向量机和神经网络。第 8 章介绍聚类分析,包括聚类分析概
述、 k-均值聚类、 k-中心聚类以及聚类评估。第 9 章介绍深度学习,包括深度学习
的来由、深度学习网络的基本结构、卷积神经网络及一个应用实例。
(4)数据挖掘实践。第 10 章为使用 Weka 进行数据挖掘,包括 Weka 的基本操作、
如何使用 Weka 进行关联规则挖掘、分类、回归和聚类等。
另外,附录还介绍了拉格朗日乘子法在支持向量机中的优化算法。
本书由宋万清、杨寿渊、陈剑雪、高永彬编著。具体分工如下:上海工程技术大
学宋万清编写第 2、5、6、8、10 章和附录,上海工程技术大学陈剑雪编写第 3、7 章,
上海工程技术大学高永彬编写第 9 章,江西财经大学杨寿渊编写第 1、4 章。全书由
上海工程技术大学方志军、上海交通大学钱亮宏主审。同时,本书部分内容借鉴了许
多学者的研究成果,在此深表谢意!
由于编者水平有限,加之时间仓促,书中难免存在疏漏和不足之处,敬请读者批
评指正。
编
者
2018 年 8 月
评论
还没有评论。