描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302634256丛书名: 大数据系列丛书
本书内容新颖,可操作性强,图文并茂,简明易懂,可以作为普通高等学校、高职高专院校数据科学与大数据专业、软件工程专业等计算机相关专业和信息管理类专业大数据开发技术课程的教材,也可以作为大数据技术培训班教材,并适合大数据技术研发人员和广大计算机爱好者自学使用
近年来,数据挖掘(Data Mining)引起了产业界的极大关注,主要原因是生产制造等环节中存在海 量有潜在价值的数据,而各行各业都迫切需要将这些数据转换成有用的信息和知识。这些信息和知识可 以广泛用于各种领域,包括商务管理、生产控制、市场分析、工程设计等,帮助企业创造更高的利润和 占据新的制高点。 本书内容新颖,可操作性强,图文并茂,简明易懂,可作为高等学校数据科学与大数据、软件工程 等计算机相关专业和信息管理类专业“大数据开发技术”课程的教材,也可作为大数据技术培训班的教 材,还适合大数据技术研发人员和广大计算机爱好者自学使用。
第1章 绪论 1
1.1 数据挖掘概述 1
1.2 数据挖掘的定义 1
1.2.1 数据挖掘的一般步骤 2
1.2.2 数据挖掘任务 2
1.3 数据挖掘的主要问题 3
1.3.1 数据挖掘算法的有效性和可扩展性 3
1.3.2 处理噪声和不完全数据 3
1.3.3 高维度数据 3
1.3.4 关系数据库和复杂数据类型的处理 4
1.3.5 异种数据库和全球信息系统挖掘信息 4
1.4 数据挖掘的应用 4
1.4.1 推荐系统 4
1.4.2 互联网风险控制 5
1.5 小结 5
1.6 参考文献 5
第2章 数据及数据集基本分析 6
2.1 数据对象与属性 6
2.1.1 属性的定义 7
2.1.2 定性属性 7
2.1.3 定量属性 8
2.2 数据与元数据 9
2.2.1 传统的元数据 9
2.2.2 元数据的类型 10
2.2.3 元数据的模式 10
2.3 结构化、非结构化和半结构化数据 11
2.3.1 结构化数据 11
2.3.2 非结构化数据 12
2.3.3 半结构化数据 13
2.4 数据集基本分析技术 14
2.4.1 频率和众数 15
2.4.2 百分位数 15
2.4.3 均值和中位数 16
2.4.4 极差和方差 16
2.4.5 多元数据统计 17
2.5 结构化数据集基本分析技术 17
2.5.1 鸢尾花数据集介绍 17
2.5.2 描述统计 18
2.6 文本数据集基本分析技术 19
2.6.1 20newsgroups数据集介绍 19
2.6.2 文本可视化 22
2.7 数据可视化技术 23
2.7.1 可视化数据变量之间的相关性 24
2.7.2 可视化数据变量值的分布情况 26
2.8 数据对象相似性与距离计算 30
2.8.1 数据对象的相似性定义 30
2.8.2 数据对象相似性的度量方法 30
2.9 大数据概述 31
2.9.1 大数据的兴起 31
2.9.2 大数据的特点 32
2.10 小结 32
2.11 练习题 32
2.12 参考文献 33
第3章 数据预处理 34
3.1 数据预处理概述 34
3.2 数据清洗 35
3.2.1 缺失值处理 35
3.2.2 异常点检测 36
3.2.3 异常点处理 37
3.2.4 重复数据处理 37
3.2.5 噪声处理 38
3.3 数据降维 39
3.3.1 数据降维概述 39
3.3.2 主成分分析降维 39
3.3.3 多维缩放降维 41
3.3.4 等度量映射降维 43
3.3.5 局部线性嵌入降维 45
3.3.6 降维效果比较 47
3.4 结构化数据预处理技术 50
3.4.1 数据清洗 50
3.4.2 分组与聚合 53
3.4.3 合并 54
3.4.4 案例——房价预测竞赛 55
3.5 文本数据预处理技术 58
3.5.1 文本数据预处理技术概述 58
3.5.2 文本数据获取 58
3.5.3 分词 59
3.5.4 数据清洗 59
3.5.5 词干提取 62
3.5.6 词形还原 63
3.5.7 案例——新闻数据预处理 63
3.6 隐私保护与数据脱敏 67
3.6.1 隐私保护与数据脱敏概述 67
3.6.2 隐私保护与数据脱敏定义 67
3.6.3 敏感信息识别 67
3.6.4 敏感信息去除 69
3.7 小结 70
3.8 练习题 71
3.9 参考文献 71
第4章 分类基本算法 72
4.1 分类概述 72
4.1.1 分类任务简介 72
4.1.2 二分类及多分类 73
4.1.3 不均衡问题 73
4.2 k近邻算法 74
4.2.1 算法 74
4.2.2 距离度量 74
4.2.3 k值的选择 75
4.2.4 分类决策规则 75
4.2.5 参数说明 75
4.3 决策树 76
4.3.1 决策树简介 76
4.3.2 决策树算法 77
4.3.3 信息增益 77
4.3.4 增益率 77
4.4 支持向量机 79
4.4.1 线性可分支持向量机 80
4.4.2 线性支持向量机 82
4.4.3 非线性支持向量机 82
4.4.4 参数说明 83
4.5 随机森林 84
4.5.1 随机森林简介 84
4.5.2 随机森林算法 85
4.5.3 参数说明 85
4.6 AdaBoost 86
4.6.1 AdaBoost简介 86
4.6.2 AdaBoost算法 86
4.6.3 参数说明 88
4.7 朴素贝叶斯 88
4.7.1 朴素贝叶斯基本方法 88
4.7.2 朴素贝叶斯算法 89
4.7.3 参数说明 90
4.8 特征权重函数 91
4.8.1 无监督特征权重函数 91
4.8.2 有监督特征权重函数 92
4.9 结构化数据分类案例 93
4.9.1 鸢尾花数据集 93
4.9.2 评估方式 94
4.9.3 KNN实例 94
4.9.4 SVM实例 94
4.9.5 决策树实例 95
4.9.6 随机森林实例 95
4.9.7 AdaBoost实例 96
4.9.8 朴素贝叶斯分类器实例 96
4.10 文本分类实例 96
4.10.1 文本表示 96
4.10.2 分类模型的训练 99
4.11 小结 108
4.12 练习题 108
4.13 参考文献 108
第5章 基于深度学习的分类算法 110
5.1 深度学习概述 110
5.1.1 深度学习的发展历程 110
5.1.2 深度学习的概念 111
5.1.3 深度学习的应用 111
5.1.4 深度学习的未来 112
5.2 卷积神经网络 113
5.2.1 卷积神经网络简介 113
5.2.2 卷积运算 114
5.2.3 非线性激活函数 115
5.2.4 最大池化运算 115
5.3 循环神经网络 116
5.3.1 循环神经网络简介 116
5.3.2 循环神经网络的结构类型 119
5.4 长短期记忆网络 121
5.5 图像分类案例 123
5.5.1 数据集下载与预处理 123
5.5.2 模型架构搭建 126
5.5.3 模型的训练与验证 128
5.5.4 使用数据增强策略 129
5.5.5 随机失活策略 130
5.5.6 使用预训练模型提升结果 131
5.6 结构化数据分类案例 134
5.6.1 数据分析和可视化 134
5.6.2 模型架构搭建 136
5.6.3 模型训练和预测 137
5.7 文本分类案例 137
5.7.1 数据预处理 137
5.7.2 模型架构搭建 139
5.7.3 模型训练与预测 139
5.8 小结 140
5.9 练习题 140
5.10 参考文献 140
第6章 聚类分析 142
6.1 聚类概述 142
6.2 划分聚类 143
6.2.1 K均值 143
6.2.2 K均值算法的实现 144
6.2.3 二分K均值 145
6.2.4 二分K均值算法实现 146
6.2.5 划分聚类的优点与缺点 148
6.3 层次聚类 149
6.3.1 簇的邻近性度量 149
6.3.2 AGNES算法 150
6.3.3 层次聚类的优点与缺点 153
6.4 基于密度的聚类 153
6.4.1 DBSCAN 153
6.4.2 算法实现 155
6.4.3 参数的选取 156
6.4.4 密度聚类的优点与缺点 157
6.5 主题模型 157
6.5.1 LDA 模型 158
6.5.2 LDA参数估计 159
6.5.3 LDA的优点与缺点 159
6.6 结构化数据聚类案例 161
6.6.1 数据集 161
6.6.2 评价指标 161
6.6.3 聚类及评估 162
6.7 文本聚类案例 166
6.7.1 数据集 166
6.7.2 数据预处理 166
6.7.3 LDA的训练和评估 168
6.7.4 LDA 结果的可视化 170
6.8 聚类分析的相关工作 171
6.9 小结 172
6.10 练习题 172
6.11 参考文献 172
第7章 推荐系统 175
7.1 推荐系统概述 175
7.1.1 推荐系统的发展 175
7.1.2 推荐系统的应用场景 178
7.1.3 推荐系统评测指标 178
7.1.4 推荐系统存在的问题 182
7.2 个性化建模方法 184
7.2.1 基于向量空间模型的表示法 184
7.2.2 基于主题的表示法 184
7.2.3 基于用户–物品评分矩阵的表示法 185
7.2.4 基于神经网络的表示法 185
7.3 基于内容的推荐 185
7.3.1 基于内容的推荐简介 185
7.3.2 基于内容的推荐算法 186
7.3.3 基于内容的推荐的优点和缺点 188
7.4 基于协同过滤的推荐 189
7.4.1 协同过滤简介 189
7.4.2 用户行为数据介绍 189
7.4.3 基于用户的协同过滤 191
7.4.4 基于物品的协同过滤 193
7.4.5 矩阵分解 197
7.4.6 负样本的采样 201
7.5 混合推荐 202
7.5.1 混合推荐简介 202
7.5.2 结合不同的推荐系统 202
7.5.3 在协同过滤中添加基于内容的特征 203
7.5.4 在基于内容的推荐中加入协同过滤的特征 203
7.5.5 构建一个统一推荐模型 203
7.5.6 混合推荐的优点和缺点 203
7.6 基于主题的推荐 204
7.6.1 为什么需要用到主题模型 204
7.6.2 LDA主题模型概述 204
7.6.3 使用主题模型计算相似物品 205
7.6.4 使用主题模型计算相似用户 206
7.7 基于深度学习的推荐算法 206
7.8 推荐算法案例 208
7.8.1 数据的读取与分析 208
7.8.2 推荐算法的应用 213
7.9 小结 220
7.10 练习题 220
7.11 参考文献 221
本书从算法的角度介绍数据挖掘使用的技术和相关的应用。第1章介绍数据挖掘的基本概念。第2章介绍数据和数据集的基本概念,并简单介绍大数据。第3章是数据挖掘中重要的第一步——数据的预处理;本章通过代码和实例展示及说明如何对结构化数据、非结构化文本数据进行预处理。第4章介绍分类任务的基本算法,包括常用的KNN、SVM、随机森林、朴素贝叶斯等,并附有相应的代码;同时,介绍特征选择的方法和特征权重的概念,及其在分类算法中的作用;此外,本章还对类别不平衡、模糊分类、多分类等情况进行详细的介绍,并给出相应的实战演练。近年来,深度学习模型在很多数据挖掘任务中表现突出。第5章介绍基于深度学习的分类算法,如常用的CNN、RNN、LSTM算法在结构化数据、图像、文本数据上的分类。第6章介绍层次聚类、基于密度的聚类、主题模型等主流聚类算法,及其在结构化数据和文本数据上的应用。第7章介绍个性化建模的方法及基于不同方式的推荐算法,如基于内容、协同过滤、主题模型、深度学习、混合推荐等算法。
本书的每一章都配有相关的代码、实例以及练习题,希望能够帮助读者更深入地理解和运用数据挖掘算法。
编者
2023年6月
评论
还没有评论。