描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787113248185
实用:配有多个实际操作案例供读者参考,轻松学习。
大数据技术是一个面向实际应用的技术。从大数据中获取有价值信息是大数据技术的精髓。本书概括性介绍了数据科学与大数据技术的主要内容。全书分为 9 章,主要包括概述、大数据处理平台、大数据获取与存储管理技术、大数据抽取技术、大数据清洗技术、大数据去噪与标准化、大数据约简与集成技术、大数据分析与挖掘技术、大数据分析结果解释与展现。
本书在内容上,注重基本概念、基本方法介绍,实例丰富、语言精练、逻辑层次清晰,适合作为大学“数据科学与大数据技术”专业和相近专业的教材,也可以作为科技人员的参考书。
第 1 章 概述 …………………………………….. 1
1.1 数据科学 …………………………………………2
1.1.1 数据科学的产生与发展 …………….2
1.1.2 数据科学的相关术语 ………………..2
1.1.3 数据科学的主要内容 ………………..3
1.1.4 数据科学的研究过程与体系框架………………………………………….4
1.1.5 数据科学、数据技术与数据工程………………………………………….6
1.1.6 大数据问题 ………………………………6
1.2 大数据的生态环境 …………………………..7
1.2.1 互联网世界 ………………………………7
1.2.2 物理世界 ………………………………….9
1.3 大数据的概念 ………………………………….9
1.3.1 数据容量 ………………………………..10
1.3.2 数据类型 ……………………………….. 11
1.3.3 价值密度 ……………………………….. 11
1.3.4 速度 ………………………………………. 11
1.3.5 真实性 …………………………………… 11
1.4 大数据的性质 ……………………………….. 11
1.4.1 非结构性 ………………………………..12
1.4.2 不完备性 ………………………………..13
1.4.3 时效性 ……………………………………13
1.4.4 安全性 ……………………………………13
1.4.5 可靠性 ……………………………………13
1.5 大数据处理周期 …………………………….13
1.5.1 大数据处理全过程 ………………….14
1.5.2 大数据技术的特征 ………………….15
1.5.3 大数据的一些热点技术 …………..17
1.6 科学研究范式 ………………………………..18
1.6.1 科学研究范式的产生与发展 ……18
1.6.2 数据密集型科学研究第四范式….19
小结 ………………………………………………………23
第 2 章 大数据处理平台 …………………… 24
2.1 Hadoop 大数据处理平台 ………………..24
2.1.1 离线计算概述 …………………………25
2.1.2 MapReduce 分布编程模型 ……….26
2.1.3 基于 Hadoop 的分布计算 …………27
2.1.4 MapReduce 程序设计分析 ……….31
2.1.5 Hadoop 环境部署与程序运行 …..36
2.2 Storm 大数据处理平台 …………………..42
2.2.1 流式数据的概念与特征 …………..43
2.2.2 大数据的计算模式 ………………….45
2.2.3 流式数据处理技术的应用 ……….46
2.2.4 流式计算的系统架构 ………………50
2.2.5 Storm 流处理过程 ……………………52
2.2.6 单词计数 topology …………………..56
2.3 Spark 大数据处理平台 ……………………58
2.3.1 交互式处理系统的问题 …………..58
2.3.2 Scala 编程语言简介 …………………58
2.3.3 Spark 的主要特点 ……………………59
2.3.4 软件栈 ……………………………………60
2.3.5 核心概念 ………………………………..61
2.3.6 弹性分布式数据集 RDD ………….62
2.3.7 单词计数实例分析 ………………….66
小结 ………………………………………………………67
第 3 章 大数据获取与存储管理技术 …… 68
3.1 大数据获取 ……………………………………69
3.1.1 大数据获取的挑战 ………………….69
3.1.2 传统的数据获取与大数据获取的区别………………………………………..69
3.2 领域数据 ……………………………………….70
3.2.1 文本数据 ………………………………..70
3.2.2 语音数据 ………………………………..71
3.2.3 图片数据 ………………………………..71
3.2.4 摄像头视频数据 ……………………..71
3.2.5 图像数字化数据 ……………………..71
3.2.6 图形数字化数据 ……………………..71
3.2.7 空间数据 ………………………………..72
3.3 网站数据 ……………………………………….72
3.3.1 网站内部数据 …………………………73
3.3.2 网站外部数据 ………………………73
3.3.3 移动网站数据 …………………………73
3.4 网络爬虫 ……………………………………….73
3.4.1 网络爬虫的工作过程 ………………74
3.4.2 通用网络爬虫 …………………………74
3.4.3 聚焦网络爬虫 …………………………77
3.4.4 数据抓取目标的定义 ………………79
3.4.5 网页分析算法 …………………………80
3.4.6 更新策略 ………………………………..81
3.4.7 分布式爬虫的系统结构 …………..82
3.5 大数据存储 ……………………………………84
3.5.1 大数据存储模型 ……………………..84
3.5.2 大数据存储问题 ……………………..84
3.5.3 大数据存储方式 ……………………..85
3.6 大数据存储管理技术 ……………………..86
3.6.1 数据容量问题 …………………………86
3.6.2 大图数据 ………………………………..87
3.6.3 数据存储管理 …………………………88
3.7 NoSQL 和 NewSQL ………………………..89
3.7.1 NoSQL ……………………………………90
3.7.2 NewSQL 数据库 ……………………..93
3.7.3 不同数据库架构混合应用模式….93
3.8 分布式文件系统 …………………………….94
3.8.1 评价指标 ………………………………..94
3.8.2 HDFS 文件系统 ………………………95
3.8.3 NFS 文件系统 …………………………96
3.9 虚拟存储技术 ………………………………..97
3.9.1 虚拟存储的特点 ……………………..98
3.9.2 虚拟存储的应用 ……………………..98
3.10 云存储技术 ………………………………….99
3.10.1 云存储原理 …………………………..99
3.10.2 网络结构 ………………………………99
3.10.3 云的分类 ………………………………99
小结 …………………………………………………….100
第 4 章 大数据抽取技术 …………………. 101
4.1 大数据抽取技术概述 …………………..101
4.1.1 数据抽取的定义 ……………………102
4.1.2 数据映射与数据迁移 …………….102
4.1.3 数据抽取程序 ……………………….103
4.1.4 抽取、转换和加载 ………………..103
4.1.5 数据抽取方式 ……………………….104
4.2 增量数据抽取技术 ……………………….104
4.2.1 增量抽取的特点与策略 …………105
4.2.2 基于触发器的增量抽取方式………………………………………105
4.2.3 基于时间戳的增量抽取方式………………………………………105
4.2.4 全表删除插入方式 ………………106
4.2.5 全表比对抽取方式 ………………..106
4.2.6 日志表方式 …………………………..107
4.2.7 系统日志分析方式 ………………..107
4.2.8 各种数据抽取机制的比较与分析…………………………………..107
4.3 非结构化数据抽取 ……………………….109
4.3.1 非结构化数据类型 ………………..109
4.3.2 非结构化数据模型 ………………..109
4.3.3 非结构化数据组织 ……………….. 111
4.3.4 纯文本抽取通用程序库 ………… 112
4.4 基于 Hadoop 平台的数据抽取 ……… 113
小结 ……………………………………………………. 114
第 5 章 大数据清洗技术 …………………..115
5.1 数据质量与数据清洗 …………………… 115
5.1.1 数据质量 ……………………………… 116
5.1.2 数据质量提高技术 ……………….. 118
5.1.3 数据清洗算法的标准 …………….120
5.1.4 数据清洗的过程与模型 …………120
5.2 不完整数据清洗 …………………………..121
5.2.1 基本方法 ………………………………121
5.2.2 基于 k-NN 近邻缺失数据的填充算法……………………………….123
5.3 异常数据清洗 ………………………………124
5.3.1 异常值产生的原因 ………………..125
5.3.2 统计方法 ………………………………125
5.3.3 基于邻近度的离群点检测 ……..126
5.4 重复数据清洗 ………………………………127
5.4.1 使用字段相似度识别重复值算法………………………………………127
5.4.2 搜索引擎快速去重算法 …………128
5.5 文本清洗 ……………………………………..128
5.5.1 字符串匹配算法 ……………………129
5.5.2 文本相似度度量 ……………………131
5.5.3 文档去重算法 ……………………….135
5.6 数据清洗的实现 …………………………..135
5.6.1 数据清洗的步骤 ……………………135
5.6.2 基于 MapReduce 的大数据去重………………………………………136
小结 …………………………………………………….138
第 6 章 大数据去噪与标准化 …………… 139
6.1 基本的数据转换方法 ……………………139
6.1.1 对数转换 ………………………………139
6.1.2 平方根转换 …………………………..140
6.1.3 平方转换 ………………………………140
6.1.4 倒数变换 ………………………………140
6.2 数据平滑技术 ………………………………140
6.2.1 移动平均法 …………………………..141
6.2.2 指数平滑法 …………………………..142
6.2.3 分箱平滑法 …………………………..146
6.3 数据规范化 ………………………………….148
6.3.1 zui小 – zui大规范化方法 …………148
6.3.2 z 分数规范化方法 ………………….149
6.3.3 小数定标规范化方法 …………….149
6.4 数据泛化处理 ………………………………150
6.4.1 空间数据支配泛化算法 …………150
6.4.2 非空间数据支配泛化方法 ……..151
6.4.3 统计信息网格方法 ………………..151
小结 …………………………………………………….151
第 7 章 大数据约简与集成技术 ……….. 152
7.1 数据约简概述 ………………………………153
7.1.1 数据约简定义 ……………………….153
7.1.2 数据约简方式 ……………………….153
7.2 特征约简 ……………………………………..153
7.2.1 特征提取 ………………………………154
7.2.2 特征选择 ………………………………154
7.3 样本约简 ……………………………………..155
7.3.1 简单随机抽样 ……………………….155
7.3.2 系统抽样 ………………………………155
7.3.3 分层抽样 ………………………………155
7.4 数据立方体聚集 …………………………..155
7.4.1 多维性 ………………………………….156
7.4.2 数据聚集 ………………………………156
7.5 维约简 …………………………………………157
7.5.1 维约简的目的 ……………………….157
7.5.2 维约简的基本策略 ………………..158
7.5.3 维约简的分类 ……………………….158
7.6 属性子集选择算法 ……………………….159
7.6.1 逐步向前选择属性 ………………..159
7.6.2 逐步向后删除属性 ………………..159
7.6.3 混合式选择 ………………………….159
7.6.4 判定树归纳 …………………………..159
7.7 数据压缩 ……………………………………..160
7.7.1 离散小波变换方法 ………………..160
7.7.2 主成分分析压缩方法 …………….161
7.8 数值约简 ……………………………………..162
7.8.1 有参数值约简 ……………………….162
7.8.2 无参数值约简 ……………………….162
7.9 数据集成的概念与相关问题 …………163
7.9.1 数据集成的核心问题 …………….165
7.9.2 数据集成的分类 ……………………166
7.10 数据迁移 ……………………………………168
7.10.1 在组织内部移动数据 …………..169
7.10.2 非结构化数据集成 ………………169
7.10.3 将处理移动到数据端 …………..170
7.11 数据集成模式 …………………………….171
7.11.1 联邦数据库集成模式 ……………171
7.11.2 中间件集成模式 ………………….172
7.11.3 数据仓库集成模式 ………………173
7.12 数据集成系统 …………………………….173
7.12.1 全局模式 …………………………….174
7.12.2 语义映射 …………………………….175
7.12.3 查询重写 …………………………….175
7.13 数据聚类集成 …………………………….175
7.13.1 数据聚类集成概述 ………………175
7.13.2 高维数据聚类集成 ………………176
小结 …………………………………………………….178
第 8 章 大数据分析与挖掘技术 ……….. 179
8.1 大数据分析概述 …………………………..180
8.1.1 大数据分析的类型 ……………….180
8.1.2 数字特征 ………………………………182
8.1.3 统计方法论 ………………………….184
8.1.4 模型与构建 …………………………..186
8.1.5 R 语言 …………………………………..186
8.2 统计分析方法 ………………………………188
8.2.1 基本方法 ……………………………..188
8.2.2 常用分析方法 ……………………….194
8.3 数据挖掘理论基础 ………………………. 211
8.3.1 数据挖掘是面向应用的技术 …. 211
8.3.2 数据挖掘的理论基础 …………….212
8.3.3 基于数据存储方式的数据挖掘………………………………………212
8.4 关联规则挖掘 ………………………………214
8.4.1 频繁项目集生成算法 …………….215
8.4.2 关联规则挖掘质量 ………………..217
8.5 分类方法 ……………………………………..218
8.5.1 基于距离的分类算法 …………….219
8.5.2 KNN 算法的 MapReduce实现 ……………………………………..220
8.5.3 决策树分类方法 ……………………220
8.6 聚类方法 ……………………………………..223
8.6.1 聚类定义与分类 ……………………223
8.6.2 距离与相似性的度量 …………….225
8.6.3 划分聚类方法 ……………………….226
8.6.4 层次聚类方法 ……………………….228
8.7 序列模式挖掘与文本数据挖掘 ……..229
8.7.1 时间序列预测的常用方法 ……..229
8.7.2 序列模式挖掘 ……………………….230
8.8 非结构化文本数据挖掘 ………………..231
8.8.1 用户反馈文本 ……………………….232
8.8.2 用户反馈文本挖掘的一般过程 ……………………………………..232
8.8.3 文本的自然语言处理 ……………234
8.9 基于 MapReduce 的分析与挖掘实例 …………………………………………….235
8.9.1 大数据平均值计算 ………………..235
8.9.2 大数据排序 …………………………..236
8.9.3 倒排索引 ………………………………237
小结 …………………………………………………….241
第 9 章 大数据分析结果解释与展现 …. 242
9.1 数据分析结果解释的目的与内容 ….243
9.1.1 解释的目的 …………………………..243
9.1.2 检查和验证假设 ……………………243
9.1.3 追踪分析过程 ……………………….244
9.2 数据的基本展现方式 ……………………245
9.2.1 基于时间变化的可视化展现 ….245
9.2.2 由大及小的可视化展现 …………245
9.2.3 由小及大的可视化展现 …………246
9.2.4 突出对比的可视化展现 …………246
9.2.5 地域空间可视化展现 …………….246
9.2.6 概念可视化展现 ……………………248
9.2.7 气泡图可视化展现 ………………..248
9.2.8 注重交叉点的数据可视化展现 ……………………………………..248
9.2.9 剖析原因的数据可视化展现 ….248
9.2.10 描绘出异常值的可视化展现 ……………………………………249
9.3 大数据可视化 ………………………………249
9.3.1 文本可视化 …………………………..249
9.3.2 网络(图)可视化 ………………..250
9.3.3 时空数据可视化 ……………………252
9.3.4 多维数据可视化 ……………………252
9.4 大数据可视分析 …………………………..253
9.4.1 可视分析的理论基础 …………….254
9.4.2 大数据可视分析技术 …………….257
9.5 数据可视化实现 …………………………..260
小结 …………………………………………………….262
参考文献 ……………………………………….. 263
?
评论
还没有评论。