描述
开 本: 16开纸 张: 轻型纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121343360丛书名: 大数据科学与应用丛书
产品特色
内容简介
本书从大数据的前身——数据挖掘技术入手,首先介绍了数据挖掘技术及在大数据中常用的采集、存储和分析方法;然后以多语音识别和多语言识别为例,对大数据信息处理技术的关键应用给出了详细的说明;接着给出了大数据场景分析,详细介绍了基于场景分析的大数据信息处理应用,如MOOC大数据教学分析系统、社交网络大数据关系推荐系统、金融服务大数据风险预警系统等;随后介绍了互联网 大数据的应用,对电子商务、互联网金融、能源大数据等具有差异性的行业应用进行了简要介绍;*后对大数据的应用进行了展望。
目 录
目 录
第1章 绪论 1
1.0 引言 1
1.1 数据的定义与属性 4
1.2 大数据概念与定义 4
1.3 大数据和小数据 6
1.4 结构化数据和非结构化数据 7
1.5 大数据信息处理技术及其应用 8
1.6 大数据技术面临的挑战 10
1.7 大数据服务与信息安全 12
1.8 本章小结 14
参考文献 14
第2章 数据信息挖掘技术基础 16
2.0 引言 16
2.1 信息挖掘技术概述 19
2.1.1 信息挖掘定义 19
2.1.2 信息挖掘应用 20
2.1.3 信息挖掘前景 25
2.2 数据关联分析 26
2.2.1 数据关联分析定义 26
2.2.2 数据关联分析主要方法 27
2.3 数据聚类分析 28
2.3.1 数据聚类分析概念 28
2.3.2 数据聚类分析主要方法 29
2.4 数据分类与预测 30
2.4.1 数据分类 30
2.4.2 数据预测 32
2.5 数据可视化 33
2.5.1 信息可视化与数据可视化 33
2.5.2 数据可视化分析 33
2.6 信息挖掘与隐私保护 35
2.7 云计算数据挖掘 38
2.8 本章小结 40
参考文献 40
第3章 大数据技术基础 42
3.0 引言 42
3.1 大数据产生及特性 44
3.1.1 大数据产生 44
3.1.2 大数据特性 47
3.2 大数据技术体系 47
3.2.1 采集与存储 48
3.2.2 分析与挖掘 50
3.2.3 可视化 54
3.3 大数据采集与存储 54
3.3.1 结构化/非结构化数据 54
3.3.2 关系型/非关系型/新型数据库 55
3.3.3 分布式存储集群 56
3.4 大数据分析与挖掘 57
3.4.1 HDFS与MapReduce 57
3.4.2 分布式大数据挖掘算法 59
3.5 大数据可视化 62
3.6 本章小结 64
参考文献 64
第4章 大数据信息处理与分析应用 66
4.0 引言 66
4.1 语音识别简介 67
4.1.1 语音识别技术 67
4.1.2 声学模型 71
4.1.3 语言模型 72
4.2 连续语音识别技术 73
4.2.1 连续语音识别原理 73
4.2.2 HMM-GMM声学模型 75
4.2.3 HMM-DNN声学模型 76
4.2.4 LSTM声学模型 79
4.3 多语言语音识别技术 82
4.3.1 多语言语音识别原理 82
4.3.2 建模单元共享技术 83
4.3.3 模型参数共享技术 84
4.4 本章小结 85
参考文献 85
第5章 基于场景分析的大数据信息 88
5.0 引言 88
5.1 遥感大数据自动分析与数据挖掘系统 89
5.1.1 遥感集市的组成 91
5.1.2 遥感集市提供的数据分析和挖掘服务 91
5.2 语音大数据关键词自动识别系统 93
5.2.1 语音分析系统语音识别和文本挖掘技术 94
5.2.2 语音分析系统支持的功能 95
5.2.3 语音分析系统支持的应用场景 96
5.3 MOOC大数据教学分析系统 97
5.3.1 学堂在线的组成 98
5.3.2 学堂在线的教学分析 99
5.4 社交网络大数据关系推荐系统 100
5.4.1 新浪微博推荐架构的演进 101
5.5.2 新浪微博推荐算法简述 103
5.5 金融服务大数据风险预警系统 106
5.5.1 互联网金融风险预警系统的架构 106
5.5.2 互联网金融风险预警系统的功能 108
5.5.3 互联网金融风险预警系统的预警机制 109
5.6 本章小结 110
参考文献 110
第6章 互联网 大数据技术基础 112
6.0 引言 112
6.1 “互联网 ”的定义 116
6.2 “互联网 ”行动 119
6.3 “互联网 ”与中国制造 121
6.4 大数据与互联网 122
6.5 互联网大数据的应用及发展 126
6.5.1 电子商务 126
6.5.2 搜索引擎 127
6.5.3 网络广告 127
6.5.4 旅行预订 127
6.5.5 网络游戏 128
6.5.6 互联网金融 128
6.5.7 数字政府 128
6.5.8 城市可持续发展 129
6.5.9 能源大数据 131
6.5.10 智能电网大数据 134
6.5.11 环境保护 139
6.6 本章小结 143
参考文献 143
第7章 基于场景感知的大数据 145
7.0 引言 145
7.1 无人驾驶汽车操控系统 145
7.1.1 无人驾驶汽车简介 146
7.1.2 无人驾驶汽车操控平台 148
7.2 医疗数据分析系统 150
7.2.1 医疗数据分析系统简介 150
7.2.2 可穿戴健康数据监控平台 152
7.2.3 流行疾病传播数据监控平台 153
7.3 农业装备与设施监控系统 156
7.3.1 农业装备与设施监控系统简介 156
7.3.2 农业装备田间位置监控系统平台 156
7.3.3 物联网农业设施监控系统 158
7.4 智慧城市 160
7.4.1 智慧城市简介 160
7.4.2 创新2.0语境下的智慧城市 162
7.5 本章小结 164
参考文献 165
第8章 基于可持续发展的大数据 166
8.0 大数据时代下的可持续发展新思路 166
8.1 环境大数据的分析与应用 167
8.1.1 环境大数据的概念和特征 167
8.1.2 环境大数据使用流程 168
8.1.3 环境大数据的作用 168
8.1.4 国外运用环境大数据的经验和启示 170
8.1.5 现存问题及未来展望 171
8.2 大数据在交通领域的应用 173
8.2.1 交通大数据的来源及发展现状 173
8.2.2 大数据在城市交通中的应用 173
8.3 大数据与环境变化 175
8.3.1 大数据在灾害灾难预测中的应用 175
8.3.2 大数据在气候变化研究中的应用 175
8.4 大数据在能源领域的应用 176
参考文献 178
第1章 绪论 1
1.0 引言 1
1.1 数据的定义与属性 4
1.2 大数据概念与定义 4
1.3 大数据和小数据 6
1.4 结构化数据和非结构化数据 7
1.5 大数据信息处理技术及其应用 8
1.6 大数据技术面临的挑战 10
1.7 大数据服务与信息安全 12
1.8 本章小结 14
参考文献 14
第2章 数据信息挖掘技术基础 16
2.0 引言 16
2.1 信息挖掘技术概述 19
2.1.1 信息挖掘定义 19
2.1.2 信息挖掘应用 20
2.1.3 信息挖掘前景 25
2.2 数据关联分析 26
2.2.1 数据关联分析定义 26
2.2.2 数据关联分析主要方法 27
2.3 数据聚类分析 28
2.3.1 数据聚类分析概念 28
2.3.2 数据聚类分析主要方法 29
2.4 数据分类与预测 30
2.4.1 数据分类 30
2.4.2 数据预测 32
2.5 数据可视化 33
2.5.1 信息可视化与数据可视化 33
2.5.2 数据可视化分析 33
2.6 信息挖掘与隐私保护 35
2.7 云计算数据挖掘 38
2.8 本章小结 40
参考文献 40
第3章 大数据技术基础 42
3.0 引言 42
3.1 大数据产生及特性 44
3.1.1 大数据产生 44
3.1.2 大数据特性 47
3.2 大数据技术体系 47
3.2.1 采集与存储 48
3.2.2 分析与挖掘 50
3.2.3 可视化 54
3.3 大数据采集与存储 54
3.3.1 结构化/非结构化数据 54
3.3.2 关系型/非关系型/新型数据库 55
3.3.3 分布式存储集群 56
3.4 大数据分析与挖掘 57
3.4.1 HDFS与MapReduce 57
3.4.2 分布式大数据挖掘算法 59
3.5 大数据可视化 62
3.6 本章小结 64
参考文献 64
第4章 大数据信息处理与分析应用 66
4.0 引言 66
4.1 语音识别简介 67
4.1.1 语音识别技术 67
4.1.2 声学模型 71
4.1.3 语言模型 72
4.2 连续语音识别技术 73
4.2.1 连续语音识别原理 73
4.2.2 HMM-GMM声学模型 75
4.2.3 HMM-DNN声学模型 76
4.2.4 LSTM声学模型 79
4.3 多语言语音识别技术 82
4.3.1 多语言语音识别原理 82
4.3.2 建模单元共享技术 83
4.3.3 模型参数共享技术 84
4.4 本章小结 85
参考文献 85
第5章 基于场景分析的大数据信息 88
5.0 引言 88
5.1 遥感大数据自动分析与数据挖掘系统 89
5.1.1 遥感集市的组成 91
5.1.2 遥感集市提供的数据分析和挖掘服务 91
5.2 语音大数据关键词自动识别系统 93
5.2.1 语音分析系统语音识别和文本挖掘技术 94
5.2.2 语音分析系统支持的功能 95
5.2.3 语音分析系统支持的应用场景 96
5.3 MOOC大数据教学分析系统 97
5.3.1 学堂在线的组成 98
5.3.2 学堂在线的教学分析 99
5.4 社交网络大数据关系推荐系统 100
5.4.1 新浪微博推荐架构的演进 101
5.5.2 新浪微博推荐算法简述 103
5.5 金融服务大数据风险预警系统 106
5.5.1 互联网金融风险预警系统的架构 106
5.5.2 互联网金融风险预警系统的功能 108
5.5.3 互联网金融风险预警系统的预警机制 109
5.6 本章小结 110
参考文献 110
第6章 互联网 大数据技术基础 112
6.0 引言 112
6.1 “互联网 ”的定义 116
6.2 “互联网 ”行动 119
6.3 “互联网 ”与中国制造 121
6.4 大数据与互联网 122
6.5 互联网大数据的应用及发展 126
6.5.1 电子商务 126
6.5.2 搜索引擎 127
6.5.3 网络广告 127
6.5.4 旅行预订 127
6.5.5 网络游戏 128
6.5.6 互联网金融 128
6.5.7 数字政府 128
6.5.8 城市可持续发展 129
6.5.9 能源大数据 131
6.5.10 智能电网大数据 134
6.5.11 环境保护 139
6.6 本章小结 143
参考文献 143
第7章 基于场景感知的大数据 145
7.0 引言 145
7.1 无人驾驶汽车操控系统 145
7.1.1 无人驾驶汽车简介 146
7.1.2 无人驾驶汽车操控平台 148
7.2 医疗数据分析系统 150
7.2.1 医疗数据分析系统简介 150
7.2.2 可穿戴健康数据监控平台 152
7.2.3 流行疾病传播数据监控平台 153
7.3 农业装备与设施监控系统 156
7.3.1 农业装备与设施监控系统简介 156
7.3.2 农业装备田间位置监控系统平台 156
7.3.3 物联网农业设施监控系统 158
7.4 智慧城市 160
7.4.1 智慧城市简介 160
7.4.2 创新2.0语境下的智慧城市 162
7.5 本章小结 164
参考文献 165
第8章 基于可持续发展的大数据 166
8.0 大数据时代下的可持续发展新思路 166
8.1 环境大数据的分析与应用 167
8.1.1 环境大数据的概念和特征 167
8.1.2 环境大数据使用流程 168
8.1.3 环境大数据的作用 168
8.1.4 国外运用环境大数据的经验和启示 170
8.1.5 现存问题及未来展望 171
8.2 大数据在交通领域的应用 173
8.2.1 交通大数据的来源及发展现状 173
8.2.2 大数据在城市交通中的应用 173
8.3 大数据与环境变化 175
8.3.1 大数据在灾害灾难预测中的应用 175
8.3.2 大数据在气候变化研究中的应用 175
8.4 大数据在能源领域的应用 176
参考文献 178
前 言
前 言
“大数据”这个词汇已经与“移动互联网”“云计算”“人工智能”等一起成为科技从业人员中,甚至是街头巷尾的流行词汇之一。中国工程院邬贺铨院士在2013年撰写的大数据时代的机遇与挑战至今已被引用200多次;同年出版的维克托·迈尔·舍恩伯的专著《大数据时代》则一直在亚马逊的热销图书商品排名中,其热度可见一斑。从2016年美国总统选举到相亲网站用户匹配,大数据的身影无处不在,每个人的工作和日常生活,都自觉或不自觉地受到大数据的影响和支配。但什么是大数据,每个人、每个机构,甚至每个国家,都对此有不同的答案。我们需要给大数据一个清晰的、统一的、完整的定义。幸运的是,麦肯锡全球研究所给出了一个标准答案:大小超出了传统数据库软件工具的抓取、存储、管理、分析能力的数据群被称为大数据。
虽然大数据如此之热,但是在具体深入研究下去后就会发现,大数据技术的研究和应用的主要领域仍然集中在与IT产业密切相关的互联网产业界,在电子商务、搜索推荐、可穿戴设备、无人车/机等方向上,各种规模的创新、创业公司层出不穷,各类应用更是五花八门、纷繁复杂,而大数据相关的国内外文献也是种类繁多、涉及广泛。
大数据分析应用于科学、医药、商业等各个领域,用途差异巨大,但其目标可以归纳为如下几类。,获得知识与推测趋势。大数据包含大量原始的、真实的信息,大数据分析能够有效摒弃个体差异,帮助人们可以透过现象更准确地把握事物背后的规律。第二,分析掌握个性化特征。企业通过长时间、多维度的数据积累,可以分析用户的行为规律,更准确地描绘个体轮廓,为用户提供更好的个性化产品和服务,以及更准确的广告推荐等。第三,通过分析辨识真相。由于网络中的信息传播更加便利,所以网络虚假信息造成的危害也更大。由于大数据的来源广泛且具有多样性,因此在一定程度上可以帮助实现信息的去伪存真。目前,人们开始尝试利用大数据进行虚假信息的识别。
相应地,大数据技术也面临巨大的挑战,主要包括:
(1)当前的数据量正以指数方式增长,而大数据处理和分析的能力远远跟不上数据量增长的速度。高效率和低成本的存储技术、非结构化和半结构化数据的高效处理技术、大数据去冗降噪技术、数据挖掘和基于大数据的预测分析技术等都有待发展和完善。
(2)大数据包含丰富的个人信息,通过整合分析,可以精准判断个人的喜好乃至性格,揭示行为规律,使个人的隐私信息更加容易暴露。如何在加强数据获取能力的同时更好地保护个人隐私,是未来大数据研究的一个重大挑战。
(3)大数据使人类对信息掌控的程度相对过去有了质的提升,从这个意义来看,从信息时代进入大数据时代超越了从机械计算时代进入电子计算时代,对于大数据的观念、态度必须要能够适应新时代的要求。
本书尝试从大数据的前身——数据挖掘技术入手,首先介绍在大数据这个词汇发明之前,数据挖掘技术是如何用于金融投资、识别欺诈并保障网络安全的;随后对大数据技术中使用的采集、存储及分析方法,如目前流行的HDFS及MapReduce进行详细阐述,以便使入门者快速掌握相关的技术;随后以语音识别中的连续语音识别和多语言语音识别为例,介绍大数据信息处理技术在IT行业中的关键应用;大数据分析与场景密切相关,因此提供了一系列基于场景分析基础上的大数据信息处理应用,如MOOC大数据教学分析系统、社交网络大数据关系推荐系统和金融服务大数据风险预警系统等;以互联网 大数据为特色的应用非常广泛,仅选取了电子商务、互联网金融、城市可持续发展、能源大数据、智能电网大数据等差异性较大的行业应用进行了简单介绍;进一步的大数据信息处理应用则涉及场景感知这一更加复杂的课题,场景感知更近似于人类对场景的观察、判断、分析与响应,相比于场景分析具有更强的灵活性、实时性、准确性,无人驾驶汽车操控系统就是场景感知的典型综合应用案例。
本书包括大数据、数据挖掘和场景感知等基本内容及其应用,可作为IT相关专业本科及研究生学习大数据理论、技术与应用的入门用书,对工程人员来说也是一本综合性较强的参考手册。同时,本书引用了大量国内外技术实例及作者的国家基金项目研究成果,对互联网领域的技术研究人员也有一定的参考价值。
本书在编写过程中,北京交通大学袁保宗教授、中国科学院声学研究所颜永红教授、北京理工大学谢湘副教授等专家给予了大力指导和支持,并得到国家自然科学基金重大项目(NSFC:11590770)的支持,在此表示衷心的感谢!
由于编著者水平和经验有限,书中错误之处在所难免,敬请读者指正。
“大数据”这个词汇已经与“移动互联网”“云计算”“人工智能”等一起成为科技从业人员中,甚至是街头巷尾的流行词汇之一。中国工程院邬贺铨院士在2013年撰写的大数据时代的机遇与挑战至今已被引用200多次;同年出版的维克托·迈尔·舍恩伯的专著《大数据时代》则一直在亚马逊的热销图书商品排名中,其热度可见一斑。从2016年美国总统选举到相亲网站用户匹配,大数据的身影无处不在,每个人的工作和日常生活,都自觉或不自觉地受到大数据的影响和支配。但什么是大数据,每个人、每个机构,甚至每个国家,都对此有不同的答案。我们需要给大数据一个清晰的、统一的、完整的定义。幸运的是,麦肯锡全球研究所给出了一个标准答案:大小超出了传统数据库软件工具的抓取、存储、管理、分析能力的数据群被称为大数据。
虽然大数据如此之热,但是在具体深入研究下去后就会发现,大数据技术的研究和应用的主要领域仍然集中在与IT产业密切相关的互联网产业界,在电子商务、搜索推荐、可穿戴设备、无人车/机等方向上,各种规模的创新、创业公司层出不穷,各类应用更是五花八门、纷繁复杂,而大数据相关的国内外文献也是种类繁多、涉及广泛。
大数据分析应用于科学、医药、商业等各个领域,用途差异巨大,但其目标可以归纳为如下几类。,获得知识与推测趋势。大数据包含大量原始的、真实的信息,大数据分析能够有效摒弃个体差异,帮助人们可以透过现象更准确地把握事物背后的规律。第二,分析掌握个性化特征。企业通过长时间、多维度的数据积累,可以分析用户的行为规律,更准确地描绘个体轮廓,为用户提供更好的个性化产品和服务,以及更准确的广告推荐等。第三,通过分析辨识真相。由于网络中的信息传播更加便利,所以网络虚假信息造成的危害也更大。由于大数据的来源广泛且具有多样性,因此在一定程度上可以帮助实现信息的去伪存真。目前,人们开始尝试利用大数据进行虚假信息的识别。
相应地,大数据技术也面临巨大的挑战,主要包括:
(1)当前的数据量正以指数方式增长,而大数据处理和分析的能力远远跟不上数据量增长的速度。高效率和低成本的存储技术、非结构化和半结构化数据的高效处理技术、大数据去冗降噪技术、数据挖掘和基于大数据的预测分析技术等都有待发展和完善。
(2)大数据包含丰富的个人信息,通过整合分析,可以精准判断个人的喜好乃至性格,揭示行为规律,使个人的隐私信息更加容易暴露。如何在加强数据获取能力的同时更好地保护个人隐私,是未来大数据研究的一个重大挑战。
(3)大数据使人类对信息掌控的程度相对过去有了质的提升,从这个意义来看,从信息时代进入大数据时代超越了从机械计算时代进入电子计算时代,对于大数据的观念、态度必须要能够适应新时代的要求。
本书尝试从大数据的前身——数据挖掘技术入手,首先介绍在大数据这个词汇发明之前,数据挖掘技术是如何用于金融投资、识别欺诈并保障网络安全的;随后对大数据技术中使用的采集、存储及分析方法,如目前流行的HDFS及MapReduce进行详细阐述,以便使入门者快速掌握相关的技术;随后以语音识别中的连续语音识别和多语言语音识别为例,介绍大数据信息处理技术在IT行业中的关键应用;大数据分析与场景密切相关,因此提供了一系列基于场景分析基础上的大数据信息处理应用,如MOOC大数据教学分析系统、社交网络大数据关系推荐系统和金融服务大数据风险预警系统等;以互联网 大数据为特色的应用非常广泛,仅选取了电子商务、互联网金融、城市可持续发展、能源大数据、智能电网大数据等差异性较大的行业应用进行了简单介绍;进一步的大数据信息处理应用则涉及场景感知这一更加复杂的课题,场景感知更近似于人类对场景的观察、判断、分析与响应,相比于场景分析具有更强的灵活性、实时性、准确性,无人驾驶汽车操控系统就是场景感知的典型综合应用案例。
本书包括大数据、数据挖掘和场景感知等基本内容及其应用,可作为IT相关专业本科及研究生学习大数据理论、技术与应用的入门用书,对工程人员来说也是一本综合性较强的参考手册。同时,本书引用了大量国内外技术实例及作者的国家基金项目研究成果,对互联网领域的技术研究人员也有一定的参考价值。
本书在编写过程中,北京交通大学袁保宗教授、中国科学院声学研究所颜永红教授、北京理工大学谢湘副教授等专家给予了大力指导和支持,并得到国家自然科学基金重大项目(NSFC:11590770)的支持,在此表示衷心的感谢!
由于编著者水平和经验有限,书中错误之处在所难免,敬请读者指正。
编著者
2018年5月
评论
还没有评论。