描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111720652
五大实战项目,详解大数据分析处理系统(离线/实时)的技术构成与开发实现
随书配备10GB学习资源,包括虚拟机集群、安装包、 配置文件、程序源代码
实战大数据—— 分布式大数据分析处理系统开发与应用,适合从事大数据系统搭建与运维、大数据分析等岗位的技术人员阅读,也适合高等院校大数据相关专业的学生使用。
第1章 大数据概述1
1.1 大数据的基本概念1
1.1.1 何谓大数据1
1.1.2 大数据的产生阶段2
1.1.3 大数据的核心技术和计算模式2
1.2 大数据的应用2
1.2.1 大数据的应用场景2
1.2.2 大数据系统的作用2
1.3 大数据技术生态圈3
1.3.1 Linux操作系统3
1.3.2 Hadoop生态系统6
1.3.3 Spark对Hadoop的完善8
1.4 大数据技术的新发展9
1.4.1 Hadoop 3.0的新特性9
1.4.2 大数据引擎Flink10
1.4.3 智能化大数据分析处理11
本章小结12
第2章 大数据分析的基本流程与工具13
2.1 数据采集13
2.1.1 网络爬虫采集数据13
2.1.2 使用Excel爬取数据14
2.2 数据存储16
2.2.1 关系型数据的存储—基于MySQL16
2.2.2 非关系型数据的存储—基于
Redis、HBase17
2.3 数据分析与数据处理18
2.3.1 数据分析常用工具—pandas19
2.3.2 分布式计算框架19
2.3.3 分布式数据挖掘和深度学习20
2.4 数据可视化22
2.4.1 Python数据可视化库Matplotlib22
2.4.2 Python数据可视化库pyecharts22
2.4.3 数据可视化图表库ECharts23
2.4.4 数据可视化工具Apache Superset24
本章小结24
第3章 分布式大数据分析处理系统
概述25
3.1 什么是分布式大数据分析处理
系统25
3.2 分布式大数据分析处理系统的
作用26
3.3 分布式大数据分析处理系统的
应用场景26
3.4 分布式大数据分析处理系统的
构成30
3.4.1 数据采集子系统30
3.4.2 数据存储系统30
3.4.3 数据分析处理系统31
3.4.4 数据可视化系统32
3.5 分布式大数据分析处理系统的
实现32
3.5.1 系统前端—HTML、CSS、jQuery32
3.5.2 系统后端—SpringBoot、SSM33
3.5.3 Web服务器端—Tomcat35
本章小结35
第4章 构建大数据集群环境36
4.1 部署大数据处理环境36
4.1.1 搭建Hadoop集群36
4.1.2 ZooKeeper的安装部署42
4.1.3 Kafka的安装部署45
4.1.4 Spark集群搭建47
4.2 部署大数据存储环境49
4.2.1 MySQL的安装部署49
4.2.2 Hive的安装部署50
4.2.3 HBase的安装部署51
4.2.4 Redis的安装部署55
本章小结57
第5章 构建基于LayUI的集群管理
系统58
5.1 集群管理系统概述58
5.1.1 需求分析58
5.1.2 系统架构—系统+集群+UI59
5.2 系统开发的前期准备操作60
5.2.1 本机环境配置60
5.2.2 集群环境配置62
5.2.3 构建项目工程结构74
5.3 系统的代码实现75
5.3.1 Controller层实现75
5.3.2 构造系统所需工具包90
5.3.3 核心类实现97
5.4 构造系统UI界面—基于
LayUI100
本章小结105
第6章 基于HBase的大数据离线分析
系统106
6.1 系统架构概述106
6.1.1 需求分析106
6.1.2 系统架构—HBase+SpringBoot+
ECharts107
6.2 采集股份转让数据108
6.2.1 使用爬虫抓取数据108
6.2.2 数据采集模块测试111
6.3 数据存储和处理模块实现113
6.3.1 数据库设计113
6.3.2 使用HBase存储并处理数据114
6.3.3 数据存储和处理模块测试119
6.4 数据可视化模块实现120
6.4.1 数据可视化模块后端设计—
基于SpringBoot120
6.4.2 数据可视化模块前端设计—
基于ECharts122
6.4.3 数据可视化页面展示125
本章小结126
第7章 基于Hive+Hadoop+Spark的
大数据离线分析系统127
7.1 系统架构概述127
7.1.1 需求分析127
7.1.2 数据存储—Hive+Hadoop129
7.1.3 数据处理与可视化—
Spark+SSM+ECharts129
7.2 采集旅游相关数据130
7.2.1 使用爬虫采集城市、景点数据130
7.2.2 数据采集模块测试133
7.3 数据存储模块实现135
7.3.1 数据库设计135
7.3.2 使用HDFS和Hive存储数据137
7.3.3 数据存储模块测试138
7.4 数据分析处理模块实现139
7.4.1 Spark处理数据139
7.4.2 分词处理和情感分析—
基于jieba+SnowNLP库139
7.4.3 数据分析处理模块测试142
7.5 数据可视化模块实现143
7.5.1 数据可视化模块后端设计—
基于SSM143
7.5.2 数据可视化模块前端设计—
基于ECharts154
7.5.3 数据可视化页面展示161
本章小结167
第8章 基于MySQL+Spark的大数据
离线分析系统168
8.1 系统架构概述168
8.1.1 需求分析168
8.1.2 数据存储—MySQL170
8.1.3 数据处理与可视化—
Spark Streaming +Apache Superset170
8.2 采集电商数据170
8.2.1 使用爬虫爬取商品信息170
8.2.2 数据采集模块测试182
8.3 数据分析处理模块实现183
8.3.1 数据库设计183
8.3.2 Spark处理商品数据185
8.3.3 数据分析处理模块测试192
8.4 数据可视化模块实现193
8.4.1 使用Apache Superset绘制数据
可视化图表193
8.4.2 数据可视化页面展示193
本章小结196
第9章 基于Redis+Kafka+Spark的
大数据实时分析系统197
9.1 系统架构概述197
9.1.1 需求分析197
9.1.2 数据存储—Redis198
9.1.3 数据处理与可视化—Kafka+
Spark Streaming+SSM+ECharts199
9.2 采集汽车网站数据199
9.2.1 使用爬虫获取汽车和用户
数据199
9.2.2 数据采集模块测试201
9.3 数据存储模块实现201
9.3.1
当今时代,物联网、大数据、云计算、人工智能等热词铺天盖地地向人们袭来。其中,大数据技术已经广泛应用于金融、医疗、教育、电信以及电商等领域。
2020年,国家推出了“新基建”战略,将5G、大数据中心、人工智能和工业互联网列为新型基础设施建设的重点。在国家政策的引领下,各行各业都将大数据产业列为优先发展目标,大数据时代已经到来。
大数据是信息产业持续高速增长的新引擎,已成为提高企业核心竞争力的关键因素。大数据时代科学研究的方法手段发生了重大变革,对大数据的处理分析已经成为新一代信息技术融合应用的关键。各行各业对于大数据人才的需求呈现井喷式增长,高校大数据相关专业的建设也呈现这一态势。众多企事业单位都迫切需要具备理论基础和实践技能的大数据人才。相应地,对适合此类人才培养的大数据技术应用型图书的需求也非常迫切。
本书从大数据技术相关概念出发,系统介绍了大数据分析的流程和大数据分析处理系统的组成,详细讲解了大数据集群的搭建过程,并以大数据集群为基础深入剖析了多个离线数据分析和实时数据分析的实战项目案例,涵盖了生产生活中的多个大数据应用场景。本书理论结合实际,特别突出了实践特色,能够很好地满足高校大数据人才培养需求和大数据相关岗位工程师的技能提升需求。
全书共10章,第1章对大数据相关内容进行概述,第2章介绍了大数据分析的基本流程与工具,第3章介绍了分布式大数据分析处理系统,第4章介绍了构建大数据集群环境的方法和步骤,第5章介绍了如何构建基于LayUI的集群管理系统,第6章介绍了基于HBase的大数据离线分析系统,第7章介绍了基于Hive+Hadoop+Spark的大数据离线分析系统,第8章介绍了基于MySQL+Spark的大数据离线分析系统,第9章介绍了基于Redis+Kafka+Spark的大数据实时分析系统,第10章介绍了基于Flume+Kafka+Flink的大数据实时分析系统。
本书前4章作为理论体系,介绍了大数据分析系统的基本概念、基本原理、基本组成和构建方法。第5章用Java语言编写了一个集群管理系统。第6~8章介绍了三个不同应用场景下的大数据离线分析系统。第9、10章介绍了两个不同应用场景下的大数据实时分析系统。本书可以帮助读者建立对大数据技术概念的整体认知,通过丰富的实践案例帮助读者掌握主流大数据技术的实际应用,具有较强的实用性和指导性。
本书也可作为有一定大数据基础的读者的参考书,方便查阅相应技术、配置方式等。本书配有电子课件、源代码、视频和附带的集群,供读者学习使用。
在本书编写过程中,杨俊负责撰写第10章,乔钢柱负责撰写第3章,其余章节均为井超撰写。在本书写作过程中,特别感谢郭媛、刘甜甜、李沛洋、王晗、朱忠诺、张龙浩、王秀峰等人提供的协助。在此,也向机械工业出版社的谢辉、王斌等编辑表示衷心的感谢。
评论
还没有评论。