描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111620167
本书内容非常全面,除了介绍基本的Hadoop核心技术,更完整介绍了Hadoop生态圈,并在此基础上全景展现了主要的大数据实用技术。
实践性很强。配套资源很丰富,除了相应的程序源代码、数据集之外,更配有的海量教学视频(扫码可见)。囊括了书中介绍的所有实践环节,包括实践项目都通过教学视频加以介绍,内容前所未有的充实!
作者团队来自一线开发人员,兼具实践和教学经验。
本书既可作为高等院校大学本专科计算机专业的教学用书,也可作为相关技术人员的参考用书。本书配套授课电子课件,需要的教师可登录www.cmpedu.com免费注册,审核通过后下载,或联系编辑索取(QQ:2966938356,电话:010-88379739)。
前言
第1章 Hadoop大数据技术概述
1.1 Hadoop 的前世今生
1.2 Hadoop生态系统简介
1.3 Hadoop优势及应用领域
1.4 Hadoop与云计算
1.5 Hadoop与Spark
1.6 Hadoop 与传统关系型数据库
第2章 Hadoop开发及运行环境搭建
2.1 Hadoop集群环境搭建概述
2.2 Hadoop伪分布式集群环境搭建
2.3 搭建MyEclipse开发环境
第3章 HDFS分布式文件系统
3.1 HDFS体系结构详解
3.2 HDFS的Shell操作
3.3 HDFS的Java API操作
3.4 HDFS的新特性——HA
3.5 实战:小文件合并程序编写及运行
第4章 MapReduce分布式计算框架
4.1 初识MapReduce
4.2 MapReduce编程模型
4.3 MapReduce运行框架
4.4 实战:统计相同字母组成的不同单词
第5章 Hadoop的文件I/O
5.1 Hadoop文件I/O概述
5.2 Hadoop文件I/O的数据完整性
5.3 Hadoop文件的序列化
5.4 Hadoop数据的解压缩
5.5* 基于文件的数据结构
5.6* 实战:Hadoop源码编译及Snappy压缩的配置使用
第6章 YARN资源管理器
6.1 初识YARN
6.2 YARN基本架构
6.3 YARN的工作原理
6.4 YARN的容错性
6.5 YARN HA
第7章* Zookeeper分布式协调服务
7.1 Zookeeper概述
7.2 Zookeeper安装配置
7.3 Zookeeper 服务
7.4 Zookeeper的应用
7.5 实战:模拟实现集群配置信息的订阅与发布
第8章 Hadoop分布式集群搭建与管理
8.1 物理集群准备
8.2 集群规划
8.3 集群安装前的准备
8.4 Hadoop相关软件安装
8.5 Hadoop集群环境搭建
8.6 集群启停
8.7* 主机维护操作
8.8* 集群节点动态增加与删除
8.9* 集群运维技巧
第9章 Hive数据仓库
9.1 初识Hive
9.2 Hive的原理及架构
9.3 Hive的安装部署
9.4 Hive数据库相关操作
9.5 Hive数据表相关的操作
9.6 Hive的数据操作语言DML
9.7 Hive的数据查询语言DQL
9.8 实战:通过Hive分析股票走势规律
第10章 HBase分布式数据库
10.1 HBase 概述
10.2 HBase 数据模型
10.3 HBase核心概念
10.4 HBase集群安装部署
10.5 HBase Shell 工具
10.6 HBase Java客户端
10.7 实战:MapReduce批量操作HBase
第11章 Hadoop生态系统常用开发技术
11.1 Sqoop数据导入导出工具
11.2 Flume日志采集系统
11.3 Kafka分布式消息系统
11.4* ElasticSearch全文检索工具
11.5* Storm流式计算框架
11.6* Spark内存计算框架
第12章 项目实践:广电收视率数据统计分析
第13章* 项目实践:视频网站爬虫系统开发
参考文献
Hadoop 大数据技术是大数据技术中非常重要的一个组成部分,本书系统全面地介绍了Hadoop大数据开发技术的基础及应用,介绍了 Hadoop 核心组件以及Hadoop生态系统常用组件,然后再通过完整的项目实战案例整合相关技术组件。内容安排层层递进,逐步引导读者深入学习,掌握Hadoop的精髓。
本书主要特色在于有大量的项目实践案例,对基于Hadoop的大数据相关技术组件进行整合应用,避免了纯理论学习、孤立的技术组件学习,使读者在学习了大数据相关技术组件之后,能真正应用到实际项目中,从而掌握实际的项目经验。
本书共有13章。
第1章是Hadoop大数据技术概述,主要讲解了Hadoop前世今生、Hadoop生态系统、Hadoop优势及应用领域,以及Hadoop技术与其他技术之间的关系,让读者对Hadoop有个整体的认识。
第2章主要是对Hadoop运行环境以及MyEclipse开发环境的安装进行详细讲解,让读者了解环境搭建的整个过程。
第3章详细讲解了HDFS分布式文件系统,包括HDFS体系结构、访问方式以及新特性,让读者对HDFS有一个全面的了解。HDFS是Hadoop核心组件之一,任何基于Hadoop应用的组件都要用到HDFS。
第4章主要介绍了MapReduce编程模型、系统架构和运行原理,讲解了MapReduce数据本地性、容错性以及资源组织方式。另外,还扩展学习了计数器、二次排序、Join算法等MapReduce高级特性。通过本章内容的学习,奠定MapReduce开发基础。
第5章主要讲解了 Hadoop的文件I/O,让读者了解Hadoop底层的一些原理。学完本章之后,读者可对 Hadoop 的输入和输出、数据完整性、文件的序列化、数据的压缩以及文件的数据结构等有进一步的理解。
第6章主要介绍了第二代MapReduce即YARN,讲解了YARN与第一代MapReduce的关系、YARN的架构及工作原理。另外,还讲解了MapReduce On YARN工作流程以及YARN的容错性和YARN的高可用(HA)。
第7章介绍了Zookeeper分布式协调服务的基本架构、工作原理、安装配置以及相关服务。另外,还讲解了Zookeeper常见应用场景以及具体项目案例。Zookeeper是一个分布式协调服务,Hadoop生态系统中大部分组件都需要用到Zookeeper,Zookeeper在实际项目中应用广泛,必须熟练掌握。
第8章详细讲解了Hadoop分布式集群的搭建过程,以及Hadoop集群的管理。
第9章对Hive数据仓库的架构原理、安装部署以及相关操作进行了详细介绍。Hive是基于Hadoop的一个数据仓库,支持类似SQL语句来代替MapReduce,这样使得编程零基础的用户也能利用Hadoop平台对海量数据进行分析。
第10章主要介绍了HBase分布式数据仓库的数据模型核心概念、安装部署、Shell工具的操作以及Java客户端的操作。HBase是一个基于列存储的NoSQL数据库,不同于一般的NoSQL数据库,HBase是一个适合于非结构化数据存储的数据库。
第11章总体介绍了Hadoop生态系统中其他常用的技术组件,比如Flume日志采集系统,Kafka分布式消息系统,ElasticSearch全文检索工具,Storm流式计算框架和Spark实时计算框架等,在实际项目中应用都非常广泛。
第12章介绍了广电收视率数据统计分析项目的背景、需求分析,详细讲解了大数据离线项目的开发流程,并完成数据的可视化,让读者掌握的大数据相关技术组件能应用到企业实际项目中。
第13章介绍了视频网站爬虫系统开发项目的整个系统开发流程,并重点讲解了爬虫开发过程中的难点以及解决方案,同时还详细讲解了对项目的优化以及可视化,让读者全方位掌握大数据爬虫技术。
本书内容非常丰富,除了介绍Hadoop的核心技术之外,围绕Hadoop生态系统扩展介绍了大量的大数据技术,涵盖面相当广泛。除了可以满足课堂教学需求之外,众多的扩展学习内容和实践案例对于学有余力的同学和从事大数据技术开发的从业者来讲也非常有价值。
学习本书相关内容首先需要具备一定的Java语言基础,在学习过程中,第1章~第4章、第6章、第9章、第10章、第12章的内容是要求必须掌握的,第5章、第7章、第8章、第11章的部分内容可以不要求一定掌握(在目录中标有星号的章节),第13章的项目实践难度较大,扩展的知识点多,不要求全部掌握,可作为扩展学习内容结合配套学习视频供读者朋友自学。
本书配有大量的扩展阅读视频,对学习本书内容可以起到非常好的辅助效果,本书内容涉及的源代码都随书提供给读者,方便读者学习实践。
本书由北京大讲台科技有限公司(简称大讲台科技)下的大讲台大数据研习社组织编写,杨俊、雷迪负责编写,雷迪编写第1~7章,杨俊编写8~13章。其他参与的人员有:蓝黄蓉、周亚楠、张华、王少杰、冯雪然、戈启业。全书由孙斌统稿,黄炳全主审。书中部分内容参考了网上部分资料,由于参考内容来源广泛,篇幅有限,恕不一一列出,在此一并表示感谢。
由于大数据开发技术发展迅速,而且相关技术组件繁多,书中难免有不足之处,恳请各位同仁及读者提出宝贵意见和建议。
编
评论
还没有评论。