描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111600107
博客园资深博主、极客学院特邀讲师分享多年的Hadoop使用经验
全面涵盖了Hadoop从基础部署到集群管理,再到底层设计等重点内容
深度剖析Kafka开源监控工具Kafka Eagle的设计和架构思想
提供了近200分钟配套教学视频,手把手带领读者高效学习
详解51个实例和10个综合案例,带领读者通过实际动手提高编程水平
书中的所有实例和案例均来源于作者多年的工作经验积累和技术分享
给出了大量的“避坑”技巧,让读者在实际开发中少走弯路
用浅显易懂的语言进行讲解,读者阅读时不会有云山雾罩的感觉
本书内容速览:
集群及开发环境搭建
快速构建一个Hadoop项目并线上运行
Hadoop套件实战
Hive编程——使用SQL提交MapReduce任务到Hadoop集群
游戏玩家的用户行为分析——特征提取
Hadoop平台管理与维护
Hadoop异常处理解决方案
初识Hadoop核心源码
Hadoop通信机制和内部协议
Hadoop分布式文件系统剖析
ELK实战案例——游戏应用实时日志分析平台
Kafka实战案例——实时处理游戏用户数据
Hadoop拓展——Kafka剖析
本书10大实战案例
快速构建一个Hadoop项目并线上运行
Sqoop数据传输工具实战案例
Flume日志收集工具实战案例
HBase分布式数据库实战案例
Zeppelin数据集分析工具实战案例
Drill低延时SQL查询引擎实战案例
Spark实时流数据计算实战案例
特征提取实战案例:游戏玩家的用户行为分析
ELK实战案例:游戏应用实时日志分析平台
Kafka实战案例:实时处理游戏用户数据
本书采用“理论 实战”的形式编写,全面介绍了Hadoop大数据挖掘的相关知识。本书秉承循序渐进、易于理解、学以致用和便于查询的讲授理念,讲解时结合了大量实例和作者多年积累的一线开发经验。本书作者拥有丰富的视频制作与在线教学经验,曾经与极客学院合作开设过在线视频教学课程。为了帮助读者高效、直观地学习本书内容,作者特意为本书录制了配套教学视频,这些教学视频和本书配套源代码文件读者都可以免费获取。
本书共分为13章,涵盖的主要内容有:集群及开发环境搭建;快速构建一个Hadoop项目并线上运行;Hadoop套件实战;Hive编程——使用SQL提交MapReduce任务到Hadoop集群;游戏玩家的用户行为分析——特征提取;Hadoop平台管理与维护;Hadoop异常处理解决方案;初识Hadoop核心源码;Hadoop通信机制和内部协议;Hadoop分布式文件系统剖析;ELK实战案例——游戏应用实时日志分析平台;Kafka实战案例——实时处理游戏用户数据;Hadoop拓展——Kafka剖析。
本书通俗易懂,案例丰富,实用性强,不但适合初学者系统学习Hadoop的各种基础语法和开发技巧,而且也适合有开发经验的程序员进阶提高。另外,本书还适合社会培训机构和相关院校作为教材或者教学参考书。
大数据时代,数据的存储与挖掘至关重要。企业在追求高可靠性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。
Hadoop在分布式计算与存储上具有先天优势。它作为Apache软件基金会的开源项目,其版本迭代持续至今,而且已经拥有一个非常活跃的社区和全球众多开发者,并且成为了当前非常流行的大数据处理平台。很多公司,特别是互联网公司,都纷纷开始使用或者已经使用Hadoop来做海量数据存储与数据挖掘。
Hadoop简单易学,其学习曲线平缓且学习周期短。它的操作命令和Linux命令非常相似。一个熟悉Linux的开发者只需要短短的一周时间,就可以学会Hadoop开发,完成一个高可用集群的部署和高可用应用程序的编写。
面对Hadoop的普及和学习热潮,笔者愿意分享自己多年的开发经验,带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。这便是笔者编写本书的原因。本书使用通俗易懂的语言进行讲解,从基础部署到集群的管理,再到底层设计等内容均有涉及。通过阅读本书,读者可以较为轻松地掌握Hadoop大数据挖掘与分析的相关技术。
本书特色
1.提供专业的配套教学视频,高效、直观
笔者曾接受过极客学院的专业视频制作指导,并在极客学院录制过多期Hadoop和Kafka实战教学视频课程,得到了众多学习者的青睐及好评。为了便于读者更加高效、直观地学习本书内容,笔者特意为本书实战部分的内容录制了配套教学视频,读者可以在教学视频的辅助下学习,从而更加轻松地掌握Hadoop。
2.分享大量来自一线的开发经验,贴近实际开发
本书给出的代码讲解和实例大多数来自于笔者多年的教学积累和技术分享,几乎都是得到了学习者一致好评的干货。另外,笔者还是一名开源爱好者,编写了业内著名的Kafka Eagle监控系统。本书第13章介绍了该系统的使用,以帮助读者掌握如何监控大数据集群的相关知识。
3.分享多个来自一线的实例,有很强的实用性
本书精心挑选了多个实用性很强的例子,如Hadoop套件实战、Hive编程、Hadoop平台管理与维护、ELK实战和Kafka实战等。读者不但可以从这些例子中学习和理解Hadoop及其套件的相关知识点,而且还可以将这些例子应用于实际开发中。
4.讲解通俗易懂,力争触类旁通,举一反三
本书用通俗易懂的语言讲解,避免“云山雾罩”,让读者不知所云。书中在讲解一些常用知识点时将Hadoop命令与Linux命令进行了对比,便于熟悉Linux命令的读者能够迅速掌握Hadoop的操作命令。
本书内容
第1章 集群及开发环境搭建
本章介绍的主要内容包括:环境准备;安装Hadoop;演示Hadoop版Hello World示例程序,以及搭建Hadoop开发环境。
第2章 实战:快速构建一个Hadoop项目并线上运行
本章首先介绍了快速构建项目工程的方法,如Maven和Java Project;然后介绍了分布式文件系统的操作命令,以及利用IDE提交MapReduce作业的相关知识;后介绍了编译应用程序并打包,以及部署与调度等内容。
第3章 Hadoop套件实战
本章介绍了Hadoop生态圈中常见的大数据套件的背景知识和使用方法,涵盖Sqoop、Flume、HBase、Zeppelin、Drill及Spark等套件。
第4章 Hive编程——使用SQL提交MapReduce任务到Hadoop集群
本章主要介绍了Hive数据仓库的相关内容:Hive底层设计组成;安装和配置Hive;基于Hive应用接口进行编程;开源监控工具Hive Cube。
第5章 游戏玩家的用户行为分析——特征提取
本章首先对Hadoop的基础知识进行了梳理;然后介绍了项目的背景和平台架构;接着对项目进行了整体分析与指标设计,并进行了技术选型;后对分析的指标进行了编码实践。
第6章 Hadoop平台管理与维护
本章介绍了Hadoop平台管理与维护的重要方法。本章首先介绍了Hadoop分布式文件系统的特性,然后介绍了HDFS的基础命令,并对NameNode进行了解读。另外,本章对Hadoop平台维护时的常规操作,如节点管理、HDFS快照和安全模式等内容也进行了讲解。
第7章 Hadoop异常处理解决方案
本章介绍了Hadoop异常处理解决方案的几个知识点。主要内容包括:跟踪日志;分析异常信息;利用搜索引擎检索关键字;查看Hadoop JIRA;阅读Hadoop源代码。
本章后以实战案例的形式分析了几种异常情况:启动HBase集群失败;HBase表查询失败;Spark的临时数据不自动清理等。
第8章 初识Hadoop核心源码
本章首先介绍了Hadoop源码基础环境准备及源代码编译;接着介绍了Hadoop的起源和两代MapReduce框架间的差异;后介绍了Hadoop的序列化机制。
第9章 Hadoop通信机制和内部协议
本章首先介绍了Hadoop通信模型和Hadoop RPC的特点;然后通过编码实践介绍了Hadoop RPC的使用,同时还介绍了与之类似的开源RPC框架;后介绍了MapReduce的通信协议和RPC协议的实现过程。
第10章 Hadoop分布式文件系统剖析
本章主要介绍了Hadoop分布式文件系统的设计特点、命令空间和节点、数据备份策略等内容,后以实战的形式演示了跨平台数据迁移的过程。
第11章 ELK实战案例——游戏应用实时日志分析平台
本章介绍了常用的ELK套件:Logstash——实时日志采集、分析和传输;Elasticsearch——分布式存储及搜索引擎;Kibana——可视化管理系统。
第12章 Kafka实战案例——实时处理游戏用户数据
本章首先介绍了Kafka项目的背景,以及Kafka集群和Storm集群的安装过程;然后对项目案例进行了分析与指标设计,并利用笔者多年的大数据开发经验设计项目体系架构;后演示了各个模块的编码实现,如生产模块、消费模块、数据持久化实现及应用调度实现等。
第13章 Hadoop拓展——Kafka剖析
本章主要介绍了Kafka的基本特性与结构,以及笔者设计并开发的开源Kafka监控工具Kafka Eagle。本章关键知识点包括:Kafka开发与维护;开源监控工具Kafka Eagle的使用;Kafka源代码分析,如分布式选举算法剖析、Kafka Offset解读、Kafka存储机制和副本剖析等。
本书配套学习资源
本书提供了配套教学视频和实例源代码文件等超值资源。请在机械工业出版社华章公司的网站www.hzbook.com上搜索到本书页面,然后在“资料下载”模块下载这些学习资源。
本书读者对象
? Hadoop初学者;
? Hadoop进阶人员;
? 后端程序初学者;
? 前端转后端的开发人员;
? 熟悉Linux和Java而需要学习Hadoop的编程爱好者;
? 想用Hadoop快速编写海量数据处理程序的开发者;
? 相关培训机构的学员和高等院校的学生。
……
本书不仅全面介绍了Hadoop的语法和开发技巧,而且还剖析了作者开发的Kafka开源监控工具Kafka Eagle的设计和架构思想,给读者提供了一个从入门到进阶的渐进式学习路径,是一本值得反复阅读的佳作。
——微众银行数据科学与智能应用部 钟晧明(博士)
本书是作者多年Hadoop项目开发的经验总结。对于想要学习Hadoop大数据挖掘技术的读者而言,本书是一本很好的自学教程。作者用简单明了的语言,由浅入深地介绍了书中的每个知识点,并结合大量实例分析问题,可以帮助读者很好地掌握Hadoop技术的重要知识点和开发技巧。
——小米科技大数据&云技术SRE负责人 刘亚运
评论
还没有评论。