描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302589594丛书名: 大数据技术与应用丛书
Hive提出海量数据可以继续沿用传统数据分析方法SQL语句来处理的思想,开发人员不需要学习新的计算机语言而继续使用熟悉的SQL结构化查询语句来处理大规模的数据,Hive中的SQL语句我们称之为HiveQL查询语句,HiveQL查询语句的语法结构与传统SQL语句的语法结构几乎是一模一样的。Hive运行在Hadoop分布式系统中,这使得Hive不仅可以使用HDFS进行分布式存储,而且还可以通过MapReduce分布式计算框架来查询数据,相比于传统数据仓库来说,Hive在存储性能和查询效率上都得到了很好的提升。
本书将带领大家认识Hive的相关技术。通过学习本书,使读者对Hive有一个深刻的认识,本书共分为9章。
本书从理论知识入手,结合数据仓库的概念帮助读者更好地理解Hive,在掌握Hive相关理论知识的基础上,逐步深入地学习Hive。“工欲善其事,必先利其器”,首先从创建虚拟机并安装Linux操作系统开始逐步完成Hive的部署,然后在部署完成的Hive环境基础上,学习Hive数据定义语言、Hive数据操作语言和Hive数据查询语言的相关操作,在学习了上述三种语言之后,接下来深入学习Hive的其他功能,包括Hive内置函数、Hive自定义函数、Hive的新特性事务以及Hive的相关优化,从而帮助读者掌握Hive的强大功能和特性。后,本书通过一个综合项目——教育大数据分析平台,使读者对Hive数据仓库在实际应用中涉及的相关知识内容具有更深入的理解,在此项目中不仅会涉及使用Hive实现数据仓库分层、数据转换和数据分析的相关操作,而且还涉及使用Sqoop将数据仓库中的数据进行导出和导入,以及使用FineBI工具实现数据可视化功能。 本书附有配套视频、源代码、习题、教学设计、教学课件等资源。同时,为了帮助初学者更好地学习本书的内容,还提供了在线答疑,欢迎读者关注。 本书可以作为高等学校本、专科计算机相关专业,信息管理等相关专业的大数据课程教材,也可以供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。
第1章Hive简介1
1.1认识数据仓库1
1.1.1数据仓库简介1
1.1.2数据仓库分层3
1.1.3数据仓库的数据模型5
1.2Hive概述6
1.3Hive架构7
1.4Hive工作原理8
1.5Hive数据类型9
1.6本章小结10
1.7课后习题11
第2章Hive部署12
2.1Linux环境的搭建12
2.1.1创建虚拟机12
2.1.2启动虚拟机并安装Linux操作
系统19
2.1.3克隆虚拟机26
2.1.4配置Linux系统网络及主机名30
2.1.5配置SSH服务34
2.2JDK的部署42
2.3Zookeeper的部署43
2.3.1Zookeeper集群的安装与配置43
2.3.2Zookeeper集群的启动与关闭46
2.4Hadoop的部署48
2.4.1Hadoop高可用集群的规划48
2.4.2安装Hadoop49
2.4.3配置Hadoop高可用集群51
2.4.4启动Hadoop高可用集群58
2.5Hive的部署622.5.1Hive部署之嵌入模式62
2.5.2Hive部署之本地模式64
2.5.3Hive部署之远程模式70
2.6本章小结74
2.7课后习题74
目录Hive数据仓库应用第3章Hive的数据定义语言76
3.1数据库的基本操作76
3.1.1创建数据库76
3.1.2查询数据库77
3.1.3查看数据库信息78
3.1.4切换数据库79
3.1.5修改数据库79
3.1.6删除数据库80
3.2数据表的基本操作81
3.2.1CREATE TABLE句式分析81
3.2.2数据表简介84
3.2.3创建数据表84
3.2.4查看数据表86
3.2.5修改数据表88
3.2.6删除数据表94
3.3分区表95
3.3.1创建分区表95
3.3.2查询分区表96
3.3.3添加分区97
3.3.4重命名分区98
3.3.5移动分区98
3.3.6删除分区100
3.4分桶表101
3.4.1创建分桶表101
3.4.2查看分桶表信息102
3.5临时表103
3.6视图104
3.6.1创建视图105
3.6.2查询视图信息105
3.6.3查看视图106
3.6.4修改视图107
3.6.5删除视图109
3.7索引109
3.7.1Hive中的索引110
3.7.2创建索引110
3.7.3查看索引表111
3.7.4查看索引111
3.7.5重建索引112
3.7.6删除索引113
3.8本章小结114
3.9课后习题114
第4章Hive的数据操作语言116
4.1加载文件116
4.1.1加载文件的语法格式116
4.1.2向分区表加载文件119
4.2基本查询120
4.3插入数据121
4.3.1基本插入121
4.3.2查询插入123
4.3.3向分区表插入数据127
4.4IMPORT和EXPORT131
4.5本章小结133
4.6课后习题133
第5章Hive数据查询语言135
5.1SELECT句式分析135
5.2Hive运算符138
5.2.1关系运算符138
5.2.2算术运算符140
5.2.3逻辑运算符142
5.2.4复杂运算符143
5.3公用表表达式146
5.4分组操作147
5.5排序操作149
5.6UNION语句154
5.7JOIN语句156
5.8抽样查询161
5.8.1随机抽样161
5.8.2分桶抽样162
5.8.3数据块抽样162
5.9本章小结164
5.10课后习题164
第6章Hive函数165
6.1Hive内置函数165
6.1.1聚合函数165
6.1.2数学函数169
6.1.3集合函数170
6.1.4类型转换函数171
6.1.5日期函数172
6.1.6条件函数176
6.1.7字符串函数178
6.1.8表生成函数182
6.2Hive自定义函数185
6.2.1UDF186
6.2.2UDTF196
6.2.3UDAF199
6.3本章小结203
6.4课后习题203
第7章Hive事务205
7.1事务特性205
7.2Hive事务的设计与实现206
7.3开启Hive事务207
7.4更新操作209
7.5删除操作210
7.6本章小结211
7.7课后习题211
第8章Hive优化213
8.1Hive存储优化213
8.2Hive参数优化215
8.2.1配置MapReduce压缩215
8.2.2配置Map个数216
8.2.3配置Reduce个数217
8.2.4配置合并文件217
8.2.5配置并行执行218
8.2.6配置本地模式218
8.2.7配置分组219
8.3HiveQL语句优化技巧219
8.4本章小结219
8.5课后习题220
第9章综合项目——教育大数据分析平台221
9.1项目概述221
9.1.1项目背景介绍221
9.1.2需求分析222
9.1.3原始数据结构222
9.1.4数据仓库分层设计223
9.1.5项目架构224
9.2部署Sqoop225
9.3实现数据仓库分层227
9.4数据采集231
9.5数据转换235
9.6数据分析237
9.6.1实现地区访问用户量统计237
9.6.2实现会话页面排行榜238
9.6.3实现访问用户量统计240
9.6.4实现来源渠道访问用户量统计241
9.6.5实现咨询率统计242
9.7数据可视化245
9.7.1导出数据245
9.7.2安装、启动与配置FineBI247
9.7.3实现数据可视化260
9.8本章小结271
大数据是信息化发展的新阶段,随着全球数据存储量的不断提高,大数据正进入发展加速时期。近年来,随着5G、AI、云计算、区块链等新一代信息技术的蓬勃发展,大数据技术走向融合发展的关键阶段。同时,我国大数据产业保持良好发展势头,“大数据 行业”渗透融合全面展开,融合生态加速构建,新技术、新业态、新模式不断涌现,政策支持、战略引领、标准规范、产业创新的良性互动局面正在形成。
随着大数据时代的到来,各企业都积累了大量的数据,随着数据量的不断增长,企业不仅需要花费巨大的硬件成本来存储这些数据,而且还需要人员成本来维护这些数据。对于一个企业来说,如果只是单纯地存储和维护这些数据,那么这些数据将变得毫无价值,只是一种单纯的消耗品,于是企业开始利用这些持续不断增长的数据,从中挖掘出具有潜在商业价值的信息,帮助企业从数据中获取经验,从而为企业创造有效价值。对于这些积累下来的大量数据,通常称为离线数据。常见的离线计算框架有MapReduce和Spark,然而使用这些框架需要开发人员至少拥有Java语言的基础,对于那些熟悉使用SQL的传统数据分析人员来说并不能得心应手,于是一个全新的技术——Hive离线处理工具进入了大众的视野。
Hive提出海量数据可以继续沿用传统数据分析方法——SQL语句来处理的思想,开发人员不需要学习新的计算机语言而继续使用熟悉的SQL结构化查询语句来处理大规模的数据,Hive中的SQL语句称为HiveQL查询语句,HiveQL查询语句的语法结构与传统SQL语句的语法结构几乎一样。Hive运行在Hadoop分布式系统中,这使得Hive不仅可以使用HDFS进行分布式存储,还可以通过MapReduce分布式计算框架来查询数据,相比于传统数据仓库来说,Hive在存储性能和查询效率上都得到了很好的提升。
本书带领大家认识Hive的相关技术。通过学习本书,使读者对Hive有深刻的认识,本书共分为9章,接下来分别对每章所讲解的知识内容进行简要介绍。
第1章主要从数据仓库和Hive的理论知识出发,讲解数据仓库和Hive的相关概念,包括数据仓库分层、数据仓库的数据模型、Hive架构、Hive工作原理等内容。
第2章讲解如何部署Hive的嵌入模式、本地模式和远程模式,本章从0开始教会读者如何部署Hive,其中包括虚拟机的创建、Linux操作系统的安装与配置、Hadoop高可用集群的部署等内容。
第3章主要讲解了Hive数据定义语言的相关操作,包括数据库的基本操作、数据表的基本操作,以及分区表、分桶表、临时表、视图和索引的相关操作。
第4章主要讲解了Hive数据操作语言的相关操作,包括加载文件、基本查询、插入数据以及IMPORT和EXPORT。
第5章主要讲解了Hive数据查询语言的相关操作,包括SELECT句式分析、Hive运算符、公用表表达式、分组操作、排序操作、UNION语句、JOIN语句以及抽样查询。
第6章主要讲解了Hive函数的相关操作,针对Hive的内置函数和自定义函数两方面进行详细讲解。
第7章主要讲解了Hive事务的相关概念和操作,包括ACID概述、Hive事务的设计与实现、开启Hive事务、事务表的更新操作和删除操作。
第8章主要讲解了Hive优化的相关知识,包括Hive存储优化、Hive参数优化和HiveQL语句优化技巧。
第9章讲解了一个综合项目——教育大数据分析平台,主要针对Hive数据仓库在实际应用中涉及的相关知识内容进行详细讲解,包括使用Hive实现数据仓库分层、数据转换、数据分析,以及相关大数据工具Sqoop和FineBI的使用。
致谢
本书的编写和整理由江苏传智播客教育科技股份有限公司教材研发中心完成,主要参与人员有高美云、张明强、李丹等,全体人员在近一年的编写过程中付出了许多辛勤的汗水。除此之外,还有传智播客600多名学员参与了本书的试读工作,他们站在初学者的角度对本书提供了许多宝贵的修改意见,在此一并表示衷心的感谢。
意见反馈
尽管我们尽了的努力,但书中难免会有不妥之处,欢迎各界专家和读者来信给予宝贵意见,我们将不胜感激。您在阅读本书时,如果发现任何问题或有不认同之处可以通过电子邮件与我们取得联系。
请发送电子邮件至: [email protected]。
江苏传智播客教育科技股份有限公司教材研发中心2021年5月于北京
评论
还没有评论。