描述
开 本: 16开纸 张: 纯质纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302459279
本书全面地讲述了Hadoop相关领域的重要知识和*的技术及应用。书中首先介绍了数据挖掘的基础知识、Hadoop的基本框架和相关信息,然后系统地描述了如何在各类行业中用好Hadoop来做数据挖掘。
本书面向的主要读者人群是想了解Hadoop与大数据的技术人员,无论他们是在互联网企业,还是在传统企业;无论他们从事的是技术或者运维工作,专业做数据分析,还是企业的策略官、市场官和运营官,都能从本书中找到各自所需要的内容。
本书可以帮助读者开阔眼界和找到方法,让他们知道如何分析实际商业场景和业务问题,构建基于Hadoop的大数据系统,通过使用数据运营,对公司业务运营带来直接的效益。当然对于学生、教师和有志于从业大数据运营的人员来说,也是一本实用的教材。
目录
第1 章
大数据概念的老调重弹 …….. 1
1.1 互联网和物联网上的数据 2
1.1.1 互联网上越来越多的数据被存储 . 2
1.1.2 物联网带来更多的数据
…………….. 4
1.2 数据能为我们做的事 …….. 5
1.2.1 用户画像和任何企业都需要关注的数据
…………………… 6
1.2.2 大数据的3V、4V 和N 个V …….. 7
1.2.3 从数据分析到数据挖掘
…………….. 8
1.2.4 大数据处理的三个维度
…………….. 9
1.3 数据挖掘中的一些基本概念
………………. 11
1.3.1 分类算法 …. 11
1.3.2 聚类算法 …. 12
1.3.3 关联算法 …. 13
1.3.4 序列算法 …. 14
1.3.5 估测和预测 14
1.3.6 A/B Test ….. 15
1.4 数据仓库 …………….
16
1.4.1 数据仓库是解决大数据存储的基础设施
…………………. 17
1.4.2 4 种不同类型的数据仓库
………… 18
1.4.3 国内外数据仓库的不同使用方式
……… 19
1.5 不包含在本书中的内容 .. 21
1.6 这本书都讲些啥 …. 22
第2 章 Hadoop 的前世今生 ……….. 25
2.1 Google 的计算框架 ……… 26
2.1.1 Google 公司的三篇论文
………….. 26
2.1.2 GFS 文件系统 ….. 27
2.1.3 MapReduce 的模型和框架
………. 28
2.1.4 BigTable 数据库 .. 29
2.2 Hadoop 的诞生 …… 30
2.2.1 从GFS 到HDFS . 30
2.2.2 Hadoop 的基础计算框架MapReduce …
31
2.2.3 从BigTable 到HBase
……………… 33
2.3 Hadoop 的今天 …… 33
2.4 Hadoop 大事记 …… 35
第3 章
等同于大数据的Hadoop … 37
3.1 Hadoop 理念 ………. 38
3.2 Hadoop 核心基础架构 …. 39
3.2.1 Namenode 和Datanode
……………. 39
3.2.2 Hadoop 底层的文件系统HDFS .. 40
3.2.3 Hadoop 上的数据库HBase ………
42
3.3 Hadoop 上的各种其他组件
………………… 44
3.3.1 资源分配系统YARN
……………… 44
3.3.2 灵活的编程语言pig…………………
46
3.3.3 数据挖掘工具Mahout
…………….. 48
3.3.4 专注于数据挖掘的R 语言 ……….
48
3.3.5 数据仓库工具Hive
…………………. 49
3.3.6 数据采集系统Flume
………………. 51
3.4 Spark 和Hadoop …. 51
3.4.1 闪电侠出现了 …… 51
3.4.2 大数据领域的Taylor Swift
……… 52
3.4.3 Spark 的架构 ……. 53
3.4.4 Spark 和流处理 … 54
第4 章 Hadoop 的价值 ……………… 57
4.1 大数据时代需要新的架构
………………….. 58
4.1.1 企业IT 面临的挑战
………………… 58
4.1.2 数据分析要考虑的问题
…………… 59
4.1.3 新的IT 架构的需求
………………… 60
4.2 Hadoop 能解决的问题 …. 61
4.2.1 Hadoop 适合做的事情
…………….. 61
4.2.2 Hadoop 对系统数据安全性的保障 …….
62
4.2.3 数据流与数据流处理
………………. 62
4.3 去IOE
……………….. 65
4.4 7 种常见的Hadoop 和Spark 项目 …… 71
第5 章 Hadoop 系统速成 ………….. 75
5.1 Hadoop 系统搭建速成 …. 76
5.1.1 Hadoop 系统的三种运行模式 ….. 76
5.1.2 单点搭建Hadoop 系统
……………. 76
5.1.3 全分布式(多节点)搭建Hadoop 系统 … 80
5.1.4 在Hadoop 上编程 ……………………
83
5.1.5 Hadoop 系统的典型配置 ………….
83
5.2 在云上运行Hadoop ……..
85
5.2.1 在金山云上运行Hadoop
…………. 86
5.2.2 微软的HDInsight 89
5.3 Hadoop 信息大全 .. 90
第6 章
数据仓库和Hadoop……….. 93
6.1 大数据时代的数据系统设计
………………. 94
6.1.1 分布式系统上的CAP 原理 ………
94
6.1.2 ACID 和BASE 概念的区别
…….. 95
6.1.3 NoSQL ……. 96
6.1.4 各种数据源的整合
………………… 100
6.2 传统数据仓库的瓶颈 …. 101
6.2.1 传统数据仓库的瓶颈之一:数据量的问题
……………. 101
6.2.2 传统数据仓库的瓶颈之二:数据类型的问题
………… 102
6.2.3 传统数据仓库的瓶颈之三:数据处理的延时问题
…. 102
6.2.4 传统数据仓库的瓶颈之四:数据模型的变化问题
…. 103
6.3 Hadoop 是解决数据仓库瓶颈的方法 .. 104
6.3.1 解决数据量的问题
………………… 104
6.3.2 解决数据类型的问题
…………….. 105
6.3.3 数据处理的速度问题
…………….. 106
6.3.4 数据模型的变化问题
…………….. 107
6.4 基于Hadoop 和Spark 的数据仓库解决方案 .
108
6.4.1 基于Hadoop/Spark 结构的数据仓库系统架构………..
108
6.4.2 分布式计算引擎 109
6.4.3 标准化的编程模型
………………… 110
6.4.4 数据操作方式的多样性
…………. 110
6.4.5 OLAP 交互式统计分析能力 ….. 110
6.4.6 多类型数据的处理能力
…………. 111
6.4.7 实时计算与企业数据总线 ………
111
6.4.8 数据探索与挖掘能力
…………….. 111
6.4.9 安全性和权限管理
………………… 112
6.4.10 混合负载管理 .. 112
第7 章
在不同应用环境下的Hadoop …. 115
7.1 在存储密集型环境中的Hadoop
……….. 116
7.2 在网络密集型环境中的Hadoop
……….. 118
7.3 在运算密集型环境中的Hadoop
……….. 121
7.4 Hadoop 平台的对比和选择
………………. 127
7.4.1 为什么会选择商用的Hadoop 系统 …. 127
7.4.2 商用Hadoop 系统之间的选择 ..
130
第8 章 Hadoop 在互联网公司的应用 …. 133
8.1 Hadoop 在腾讯 …. 134
8.2 Hadoop 在Facebook 的应用
…………….. 138
8.3 金山的Hadoop …. 140
8.4 迅雷公司对Hadoop 的应用
……………… 144
第9 章 Hadoop 和行业应用之一 . 147
9.1 Hadoop 和运营商 148
9.2 Hadoop 和公用事业 …… 163
9.3 Hadoop 和“智慧工商”
………………….. 175
9.4 Hadoop 和政务云 183
第10 章 Hadoop 与“衣食住行”中的“食”和“行” …. 191
10.1 Hadoop 和“食” …….. 192
10.2 Hadoop 和“行” …….. 201
第11 章 Hadoop 和行业应用之三 ……… 209
11.1 Hadoop 和金融 .. 210
11.1.1 金融的大数据属性
………………. 210
11.1.2 金融企业的风险控制
…………… 211
11.2 Hadoop 和医疗 .. 221
11.3 Hadoop 和物流 .. 226
11.4 Hadoop 和媒体 .. 229
第12 章
特殊场景下的Hadoop 系统 ….. 237
12.1 Hadoop 和实时系统 …. 238
12.2 Hadoop 平台的一些特殊场景实现 ….. 243
第13 章 Hadoop 系统的挑战和应对 …… 247
13.1 Hadoop 系统使用须知 248
13.2 Hadoop 平台风险点预估
………………… 250
13.2.1 Namenode 的单点故障和系统的可用性
………………. 250
13.2.2 集群硬件故障导致平台可靠性与可用性大幅降低 251
13.2.3 Hadoop 集群大数据安全和隐私问题
…………………… 252
13.3 Hadoop 平台硬件故障的应对机制 ….. 252
13.3.1 监控软硬件故障的应对机制 … 253
13.3.2 断电处理 255
13.4 Hadoop 平台如何真正做到高可用性 . 255
13.4.1 Hadoop 系统的高可用性冗余性保障
…………………… 256
13.4.2 Facebook 的Namenode HA 的方案 .. 256
13.4.3 TDH 的Namenode 高可用性冗余解决方案
…………. 257
13.5 Hadoop 平台安全性和隐私性的应对机制 …
259
13.5.1 关于安全和隐私问题的7 个事项 ….. 259
13.5.2 星环的4A 级统一安全管理解决方案
………………….. 259
13.5.3 Hadoop 系统安全Checklist
….. 262
第14 章 Hadoop 的未来 ………….. 263
14.1 Hadoop 未来的发展趋势
………………… 264
14.1.1 对数据系统的不断升级
……….. 264
14.1.2 机器学习 264
14.2 Hadoop 和区块链 …….. 265
附录A 专业词汇表 ………………….. 267
附录B 引用文献 . 271
附录C 参考网站一览 ………………. 273
附录D HDFS 命令行列表 ………… 275
附录E 本书引用案例索引 ………… 278
前言,大数据的价值在于商业应用
从2006 年雅虎等团队开始研发 Hadoop 技术至今已整整10 年。在这10 年中技术发展迅速,Hadoop 上的生态系统逐渐扩大,各个行业的用户都在基于这一新的技术来开发各种应用,还有很多企业将原先基于传统IT 系统的应用逐步向Hadoop 上迁移。
根据Interquest Group 作的2016 年报告,排名的技术工种就是Data Scientist(数据科学家)。今天有大数据技术能力的同学们在找工作的时候是炙手可热的,而他们需要掌握的一项关键技能就是Hadoop。
我们相信, Hadoop 会成为企业数据中心的核心,而范磊和孙元浩同学的星环科技,其核心产品也逐渐定位成企业核心的Data Hub(数据集散地)。Hadoop 经过这 10 年的发展,在2016 年开始进入一个战略转折点。这意味着新的技术开始逐渐取代和超越老的技术,并在各个行业迅速发展。在未来的若干年之内,取代过程还会不断加速。
我们认为,Hadoop 技术能成功的根本原因在于它是把传统的集中式运算有效地转化成分布式计算的一种有效手段。集中计算演变成分布式是一个必然趋势,当然并不是说一定只有Hadoop 才是这个演进的手段,不过它至少是可选的一个不错的手段。
本书中有很多说法和内容是由星环科技的CTO 孙元浩同学独家赞助的。而在解释一些实际场景中相对棘手的问题时,为了简单起见,直接借用了星环科技之前的一些处理问题的方法和思路。
感谢我的好朋友金官丁同学(网上化名mysqlops)提供的帮助。感谢腾讯的邱跃鹏和赵建春同学,感谢迅雷的刘智聪同学,感谢金山的朱桦同学和杨亮同学,感谢百度的朱观胤同学。我们还要特别感谢蔡可可、胡一刀、张泽澄、唐继瑞、李晶、谭彬同学为本书做的大量资料收集和整理工作以及唐继瑞为本书设计的章徽。
讲述大数据和Hadoop 相关概念的书已经有很多了,本书更多想做的不是新闻和概念的堆砌、示例代码的详解,或者是某一项技术的再一次陈述,而是从实际场景出发,为读者们讲述应用中的Hadoop 应该是怎样的。
本书主要特点:
(1) 全面实用地论述了从实际应用中提取出的数据挖掘和Hadoop 相关概念和技术。
(2) 用实际案例为用户介绍Hadoop,而不只是停留在理论层面。
(3) 详解Hadoop 相关领域的技术和商业应用大数据应用的动态变化。
按照刘智聪同学的说法,现在的Hadoop 系统已经是基建了,几乎所有非实时的系统都
可以在Hadoop 上实现。
而当Hadoop 生态系统上出现Spark 和Storm 之后,就算是实时系统,在很多时候也是可以轻松实现的。
作为在IT 和互联网行业沉浮了20 年的老兵,我们觉得写这样一本书来讲实战应用是
非常有必要的,因为我们一直在思考:
(1) 大数据服务应该是怎样的?
(2) 大数据究竟能够为我们做什么?
(3) 大数据在做实际应用的时候会碰到什么样的问题?
(4) 大数据应用的这些问题究竟应该是怎样解决的?
(5) 怎样以好的方式把的大数据技术应用到商业系统上去?
(6) 大数据应用做到极致的时候应该是怎样的?
Gartner 认为,到2020 年,信息将被用于重新创造、数字化或消除80%的业务流程和产品。而我们认为,技术终究是为商业来服务的,一项技术的生命力究竟如何,取决于它在真实社会和经济场景中所发挥出的价值。
随着近年来大数据技术的高速演变,我们预计未来3 年数据库以及数据仓库技术会发生巨大的变化。正如Gartner 所预计的,我们的大部分企业客户会把数据仓库从以前的传统数据仓库转移到逻辑数据仓库中,Hadoop 在其中会扮演非常重要的角色,很多企业应用也已经开始把Hadoop 作为数据仓库的重要组成部分。
数据平台市场每年创造的价值巨大,但大部分都被Oracle、IBM、Teradata 等国外巨头瓜分,星环科技算是的可以与这些国外巨头一争高下的国内大数据厂家,我们希望能够有更多的国内同行投入到基于Hadoop 的数据仓库平台的研发之中,打造出大数据时代的杰出数据库和数据仓库产品,摆脱国外巨头们对这个行业的垄断,帮助中国科技在企业服务领域实现质的突破。
本书不是为了讲述教科书式的概念,而是为了告诉大家Hadoop 究竟能够为我们的企业做些什么。我们会从一些真实靠谱的案例出发,讲述在各种场景下如何应用Hadoop。
我们尽量把这本书写得浅显易懂,所以并不需要读者有太多大数据的知识或者拥有编程语言的经验。当然,如果读者有过Java 或者类似编程语言的经验,对于深入理解本书的一些内容是有帮助的。
因为我们的能力所限,而且本书所覆盖的案例来自各个不同的领域,在陈述或者描述中可能出现一些错误或者遗漏,欢迎读者指出,或者也可以把你想读到的某些场景下的Hadoop 应用反馈给我们。
本书中所有的案例均是实际案例,如果读者觉得有虚构成分,纯属偶然。
编
者
评论
还没有评论。