fbpx

[email protected]

购物车

 查看订单

  • 我的帐户
东东购 | EasternEast
  • 中文书店
    • 畅销排行榜
      • 小说 畅销榜
      • 童书 畅销榜
      • 外语畅销榜
      • 管理畅销榜
      • 法律畅销榜
      • 青春文学畅销榜
    • 热门分类
      • 社会小说
      • 成功/励志 畅销榜
      • 人物传记
      • 大陆原创
      • 绘本童书
      • 影视小说
    • 文学推荐
      • 文集
      • 戏剧
      • 纪实文学
      • 名家作品
      • 民间文学
      • 中国现当代随笔
    • 新书热卖榜
      • 小说 新书热卖榜
      • 青春文学 新书热卖榜
      • 童书 新书热卖榜
      • 管理 新书热卖榜
      • 成功/励志 新书热卖榜
      • 艺术 新书热卖榜
  • 精选分类
    • 小说
    • 保健养生
    • 烹饪/美食
    • 风水/占卜
    • 青春文学
    • 童书
    • 管理
    • 成功/励志
    • 文学
    • 哲学/宗教
    • 传记
    • 投资理财
    • 亲子家教
    • 动漫/幽默
    • 法律 Legal
    • 经济 Economics
    • 所有分类
  • 关于东东
  • 帮我找书
搜索
首页计算机/网络数据库从零开始学Hadoop大数据分析(视频教学版)

从零开始学Hadoop大数据分析(视频教学版)

【赠送20小时高品质教学视频、教学PPT助力学习!资深大数据培训专家12年经验总结,7位大咖力荐!理论讲解→环境搭建→项目实战;涵盖Hadoop的14个核心组件,详解30个中小案例、4个项目案例】

作者:温春水 毕洁馨 出版社:机械工业出版社 出版时间:2019年03月 

ISBN: 9787111619314
年中特卖用“SALE15”折扣卷全场书籍85折!可与三本88折,六本78折的优惠叠加计算!全球包邮!
trust badge

EUR €53.99

类别: 数据库 SKU:5d840e0f5f98491045404b4c 库存: 有现货
  • 描述
  • 评论( 0 )

描述

开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111619314

编辑推荐

 

内容简介

本书共19章,分为3篇。第1篇Hadoop基础知识,涵盖大数据概述、Hadoop的安装与配置、Hadoop分布式文件系统及基于Hadoop 3的HDFS高可用等相关内容;第2篇Hadoop核心技术,涵盖的内容有Hadoop的分布式协调服务——ZooKeeper;分布式离线计算框架——MapReduce;Hadoop的集群资源管理系统——YARN;Hadoop的数据仓库框架——Hive;大数据快速读写——HBase;海量日志采集工具——Flume;Hadoop和关系型数据库间的数据传输工具——Sqoop;分布式消息队列——Kafka;开源内存数据库——Redis;Ambari和CDH;快速且通用的集群计算系统——Spark。第3篇Hadoop项目案例实战,主要介绍了基于电商产品的大数据业务分析系统、用户画像分析、基于个性化的视频推荐系统及电信离网用户挽留4个项目实战案例,以提高读者的大数据项目开发水平。

本书内容全面,实用性强,适合作为Hadoop大数据分析与挖掘的入门读物,也可作为Java程序员的进阶读物。另外,本书还特别适合想要提高大数据项目开发水平的人员阅读。对于专业的培训机构和相关院校而言,本书也是一本不可多得的教学用书。

本书特色:

资深专家12年一线开发经验总结,业内7位大咖点评力荐

采用“理论讲解→环境搭建→项目案例实战”的科学编排体系

赠送20小时(118段)高质量、高价值大数据核心技术配套教学视频

全面涵盖Hadoop的14个基础组件:HDFS、ZooKeeper 、MapReduce、YARN、Hive、HBase、Flume、Sqoop、Kafka、Redis、Spark及Mahout等

详解30个中小案例及4个项目实战案例,提高读者的实际动手能力

赠送教学PPT,方便教学与学习

7位重量级大咖力荐: 

见知集团董事长  张之戈

中软国际CTO  徐建民

慧科集团研究院院长  陈滢

微软高级架构师  韩亮

51CTO学院总监  张宝龙

CDA数据分析师协会理事  赵坚毅

大唐网络副总裁  张文杰

本书内容速览: 

Hadoop基础知识

初识Hadoop

Hadoop的安装与配置

Hadoop分布式文件系统

基于Hadoop 3的HDFS高可用

Hadoop核心技术

Hadoop的分布式协调服务——ZooKeeper

分布式离线计算框架——MapReduce

Hadoop的集群资源管理系统——YARN

Hadoop的数据仓库框架——Hive

大数据快速读写——HBase

海量日志采集工具——Flume

Hadoop和关系型数据库间的数据传输工具——Sqoop

分布式消息队列——Kafka

开源的内存数据库——Redis

Ambari和CDH

快速且通用的集群计算系统——Spark

Hadoop项目案例实战

基于电商产品的大数据业务分析系统实战

用户画像分析实战

基于个性化的视频推荐系统实战

电信离网用户挽留实战

本书超值配套资源:

20小时配套教学视频

案例源代码文件

教学PPT

本书4大实战案例 

基于电商产品的大数据业务分析系统实战

用户画像分析实战

基于个性化的视频推荐系统实战

电信离网用户挽留实战

本书全面介绍了Hadoop大数据分析的基础知识、14个核心组件模块及4个项目实战案例。为了帮助读者高效、直观地学习,作者特意为本书录制了20小时同步配套教学视频。

作者简介

温春水  毕业于中国人民大学,获硕士学位。历任森途国信新工科研究院院长、大唐网络和三点一刻大数据技术总监,负责大数据技术架构。12年以上的IT从业经验,其中从事IT培训超过5年,直接授课学员超过3万人。受邀为燕山石化和中国石油等企业完成Python及大数据技术等企业内训;受聘面向哈尔滨工业大学、南开大学、天津大学、华南农业大学、山东科技大学、北京交通大学、西安交通大学、天津师范大学和北京航空航天大学等高校的本科生及研究生讲授项目管理、需求分析、软件体系设计和项目开发等课程。 

毕洁馨  亚信科技高级开发工程师。参与过北京联通看板中心及专线透明化建设,另外还参与过相关公司的门店客流分析平台和分布式网络爬虫等多个项目的开发工作。目前致力于大数据和人工智能方向的前沿技术研究。

目  录
前言
第1篇  Hadoop基础知识
第1章  初识Hadoop 2
1.1  大数据初探 2
1.1.1  大数据技术 2
1.1.2  大数据技术框架 3
1.1.3  大数据的特点 3
1.1.4  大数据在各个行业中的应用 4
1.1.5  大数据计算模式 4
1.1.6  大数据与云计算、物联网的关系 4
1.2  Hadoop简介 5
1.2.1  Hadoop应用现状 6
1.2.2  Hadoop简介与意义 6
1.3  小结 6
第2章  Hadoop的安装与配置 7
2.1  虚拟机的创建 7
2.2  安装Linux系统 10
2.3  配置网络信息 11
2.4  克隆服务器 12
2.5  SSH免密码登录 13
2.6  安装和配置JDK 15
2.6.1  上传安装包 15
2.6.2  安装JDK 16
2.6.3  配置环境变量 16
2.7  Hadoop环境变量配置 16
2.7.1  解压缩Hadoop压缩包 17
2.7.2  配置Hadoop的bin和sbin文件夹到环境变量中 17
2.7.3  修改/etc/hadoop/hadoop-env.sh 17
2.8  Hadoop分布式安装 17
2.8.1  伪分布式安装 17
2.8.2  完全分布式安装 19
2.9  小结 21
第3章  Hadoop分布式文件系统 22
3.1  DFS介绍 22
3.1.1  什么是DFS 22
3.1.2  DFS的结构 22
3.2  HDFS介绍 23
3.2.1  HDFS的概念及体系结构 23
3.2.2  HDFS的设计 23
3.2.3  HDFS的优点和缺点 24
3.2.4  HDFS的执行原理 24
3.2.5  HDFS的核心概念 25
3.2.6  HDFS读文件流程 27
3.2.7  HDFS写文件流程 28
3.2.8  Block的副本放置策略 29
3.3  Hadoop中HDFS的常用命令 30
3.3.1  对文件的操作 30
3.3.2  管理与更新 31
3.4  HDFS的应用 31
3.4.1  基于Shell的操作 31
3.4.2  基于Java API的操作 33
3.4.3  创建文件夹 34
3.4.4  递归显示文件 34
3.4.5  文件上传 35
3.4.6  文件下载 35
3.5  小结 36
第4章  基于Hadoop 3的HDFS高可用 37
4.1  Hadoop 3.x的发展 37
4.1.1  Hadoop 3新特性 37
4.1.2  Hadoop 3 HDFS集群架构 38
4.2  Hadoop 3 HDFS完全分布式搭建 39
4.2.1  安装JDK 40
4.2.2  配置JDK环境变量 40
4.2.3  配置免密码登录 40
4.2.4  配置IP和主机名字映射关系 41
4.2.5  SSH免密码登录设置 41
4.2.6  配置Hadoop 3.1.0 42
4.3  什么是HDFS高可用 47
4.3.1  HDFS高可用实现原理 47
4.3.2  HDFS高可用实现 48
4.4  搭建HDFS高可用 50
4.4.1  配置ZooKeeper 50
4.4.2  配置Hadoop配置文件 52
4.4.3  将配置文件复制到其他节点上 54
4.4.4  启动JN节点 54
4.4.5  格式化 55
4.4.6  复制元数据到node2节点上 55
4.4.7  格式化ZKFC 55
4.4.8  启动集群 56
4.4.9  通过浏览器查看集群状态 56
4.4.10  高可用测试 57
4.5  小结 58
第2篇  Hadoop核心技术
第5章  Hadoop的分布式协调服务——ZooKeeper 60
5.1  ZooKeeper的核心概念 60
5.1.1  Session会话机制 60
5.1.2  数据节点、版本与Watcher的关联 61
5.1.3  ACL策略 61
5.2  ZooKeeper的安装与运行 61
5.3  ZooKeeper服务器端的常用命令 63
5.4  客户端连接ZooKeeper的相关操作 64
5.4.1  查看ZooKeeper常用命令 64
5.4.2  connect命令与ls命令 65
5.4.3  create命令——创建节点 65
5.4.4  get命令——获取数据与信息 66
5.4.5  set命令——修改节点内容 66
5.4.6  delete命令——删除节点 67
5.5  使用Java API访问ZooKeeper 67
5.5.1  环境准备与创建会话实例 68
5.5.2  节点创建实例 69
5.5.3  Java API访问ZooKeeper实例 70
5.6  小结 73
第6章  分布式离线计算框架——MapReduce 74
6.1  MapReduce概述 74
6.1.1  MapReduce的特点 74
6.1.2  MapReduce的应用场景 75
6.2  MapReduce执行过程 76
6.2.1  单词统计实例 76
6.2.2  MapReduce执行过程 77
6.2.3  MapReduce的文件切片Split 77
6.2.4  Map过程和Reduce过程 78
6.2.5  Shuffle过程 78
6.3  MapReduce实例 79
6.3.1  WordCount本地测试实例 79
6.3.2  ETL本地测试实例 84
6.4  温度排序实例 86
6.4.1  时间和温度的封装类MyKey.Java 87
6.4.2  Map任务MyMapper.java 88
6.4.3  数据分组类MyGroup.Java 89
6.4.4  温度排序类MySort.java 89
6.4.5  数据分区MyPartitioner.java 90
6.4.6  Reducer任务MyReducer.java 90
6.4.7  主函数RunJob.java 91
6.5  小结 94
第7章  Hadoop的集群资源管理系统——YARN 95
7.1  为什么要使用YARN 95
7.2  YARN的基本架构 96
7.2.1  ResourceManager进程 96
7.2.2  ApplicationMaster和NodeManager 97
7.3  YARN工作流程 97
7.4  YARN搭建 98
7.5  小结 100
第8章  Hadoop的数据仓库框架——Hive 101
8.1  Hive的理论基础 101
8.1.1  什么是Hive 101
8.1.2  Hive和数据库的异同 102
8.1.3  Hive设计的目的与应用 104
8.1.4  Hive的运行架构 104
8.1.5  Hive的执行流程 105
8.1.6  Hive服务 106
8.1.7  元数据存储Metastore 106
8.1.8  Embedded模式 107
8.1.9  Local模式 108
8.1.10  Remote模式 109
8.2  Hive的配置与安装 109
8.2.1  安装MySQL 110
8.2.2  配置Hive 112
8.3  Hive表的操作 113
8.3.1  创建Hive表 114
8.3.2  导入数据 114
8.4  表的分区与分桶 115
8.4.1  表的分区 115
8.4.2  表的分桶 117
8.5  内部表与外部表 118
8.5.1  内部表 119
8.5.2  外部表 119
8.6  内置函数与自定义函数 121
8.6.1  内置函数实例 121
8.6.2  自定义UDAF函数实例 123
8.7  通过Java访问Hive 124
8.8  Hive优化 125
8.8.1  MapReduce优化 126
8.8.2  配置优化 126
8.9  小结 127
第9章  大数据快速读写——HBase 128
9.1  关于NoSQL 128
9.1.1  什么是NoSQL 128
9.1.2  NoSQL数据库的分类 129
9.1.3  NoSQL数据库的应用 129
9.1.4  关系型数据库与非关系型数据库的区别 130
9.2  HBase基础 130
9.2.1  HBase简介 130
9.2.2  HBase数据模型 131
9.2.3  HBase体系架构及组件 132
9.2.4  HBase执行原理 134
9.3  HBase安装 135
9.4  HBase的Shell操作 138
9.5  Java API访问HBase实例 139
9.5.1  创建表 139
9.5.2  插入数据 140
9.5.3  查询数据 141
9.6  小结 142
第10章  海量日志采集工具——Flume 143
10.1  什么是Flume 143
10.2  Flume的特点 143
10.3  Flume架构 144
10.4  Flume的主要组件 144
10.4.1  Event、Client与Agent——数据传输 145
10.4.2  Source—Event接收 145
10.4.3  Channel—Event传输 146
10.4.4  Sink—Event发送 147
10.4.5  其他组件 148
10.5  Flume安装 148
10.6  Flume应用典型实例 149
10.6.1  本地数据读取(conf1) 149
10.6.2  收集至HDFS 150
10.6.3  基于日期分区的数据收集 152
10.7  通过exec命令实现数据收集 153
10.7.1  安装工具 153
10.7.2  编辑配置文件conf4 155
10.7.3  运行Flume 156
10.7.4  查看生成的文件 156
10.7.5  查看HDFS中的数据 157
10.8  小结 158
第11章  Hadoop和关系型数据库间的数据传输工具——Sqoop 159
11.1  什么是Sqoop 159
11.2  Sqoop工作机制 159
11.3   Sqoop的安装与配置 161
11.3.1  下载Sqoop 161
11.3.2   Sqoop配置 162
11.4  Sqoop数据导入实例 163
11.4.1  向HDFS中导入数据 165
11.4.2  将数据导入Hive 167
11.4.3  向HDFS中导入查询结果 170
11.5  Sqoop数据导出实例 172
11.6  小结 173
第12章  分布式消息队列——Kafka 174
12.1  什么是Kafka 174
12.2  Kafka的架构和主要组件 174
12.2.1  消息记录的类别名——Topic 175
12.2.2  Producer与Consumer——数据的生产和消费 176
12.2.3  其他组件——Broker、Partition、Offset、Segment 177
12.3  Kafka的下载与集群安装 177
12.3.1  安装包的下载与解压 177
12.3.2  Kafka的安装配置 178
12.4  Kafka应用实例 181
12.4.1  Producer实例 181
12.4.2  Consumer实例 182
12.5  小结 184
第13章  开源的内存数据库——Redis 185
13.1  Redis简介 185
13.1.1  什么是Redis 185
13.1.2  Redis的特点 186
13.2  Redis安装与配置 186
13.3  客户端登录 187
13.3.1  密码为空登录 187
13.3.2  设置密码登录 188
13.4  Redis的数据类型 188
13.4.1  String类型 188
13.4.2  List类型 190
13.4.3  Hash类型 191
13.4.4  Set类型 194
13.5  小结 197
第14章  Ambari和CDH 198
14.1  Ambari的安装与集群管理 198
14.1.1  认识HDP与Ambari 198
14.1.2  Ambari的搭建 199
14.1.3  配置网卡与修改本机名 199
14.1.4  定义DNS服务器与修改hosts主机映射关系 200
14.1.5  关闭防火墙并安装JDK 200
14.1.6  升级OpenSSL安全套接层协议版本 201
14.1.7  关闭SELinux的强制访问控制 201
14.1.8  SSH免密码登录 202
14.1.9  同步NTP 202
14.1.10  关闭Linux的THP服务 204
14.1.11  配置UMASK与HTTP服务 204
14.1.12  安装本地源制作相关工具与Createrepo 205
14.1.13  禁止离线更新与制作本地源 205
14.1.14  安装Ambari-server与MySQL 208
14.1.15  安装Ambari 210
14.1.16  安装Agent与Ambari登录安装 211
14.1.17  安装部署问题解决方案 214
14.2  CDH的安装与集群管理 216
14.2.1  什么是CDH和Cloudera Manager介绍 216
14.2.2  Cloudera Manager与Ambari对比的优势 216
14.2.3  CDH安装和网卡配置 217
14.2.4  修改本机名与定义DNS服务器 217
14.2.5  修改hosts主机映射关系 218
14.2.6  关闭防火墙 218
14.2.7  安装JDK 219
14.2.8  升级OpenSSL安全套接层协议版本 219
14.2.9  禁用SELinux的强制访问功能 220
14.2.10  SSH 免密码登录 220
14.2.11  同步NTP安装 220
14.2.12  安装MySQL 222
14.2.13  安装Cloudera Manager 222
14.2.14  添加MySQL驱动包和修改Agent配置 223
14.2.15  初始化CM5数据库和创建cloudera-scm用户 223
14.2.16  准备Parcels 223
14.2.17  CDH的安装配置 224
14.3  小结 227
 
第15章  快速且通用的集群计算系统——Spark 228
15.1  Spark基础知识 228
15.1.1  Spark的特点 228
15.1.2  Spark和Hadoop的比较 229
15.2  弹性分布式数据集RDD 230
15.2.1  RDD的概念 230
15.2.2  RDD的创建方式 230
15.2.3  RDD的操作 230
15.2.4  RDD的执行过程 231
15.3  Spark作业运行机制 232
15.4  运行在YARN上的Spark 233
15.4.1  在YARN上运行Spark 233
15.4.2  Spark在YARN上的两种部署模式 233
15.5  Spark集群安装 234
15.5.1  Spark安装包的下载 234
15.5.2  Spark安装环境 236
15.5.3  Scala安装和配置 236
15.5.4  Spark分布式集群配置 238
15.6  Spark实例详解 241
15.6.1  网站用户浏览次数多的URL统计 241
15.6.2  用户地域定位实例 243
15.7  小结 246
第3篇  Hadoop项目案例实战
第16章  基于电商产品的大数据业务分析系统实战 248
16.1  项目背景、实现目标和项目需求 248
16.2  功能与流程 249
16.2.1  用户信息 250
16.2.2  商品信息 251
16.2.3  购买记录 251
16.3  数据收集 252
16.3.1  Flume的配置文件 252
16.3.2  启动Flume 253
16.3.3  查看采集后的文件 253
16.3.4  通过后台命令查看文件 254
16.3.5  查看文件内容 255
16.3.6  上传user.list文件 256
16.3.7  上传brand.list目录 256
16.4  数据预处理 257
16.5  数据分析——创建外部表 261
16.6  建立模型 264
16.6.1  各年龄段用户消费总额 264
16.6.2  查询各品牌销售总额 265
16.6.3  查询各省份消费总额 266
16.6.4  使用Sqoop将数据导入MySQL数据库 266
16.7  数据可视化 268
16.8  小结 272
第17章  用户画像分析实战 273
17.1  项目背景 273
17.2  项目目标与项目开发过程 274
17.2.1  数据采集 274
17.2.2  数据预处理 275
17.2.3  模型构建 275
17.2.4  数据分析 276
17.3  核心代码解读 277
17.3.1  项目流程介绍 277
17.3.2  核心类的解读 278
17.3.3  core-site.xml配置文件 279
17.3.4  hdfs-site.xml配置文件 279
17.3.5  UserProfile.properties配置文件 280
17.3.6  LoadConfig.java:读取配置信息 280
17.3.7  ReadFile.java:读取文件 281
17.3.8  ReadFromHdfs.java:提取信息 281
17.3.9  UserProfile.java:创建用户画像 282
17.3.10  TextArrayWritable.java:字符串处理工具类 285
17.3.11  MapReduce任务1:UserProfileMapReduce.java 285
17.3.12  MapReduce任务2:UserProfileMapReduce2.java 289
17.3.13  UserProfilePutInHbaseMap.java:提取用户画像 291
17.3.14  UserProfilePutInHbaseReduce:存储用户画像 292
17.4  项目部署 293
17.5  小结 294
 
第18章  基于个性化的视频推荐系统实战 295
18.1  项目背景 295
18.2  项目目标与推荐系统简介 295
18.2.1  推荐系统的分类 295
18.2.2  推荐模型的构建流程 296
18.2.3  推荐系统核心算法 297
18.2.4  如何基于Mahout框架完成商品推荐 300
18.2.5  基于Mahout框架的商品推荐实例 300
18.3  推荐系统项目架构 302
18.4  推荐系统模型构建 303
18.5  核心代码 304
18.5.1  公共部分 305
18.5.2  离线部分 307
18.5.3  在线部分 311
18.6  小结 314
第19章  电信离网用户挽留实战 315
19.1  商业理解 315
19.2  数据理解 316
19.2.1  收集数据 316
19.2.2  了解数据 317
19.2.3  保证数据质量 318
19.3  数据整理 318
19.3.1  数据整合 318
19.3.2  数据过滤 319
19.4  数据清洗 319
19.4.1  噪声识别 320
19.4.2  离群值和值的定义 321
19.4.3  离群值处理方法 321
19.4.4  数据空值处理示例 323
19.5  数据转换 324
19.5.1  变量转换 324
19.5.2  压缩分类水平数 324
19.5.3  连续数据离散化 325
19.5.4  变换哑变量 326
19.5.5  数据标准化 326
19.5.6  数据压缩 326
19.6  建模 327
19.6.1  决策树算法概述 327
19.6.2  决策树的训练步骤 327
19.6.3  训练决策树 328
19.6.4  C4.5算法 329
19.6.5  决策树剪枝 332
19.7  评估 335
19.7.1  混淆矩阵 335
19.7.2  ROC曲线 336
19.8  部署 338
19.9  用户离网案例代码详解 339
19.9.1  数据准备 339
19.9.2  相关性分析 341
19.9.3  终建模 342
19.9.4  模型评估 343
19.10  小结 346
前  言
随着互联网的发展,人们日常工作和生活中产生的数据越来越多,伴随着信息的爆炸,大数据应运而生。分布式集群对大量数据的存储和分析处理有极大优势,因此Hadoop的各种技术得到了广泛应用和普及。大数据项目的开发除了需要扎实的理论基础外,还需要掌握Hadoop的搭建环境和运行部署方法,这样才能在大数据技术领域有更强的竞争力和职业发展前景。
目前市场上关于Hadoop的原理介绍和环境搭建的图书不少,但是真正从实战出发,通过“理论讲解→环境搭建→项目案例实战”这种符合初学者学习规律的科学编排体系的图书却不多。本书便是基于这一编排体系而写,以实战为主旨,通过Hadoop的14个基础组件的相关模块和4个完整的项目实战案例,让读者在理解大数据原理的同时,完成Hadoop的环境搭建,并亲自动手实现书中的实战案例,提高开发水平和项目实战能力。
本书可以帮助大数据开发人员充分了解当下流行的大数据技术和应用方法,从而在大数据项目中能更加自信、高效地完成项目开发。书中为有意涉猎大数据领域的人提供了详尽的指导,让他们能够更快、更好地掌握大数据的核心技术,并应用于项目实践,从而脱颖而出,顺利进军大数据行业。另外,本书也为大数据项目开发小组提供了可参考和借鉴的选拔大数据人才的技术标准。
本书特色
1.提供了20小时同步配套教学视频,高效、直观
为了便于读者高效、直观地学习,笔者专门为本书重点内容录制了20小时同步配套教学视频。读者可以一边看书,一边结合教学视频进行学习,取得更好的学习效果。
2.对Hadoop开发做了基础上的准备
本书从一开始就对大数据的应用、特点和Hadoop的起源与发展做了基本介绍,并简要介绍了大数据的技术框架及Hadoop的核心构件,然后详细介绍了Hadoop的安装和配置步骤,便于读者理解后续章节中介绍的各种组件和案例。
3.全面涵盖Hadoop的各种核心技术
本书介绍了Hadoop的核心构件HDFS和MapReduce,并详细介绍了基于存储和计算的YARN、Hive、HBase、Flume、Sqoop、Kafka和Redis等大数据技术的原理、环境搭建步骤和整合应用示例。
4.模块驱动,实用性强
本书介绍了Hadoop开发的14个典型模块,有很强的实用性。这些模块都是Hadoop开发经常要用到的模块,开发人员可以随时查阅和参考。
5.详解4个高价值项目实战案例
本书介绍了4个项目实战案例,这些案例来源于大数据实际项目,有较高的参考价值和实际应用价值。这些案例用不同的大数据整合技术实现,读者稍加修改即可用于自己的实际项目中。通过这些实战案例,可以让读者对书中介绍的相关理论知识和技术细节有更加透彻的理解。
6.提供完善的售后服务
本书提供了专门的售后服务邮箱:[email protected]。读者在阅读本书的过程中有任何疑问都可以通过该邮箱获得帮助。
7.提供教学PPT,方便老师教学和学生学习
笔者专门为本书制作了专业的教学PPT,以方便相关院校的教学人员讲课时使用;读者也可以通过教学PPT,来提纲挈领地掌握书中的内容脉络。
本书内容
第1篇  Hadoop基础知识(第1~4章)
第1章初识Hadoop,介绍了大数据的特点和在各行业的应用;阐述了大数据和云计算、物联网之间的关系;讲述了Hadoop的起源、发展和意义。
第2章Hadoop的安装与配置,介绍了Hadoop安装与配置的相关知识,主要包括虚拟机的创建、克隆服务器、SSH免密码登录、JDK安装、Hadoop环境变量配置及Hadoop分布式安装等。
第3章Hadoop分布式文件系统,主要介绍了Hadoop的分布式文件系统,包括HDFS的核心概念、读写文件的流程,以及HDFS基于Shell和Java API的操作。
第4章基于Hadoop 3的HDFS高可用,主要介绍了Hadoop 3.x的发展和HDFS的高可用实现原理,以及如何基于Hadoop 3搭建完全分布式和NameNode的高可用。
第2篇  Hadoop核心技术(第5~15章)
第5章Hadoop的分布式协调服务——ZooKeeper,介绍了ZooKeeper的核心概念,包括Session、数据节点(Znode)、版本、Watcher和ACL等;还介绍了ZooKeeper的安装步骤、服务器端和客户端的相关命令,以及Java API访问ZooKeeper的多种操作。
第6章分布式离线计算框架——MapReduce,主要介绍了MapReduce的原理和应用知识,包括MapReduce的特点、应用场景、执行原理和测试实例。
第7章Hadoop的集群资源管理系统——YARN,比较了YARN和MapReduce的异同,并介绍了YARN集群资源管理系统的基本架构、工作流程和环境搭建步骤等。
第8章Hadoop的数据仓库框架——Hive,介绍了Hive的理论基础,以及Hive和数据库的异同、Hive设计目的与应用、Hive运行框架及执行原理;完成了Hive的环境搭建、内部表的创建、外部表的创建及数据操作;另外,还介绍了如何通过Java访问Hive及Hive的优化等相关内容。
第9章大数据快速读写——HBase,介绍了HBase列式数据库的体系架构、执行原理及安装步骤,还介绍了通过Shell操作HBase,以及基于Java API访问HBase实现数据增加和查询的相关内容。
第10章海量日志采集工具——Flume,主要介绍了Flume的概念、特点、架构,以及其主要组件Event、Client、Agent、Source、Channel和Sink的作用,并详细介绍了本地读取和配置设置的分日期储存和自动读取实例。
第11章Hadoop和关系型数据库间的数据传输工具——Sqoop,主要介绍了数据采集工具Sqoop的运行机制、安装和配置,以及Sqoop的导入和导出实例。
第12章分布式消息队列——Kafka,介绍了在大数据背景下的分布式消息队列Kafka的相关知识,主要包括Kafka的基本概念、核心组件、Kafka集群安装及应用案例等。
第13章开源的内存数据库——Redis,介绍了Redis的核心概念、特点、安装和配置步骤及基于客户端登录Redis实例;还介绍了Redis的数据类型,包括String、List、Hash和Set等。
第14章Ambari和CDH,主要介绍了Ambari和CDH的基本概念及其特点,并详细介绍了Ambari和CDH的安装步骤。
第15章快速且通用的集群计算系统——Spark,主要介绍了Spark的核心概念和运行机制,涉及Spark分布式集群的安装、平台搭建和应用案例等。
第3篇  Hadoop项目案例实战(第16~19章)
第16章基于电商产品的大数据业务分析系统实战,通过一个项目实战案例,详细介绍了数据采集、数据存储、数据清洗、数据转化、数据分析及终数据的展现过程。
第17章用户画像分析实战,通过一个项目实战案例,详细介绍了项目背景、数据采集、数据预处理、模型构建、数据分析等项目开发的过程,并对项目核心代码做了详细解读和部署运行。
第18章基于个性化的视频推荐系统实战,通过一个项目实战案例,详细介绍了推荐系统的基本概念、协同过滤推荐算法、项目架构、模型构建的详细过程,并对相关核心代码做了详细解读。
第19章电信离网用户挽留实战,通过一个项目实战案例,详细介绍了数据挖掘标准流程中的商业理解、数据理解、数据准备、建模、评估和部署这6个步骤,并利用代码实现了数据建模、评估和部署,终得到用户离网预警清单,有效防止用户流失。
本书配套资源及获取方式
本书提供了以下配套资源:
? 20小时配套教学视频;
? 实例源代码文件;
? 教学PPT。
这些资源需要读者自行下载。请在华章公司的网站(www.hzbook.com)上搜索到本书,然后单击“资料下载”按钮,即可在本书页面上找到“配书资源”下载链接。
适合阅读本书的读者
? 需要全面学习Hadoop大数据技术的人员;
? Java程序员;
? 大数据开发工程师;
? 需要提高大数据项目开发水平的人员;
? 大数据开发项目经理;
? 专业培训机构的学员;
? 对大数据技术感兴趣的学生;
? 需要一本案头查询手册的人员。
阅读建议
? 没有Hadoop技术基础的读者,建议从第1章开始顺次阅读并搭建环境,演练每一个实例。
? 有一定Hadoop框架基础的读者,可以根据实际情况有重点地选择阅读相关章节和项目案例。
? 对于每一个实例和项目案例,读者可以先自己思考一下实现的思路,然后再详细阅读,这样学习效果会更好。
? 对于重点内容,建议读者先看一遍教学视频,对相关内容有个基本了解,然后再详细阅读书中的内容,会更加事半功倍。
本书作者
本书由温春水和毕洁馨编写。感谢在本书编写过程中提供过帮助的各位编辑!
由于作者的水平所限,加之成书时间较为仓促,书中可能还存在一些疏漏和不当之处,敬请各位读者斧正。联系我们请发电子邮件。
编著者

 

媒体评论

这本书概念清晰,讲解通俗易懂,实例非常丰富,是一本适合通过实践的方式学习大数据的书籍。尤其是书中的商业案例,极具参考价值,相信每位读者都能从中汲取相应的知识与启发。

——见知集团董事长  张之戈

本书是一本不可多得的大数据实践类书籍。从大数据分布式环境的搭建,到HDFS、MapReduce、Hive、Zookeeper、Flume、Kafka和Redis等技术,书中均有涉猎,并延伸到了大数据的商业应用案例。读完本书,你可以全面掌握大数据的核心技术及具体应用。

——中软国际CTO  徐建民

作为一本大数据专业书籍,本书倾向于动手实践,通过大量的实例代码分析,帮助读者理解和实践。另外,作者还专门录制了大数据核心技术教学视频,这必将极大地提高读者的学习效率。

——慧科集团研究院院长  陈滢

本书注重实践,手把手带领读者学习,可读性很强,适合小白阅读,非常棒!

——微软高级架构师  韩亮

本书由浅入深地介绍了大数据相关技术,并围绕相关技术给出了大量的代码实例,将理论知识应用于项目开发实践,而且讲解非常通俗易懂,是一本极佳的Hadoop大数据分析学习手册。

——51CTO学院总监  张宝龙

这是我看过的*接地气的大数据实践类图书。无论是对于想要学习大数据的入门者,还是对于有一定大数据开发经验的从业者,本书都极具参考价值。

——CDA数据分析师协会理事  赵坚毅

这本书很接地气,非常适合想通过动手实践学习大数据的人员。作者将教会你如何在短时间内上手大数据,并编写出可以实际运行的大数据项目。

——大唐网络副总裁  张文杰

在线试读
第1章  初识Hadoop
随着互联网的高速发展,越来越多的用户在日常使用网络的过程中产生了数量庞大的结构化数据,同时在日常生活中也产生了大量的非结构化数据,如视频、音频和图像等。因此,对大量数据的有效存储管理和计算分析成为了信息行业迫切需要解决的问题。大数据就是基于数据爆炸的现状产生的。
Hadoop的前身由Doug Cutting创建,起源于开源的网络搜索引擎Apache Nutch,本章将从大数据的技术、特点和存储计算模式为起点,初步探究大数据的雏形。
以下是本章主要涉及的知识点。
? 了解大数据的特点及在各行业中的应用。
? 了解大数据技术,掌握大数据与云计算和物联网的关系。
? 了解Hadoop的起源、发展和意义。
1.1  大数据初探
本章首先介绍大数据的基本概念,理解这些概念是进一步学习和掌握大数据的基础。了解概念后,才能从大数据和云计算中找到学习的技巧。
在当前的技术领域内,大家提的比较多的当属大数据了,那么到底什么是大数据呢?关于大数据的定义目前有很多种,其实“大数据”就是收集各种数据,经过分析后用来做有意义的事,其中包括对数据进行采集、管理、存储、搜索、共享、分析和可视化。
关于数据的采集、存储和分析较容易理解,因为当数据量足够大的时候,很难存储,如FaceBook每天生成500TB的数据,如何存储这些数据就成了一个问题。有时我们需要存储大量的数据并进行分析,将分析结果用于运营决策,给决策者提供运营参考,而传统的技术无法实现大批量数据的存储和计算,毕竟单台机器的存储和计算性能都是有限的。
1.1.1  大数据技术
那么,大数据技术又是什么呢?从本质上来说,大数据技术是发现大规模数据中的规律,通过对数据的分析实现对运营层决策的支持。在此处需要注意大数据技术与其他学科之间的关系,Excel也可以做数据分析,那么为什么还要用到大数据技术呢?
主要原因是,大数据技术面对的是大规模的数据,每一天都会有大批量的数据生成,如何存储与计算这批数据,就是大数据技术要解决的问题。
1.1.2  大数据技术框架
大数据技术框架主要包含6个部分,分别是数据收集、数据存储、资源管理、计算框架、数据分析和数据展示,每部分包括的具体技术如图1.1所示。
 
图1.1  大数据技术框架图
1.1.3  大数据的特点
大数据的特点可以用“4v”来表示,分别为volume、variety、velocity和value,下面具体介绍。
? 海量性(volume):大数据的数据量很大,每天我们的行为都会产生大批量数据。
? 多样性(variety):大数据的类型多种多样,比如视频、音频和图片都属于数据。
? 高速性(velocity):大数据要求处理速度快,比如淘宝“双十一”需要实时显示交易数据。
? 价值性(value):大数据产生的价值密度低,意思是说大部分数据没有参考意义,少部分数据会形成高价值,比如私家汽车安装的摄像头,大部分情况下是用不到的,但是一旦出现“碰瓷”等现象就会很有价值。
1.1.4  大数据在各个行业中的应用
大数据的本质是发现数据规律,实现商业价值。在生活中有很多大数据应用的场景,包括金融、经济、医疗和体育行业等。
例如在金融行业中,支付宝平台通过大数据进行消费者信用评分,金融机构利用大数据进行金融产品的精准营销。在医疗行业中通过分析病人特征和疗效数据,找到特定病人的治疗方案;还可以在病人档案方面应用高级分析,确定某类疾病的易感人群。在体育行业中可以通过分析数据来制定战术、进行运动员能力评估,定制训练方案。
1.1.5  大数据计算模式
常见的大数据计算模式分为4类,如图1.2所示。
 
图1.2  大数据计算模式
? 批处理计算又称为离线计算,是针对大规模历史数据的批量处理,如MapReduce。
? 流计算是针对流数据的实时计算,可以实时处理产生的数据。商业版的有IBM InfoSphere Streams和IBM StreamBase,开源的有Storm和S4(Simple Scalable Streaming System),还有一部分是企业根据自身需求而定制的,如Dstream(百度)。
? 图计算是针对大规模图结构数据的处理,常用于社交网络,如Pregel、GraphX、Giraph(FaceBook)、PowerGraph和Hama等。
? 查询分析计算是针对大规模数据的存储管理和查询分析,如Hive、Cassandra和Impala等。
1.1.6  大数据与云计算、物联网的关系
关于云计算的解释有很多种,被人们广为接受的是美国国家标准与技术研究院所定义的,即云计算是一种按网络使用量付费的便捷模式,能进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),使资源被利用。
? 云计算的特点:超大规模、通用性、高拓展性、虚拟化、高可靠性、按需服务、极其廉价、具有潜在危险性。
? 云计算的模式:公有云、私有云、混合云。
? 云计算服务的分类:Saas、Paas和Iaas。
大数据与云计算是一种不可分的、相互依存的关系。首先,云计算是计算资源的底层,它的主要作用是支撑上层大数据的处理任务。而大数据的主要处理任务则是提升实时交互式查询效率和分析数据的能力。
物联网,其实就是物物相连的互联网。这其中包含两个意思,一个是在互联网基础上的延伸和扩展,起到核心作用的仍然是互联网;另一个是不管用户端延伸到任何物品上,终都实现物物相连。
在物联网应用中有3项关键技术:传感器技术、RFID标签和嵌入式系统技术。
物联网产生大数据,大数据助力物联网。随着物联网的发展,产生数据的终端由PC转向了包括PC、智能手机和平板电脑等在内的多样化终端,因此物联网推动了大数据技术的发展。
大数据、云计算和物联网三者息息相关,是互相关联、相互作用的。物联网是大数据的来源(设备数据),大数据技术为物联网数据的分析提供了强有力的支撑;物联网还为云计算提供了广阔的应用空间,而云计算为物联网提供了海量数据存储能力;云计算还为大数据提供了技术基础,而大数据能为云计算所产生的运营数据提供分析和决策依据。三者的关系如图1.3所示。
 
图1.3  三者相互关系图
1.2  Hadoop简介
Apache Hadoop本身是一个框架,它可以用简单的编程模型在计算机集群中对大型数据集进行分布式处理。它可以被设计成单个机器或成千上万台机器的集群,实现提供计算和存储服务。
然而,不同于依赖硬件实现的高可用性,Hadoop本身被设计为能够检测和处理应用层的错误,因此在计算机集群的整体层面上就提供了高可用服务。
1.2.1  Hadoop应用现状
随着大数据的快速发展,目前Hadoop已经应用在了很多大大小小的互联网企业中。对于国内来说,百度的日志分析、阿里的内部云,以及淘宝都在使用Hadoop;在国际上,英特尔、微软和Oracle等也都有了自己基于Hadoop的产品。
1.2.2  Hadoop简介与意义
Apache开源软件基金会开发了运行在大规模普通服务器上,用于大数据存储、计算、分析的分布式存储系统和分布式运算框架——Hadoop。Hadoop的两大核心如下。
? HDFS(Hadoop Distributed File System,分布式存储系统):是Hadoop中的核心组件之一,除了可以保存海量数据,还具有高可靠性、高扩展性和高吞吐率的特点。
? MapReduce:属于分布式计算框架,一般用于对海量数据的计算,它的特点是易于编程、高容错和高扩展等优点。另外,MapReduce可以独立于HDFS使用。
总结来说,Hadoop中的核心HDFS为海量数据提供了存储,而MapReduce则为海量数据提供了计算服务。
通过Hadoop可以快速搭建自己的分布式存储系统和分布式运算系统,它可以缩短处理数据的时间,同时可以尽量在低成本的情况下完成数据的分析与挖掘。这里说的低成本,主要是因为Hadoop可以基于廉价的普通PC机搭建集群。
1.3  小    结
本章首先解释了什么是大数据,然后介绍了大数据的特点和在各行业中的应用,并说明了大数据和当下云计算、物联网之间的关系,后讲述了在大数据的发展过程中Hadoop的起源、发展和意义。

抢先评论了 “从零开始学Hadoop大数据分析(视频教学版)” 取消回复

评论

还没有评论。

相关产品

加入购物车

医疗大数据

EUR €39.99
加入购物车

大数据架构详解:从数据获取到深度学习

EUR €43.99
评分 2.50 / 5
阅读更多
缺货

数据结构与算法:Python语言描述

EUR €31.99
加入购物车

数值分析(英文版)

EUR €28.99

东东购的宗旨是服务喜爱阅读中文书籍的海外人民,提供一个完善的购书平台,让国人不论何时何地都能沉浸在书香之中,读着熟悉的中文字,回忆着家乡的味道。


安全加密结账 安心网络购物 支持Paypal付款

常见问题

  • 货物配送
  • 退换货政策
  • 隐私政策
  • 联盟营销

客户服务

  • 联系东东
  • 关于东东
  • 帮我找书
  • 货物追踪
  • 会员登入

订阅最新的优惠讯息和书籍资讯

选择币别

EUR
USD
CAD
AUD
NZD
NOK
GBP
CHF
SEK
CNY
UAH
ILS
SAR
MXN
KRW
MYR
SGD
HUF
TRY
JPY
HKD
TWD
facebookinstagram
©2020 东东购 EasternEast.com

限时特卖:用“SALE15”优惠券全场书籍85折!可与三本88折,六本78折的优惠叠加计算。 忽略