描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787519840099
产品特色
编辑推荐
通过本书你将了解到如何使用、部署和维护Apache Spark开源集群计算框架。本书由Spark的创始人所撰写,重点介绍Spark*版本的新功能和新特点。本书将Spark功能分解为若干独立主题来进行全面介绍。
你将接触到Spark的基本操作和常用函数,还包括一种全新的构建端到端流数据应用的结构化流处理API。开发人员和系统管理员将了解到Spark的监控、调优,以及调试的原则和方法,并通过使用Spark提供的可扩展机器学习库Mllib来了解机器学习算法的实现技术。
内容简介
通过本书你将了解到如何使用、部署和维护Apache Spark开源集群计算框架。本书由Spark的创始人所撰写,重点介绍Spark*版本的新功能和新特点。本书将Spark功能分解为若干独立主题来进行全面介绍。
本书的主要内容有:
- 大数据技术和Spark概述。
- 通过实例学习DataFrame、SQL、Dataset等Spark的核心API。
- 了解Spark的低级API实现,包括RDD以及SQL和DataFrame的执行过程。
- 了解Spark如何在集群上运行。
- Spark集群和应用程序的调试、监控、和调优。
- 学习Spark强大的流处理引擎——结构化流处理。
- 学习MLlib并了解如何应用它解决包括分类、推荐,以及其他多种实际问题。
目 录
前 言
媒体评论
“这本书是所有Spark开发人员的必读书籍,介绍了许多别处无法学到的使用技巧。”
——Ion Stoica
美国加州大学伯克利分校RISE实验室主任
评论
还没有评论。