描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787564183677
编辑推荐
如今,流式数据是大数据中的一个大问题。 随着越来越多的企业试图掌控遍布全球的无限海量数据集,流式系统终于到了足以被主流接纳的成熟度。通过这本实用指南,数据工程师、数据科学家和开发人员将学习到如何以概念化和无关于平台的方式处理流式数据。基于对Tyler Akidau的热门博文《Streaming 101》和《Streaming 102》的拓展,本书将带你从入门到细致入微地理解实时数据流处理的what、where、when和how。你还将与合著者Slava Chernyak和Reuven Lax一起深入了解水印和exactly-once处理。
你将学习到:如何比较流式和批量数据处理模式健全的乱序数据处理背后的核心原理和概念水印如何在无限数据集中跟踪进度和完整性exactly-once数据处理技术如何确保正确性流和表的概念如何构成批量和流式数据处理的基础用现实世界的例子演示强大的持久状态机制背后的实用动机时变关系(time-varying relations)如何将流处理和熟悉的SQL及关系代数世界联系起来
你将学习到:如何比较流式和批量数据处理模式健全的乱序数据处理背后的核心原理和概念水印如何在无限数据集中跟踪进度和完整性exactly-once数据处理技术如何确保正确性流和表的概念如何构成批量和流式数据处理的基础用现实世界的例子演示强大的持久状态机制背后的实用动机时变关系(time-varying relations)如何将流处理和熟悉的SQL及关系代数世界联系起来
内容简介
在传统的数据处理流程中,总是先收集数据,然后将数据放到DB中。当人们需要的时候通过DB对数据做query,得到答案或进行相关的处理。这样看起来虽然非常合理,但是结果却非常的紧凑,尤其是在一些实时搜索应用环境中的某些具体问题,类似于MapReduce方式的离线处理并不能很好地解决问题。这就引出了一种新的数据计算结构—流计算方式。它可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息,并把结果发送到下一计算节点。本书讲解流计算原理。
媒体评论
“如果你关心流式作业和批处理作业的正确性,那么本书是必读之作。它对该主题所展开的讨论是我迄今为止所见到过的*清晰和*合理的,同时极好地解释了相关的概念。” —— Martin Kleppmann 剑桥大学
评论
还没有评论。