描述
开 本: 32开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121358340
√ 读坊间故事般的轻松体验,实则饱经洗练、穿透岁月的独立思考与批判精神。
√ 备受互联网高端人士推崇的大号“飞总聊IT”作者深度洞察科技公司商业逻辑。
√ 真内行,白描生态圈众生相,入木三分;大高手,俯瞰大数据全景图,包罗万象。
√ 既有圣地硅谷技术与商业完美融合之典范,又有国内互联网颠覆创新重塑世界之楷模。
√ 作者亲历大数据发展全程,十余年在微软|Tableau|华为西雅图研发中心等从事相关工作。
√ 技术创业法则:长短期平衡|先发优势|弯道超车|技术驱动|开源贡献|僵化vs.混乱|框架束缚。
√ 大数据战国列传,IT成败案例卷宗,剖析技术兴衰背的深层根源,参透互联网商业的演进规律。
1 谷歌的大数据路:从拥有“三驾马车”到丧失先发优势 1
谷歌的“三驾马车”开启了大数据时代,然而在这个新时代里,谷歌却丧失了先发优势。这是为什么呢?我认为是谷歌对待开放架构的态度相对保守导致的。
2 谷歌的大数据路:一场影响深远的论战 7
在大数据发展史上,以迈克尔·斯通布雷克为代表的数据库元老级人物,针对MapReduce向谷歌提出了质疑。这场著名的论战给整个业界带来了动荡,后诞生了Spark。
3 谷歌的大数据路:谷歌的“黑科技” 14
在大数据的上半场,谷歌以“三驾马车”引领时代,但后来因为决策失误丧失了先发优势;而在大数据的下半场,谷歌带着“黑科技”Spanner数据库系统闪亮登场,效果如何呢?
4 如何读懂类似谷歌“三驾马车”这样的技术论文 20
读懂一篇技术论文,首先需要明白“论文是写给谁看的”和“论文是怎么写出来的”这两个基本问题,然后就可以有针对性地提升自己阅读论文的功力。
5 雅虎:大数据领域的“活雷锋” 26
雅虎,这个早已淡出我们视线的公司,却是大数据领域的“活雷锋”,可以说正是它促成了今天的Hadoop生态圈。这篇文章就来说说它的故事。
6 IBM的大数据路——起早贪黑赶了个“晚集” 31
作为历史悠久的计算机公司,IBM早早涉足了大数据领域,终却只能寄希望于比自己的产品起步还要晚的Spark,我们来看看其中发生了什么。
7 三大社交媒体公司对Hadoop生态圈的贡献 35
雅虎把Hadoop开源以后,当时著名的三大社交媒体公司Facebook、LinkedIn和Twitter都加入了这个生态圈,并做出了巨大贡献。Hadoop生态圈给我们的启示是,抱团取暖才是生存之道。
8 微软的大数据发展史:微软硅谷研究院 41
微软硅谷研究院曾经在微软的大数据发展历程中扮演了非常特殊的角色,它推出的Dryad和DryadLINQ可以说是两个另类的产品,虽然未曾大受欢迎,却对大数据的发展有着不可磨灭的贡献。
9 微软的大数据发展史:必应的Cosmos 47
Cosmos是微软必应搜索引擎下面的团队开发的大数据基础架构,代表了微软在大数据方面的成就。
10 微软的大数据发展史:Azure的发展 53
微软大数据发展史上的另一个分支是微软云计算平台下的大数据项目Azure。这个项目产生了HDInsight、Azure Data Lake、CosmosDB三大平台,但后只有CosmosDB取得成功。
11 亚马逊的大数据故事:从先驱者到一味索取者 59
在大数据技术发展的早期,亚马逊发表了Dynamo系统的论文,成为和谷歌“三驾马车”的论文一样具有深远影响的论文。然而随着大数据的发展和Hadoop生态圈的建立,亚马逊对大数据圈的贡献极少,但亚马逊自己却从中获得了巨大的利益。
12 亚马逊的大数据故事:创新和“拿来”并存的云服务 64
亚马逊不仅在Hadoop生态系统里蓬勃发展,还推出了自己的数据分析产品。这些产品有些是亚马逊自己研发的,有些则只是对开源的产品进行了包装。但是,亚马逊一如既往地没有反哺开源项目。
13 阿里巴巴的大数据故事:数据分析平台发展史 70
国内大数据平台做得好的公司当属阿里巴巴。本文就来介绍一下阿里巴巴数据分析平台的发展情况:数据分析平台的叠加开发。
14 阿里巴巴的大数据故事:流计算引擎发展史 75
在阿里巴巴的发展过程中,流数据处理一直是一项十分重要的技术,阿里巴巴也在这方面做了很多有意义的项目。本文就来介绍一下阿里巴巴的流计算引擎JStorm与Blink的发展史。
15 大公司的大数据战略得失:自建“轮子”成本高 80
大公司的大数据平台可分为两类,一类是自己搭的基础架构(自建“轮子”),另一类是抱团取暖所形成的Hadoop生态圈,两者各有利弊。本文将分析种情况,主要以谷歌、微软、阿里巴巴自己搭建的大数据平台架构为代表。
16 大公司的大数据战略得失:抱团取暖的Hadoop生态圈 86
除了自建“轮子”的公司,其他各大公司走向了一条抱团取暖的道路,就是你搭一个模块,我搭一个模块,大家一起开源出来,后组成了一个叫作Hadoop的生态圈。其中有为社区积极做贡献的公司,也有以赚钱为目的的公司,还有一味索取的公司。
17 Hadoop三国之“魏国”——Cloudera 91
Hadoop领域曾经有三家发行商互相角逐,其中不乏各种战术与谋略,仔细琢磨,你会发现这三家公司的关系与三国时期的魏蜀吴之间的关系非常相似。本文讲述Hadoop三国之“魏国”——Cloudera的故事。
18 Hadoop三国之“吴国”——MapR 97
Hadoop三国之“吴国”MapR,实力强大却很少参与竞争,这篇文章就来说说它特立独行的故事。
19 Hadoop三国之“蜀国”——Hortonworks 103
Hadoop三国之“蜀国”Hortonworks始终坚持100%开源,本文讲述它的故事。
20 Hadoop及其发行商的未来 111
Hadoop已诞生十多年,围绕其生态圈诞生了诸多企业,例如前面讲的社交媒体公司、三大发行商,而亚马逊却终成为的受益者。
21 文档数据库的缔造者MongoDB(上) 116
MongoDB的诞生像一场意外。它是一个文档型数据库,由10gen公司开发,以易用性闻名。本文就来讲述MongoDB团队的开发重心、商业运作模式和产品盈利方式。
22 文档数据库的缔造者MongoDB(下) 127
MongoDB的开发团队一向重视用户体验而不重视核心功能,其负面影响终于以一次安全危机的方式暴露。加上公司曾经获得具有CIA背景的风投公司的投资,这一并引起了很多人的顾虑。当然,这一切都挡不住MongoDB公司终的成功上市。
23 以MongoDB为例,看基础架构类产品创业 132
作为一款基础架构类产品,MongoDB以其易用性闻名,然而MongoDB的开发者不注重系统的可靠性,只注重可用性,导致很多MongoDB的用户转向了其他产品。基础架构类产品的创业者应该如何平衡可用性和可靠性?这是一个值得深思的问题。
24 直面MongoDB,谈微软的NoSQL战略 137
2013年,MongoDB在数据库市场中的占有率很高,成为很多创业者和初创企业的。微软究竟做了哪些事情,将Cosmos DB变成能与MongoDB竞争的产品的呢?
25 Palantir:神秘的大数据独角兽公司 144
Palantir是一家神秘的大数据创业公司,由硅谷著名投资人彼得·蒂尔创办,其主要服务对象是美国政府部门、特情组织和军队,所以外界对其了解甚少。
26 Splunk:机器日志数据分析帝国 149
Splunk是大数据圈里少有的盈利并且蓬勃发展的企业。它主要服务于机器日志数据分析领域,随后又不断拓展业务,演变开发了若干不同类型的软件。在本文中我们就来好好聊聊Splunk的进阶史。
27 Confluent:Kafka项目背后的公司 155
Kafka是LinkedIn开发的开源项目,它主要通过日志文件传输的方式在不同的数据源之间同步数据。而Confluent公司是Kafka开源项目的创始人离开LinkedIn以后所创立的公司,主要致力于Kafka项目的商业化。在本文中,我们来讲讲这家公司的故事。
28 Powerset:HBase的“老东家” 160
Powerset是一家在多年前被微软收购的创业公司,目前在语义搜索方面开疆拓土。它为开源社区贡献了BigTable的Hadoop版实现。本文就来讲讲这家公司的发展史。
29 Cassandra和DataStax公司的故事 166
Cassandra是开源社区仿照Amazon Dynamo开发的产品,它初由Facebook开发并开源,却又被公司内部弃用。创业公司DataStax对Cassandra大力支持,造就了今天繁荣的Cassandra社区。
30 Databricks:Spark的数据“金砖”王国 172
Spark是Hadoop生态圈里大红大紫的项目,它甚至取代了Hadoop MapReduce的地位。Databricks是对这个项目进行商业化的企业。本文就来聊聊这家企业的故事。
31 Data Artisans和浴火重生的新一代大数据计算引擎Flink 178
Data Artisans是对Flink进行商业化的公司。Apache Flink是一个年轻的新型处理引擎,是Hadoop社区里Spark的主要竞争对手。Flink设计理念先进,但是工程实现方面相对落后。
32 Dremio:基于Drill和Arrow的大数据公司 183
Dremio是另外一家大数据创业公司,其创始人是从MapR公司跳槽出来的。Dremio的主要产品就是Dremio项目,它吸收了MapR主导的开源项目Drill的精华,以开源项目Arrow为核心开发。本文就来讲讲Dremio公司和Dremio平台的来龙去脉。
33 Imply:基于Druid的大数据分析公司 189
开源大数据项目Druid由Metamarkets开发。开始时籍籍无名,后来被一些大公司,尤其是Airbnb使用和推广以后,受到了很多关注。
34 Kyligence:麒麟背后的大数据公司 194
麒麟(英文名字是Kylin)是个全部由中国人主导的Apache开源项目,Kyligence则是对这个项目进行商业化的公司。本文就来看看麒麟和Kyligence的故事。
35 Snowflake:云端的弹性数据仓库 200
Snowflake是一个构建在云端的弹性数据仓库,它背后的公司与之同名。Snowflake公司的创始人和管理层都有强大的背景,本文就来讲一下Snowflake及其公司的故事。
36 TiDB:一个国产新数据库的创业故事 205
TiDB是位于北京的一家创业公司PingCAP的产品,它的目标是实现一个开源的类似谷歌Spanner的系统,这个产品非常有特色,本文就来聊聊TiDB和它背后的公司。
37 大数据创业公司的前景:红海vs.蓝海 211
关于创业的市场,通常有红海和蓝海的说法,蓝海容易成功,红海相对艰难。对大数据创业公司来说,蓝海多半指的是应用软件类的市场,而红海指的则是基础架构软件类的市场。本文将对比分析一下这两类市场。
38 如何通过分析企业的技术积累来判断其发展前景 216
通过分析企业的技术积累,能够有效地判断企业的发展前景如何。我们需要关注三个方面:技术适用的场景是否有巨大的盈利空间,技术本身是否有领先和独到之处,以及技术的积累是否足够深和广。
近年来大数据技术迅速发展,随着智能手机、可穿戴设备以及物联网设备的普及,我们正步入一个数据爆炸的时代,收集、存储和处理大数据的云计算平台应运而生。有了云计算作为基础,人工智能技术才得以迅猛发展,从而更精准地挖掘和释放数据中潜在的价值。
与飞总相识多年,每次与他交流都让我受益匪浅,总能被他在大数据领域的广阔见识和独到见解吸引。飞总的微信公众号“飞总聊IT”在业界小有名气,他在公众号中连载的“大数据那些事”系列文章是本书内容的基础。本书以浅显易懂的语言分析了各公司的大数据之路,介绍了各个大数据技术平台的功能与特点,内容连贯完整,既能让读者系统了解大数据领域的发展历史和现状,又能促使读者一起思考、交流大数据领域未来的发展方向。
刘国伟
谷歌资深软件工程师
作为一名大数据领域的资深专家,飞总在本书中用生动活泼的语言深入浅出地描绘了大数据生态圈的“众生相”。是什么吸引着我在凌晨时分困意全无地一口气读完了全书?我想,一方面是飞总清晰地描绘了各个公司及其技术相生相克的关系,让我这个实用主义者次从宏观角度看到了这个领域的全貌;另一方面,也许对我来说是更重要的方面,书中的内容激发了我对决策和管理的思考:初创公司应该如何平衡短期增长和长期留存?先发优势应该如何保持?后起之秀应该怎样弯道超车?技术对于商业成功和项目成功的贡献各有多大?大公司将代码开源的行为是在汇集资源还是在让资源流失?管理僵化和管理混乱哪个会导致公司更快地垮掉?公司应该如何利用资源帮助一个好点子成长,而不是用已有的技术框架绑架它?
所以,即使你对大数据技术并不了解,这本书中丰富的商业案例也会为你带来很多启发。
殷培
Facebook经理
数据库从业人员往往都保持着大量的输入,读学术论文、读技术总结、读商业分析,每天都要吸纳更多的知识和技能。可是,像飞总这般乐于输出、甘于输出、不计代价地输出的人,倒不常见。这是一种能力,高屋建瓴地梳理归纳,而后有条理、有章程地输出的能力;更是一种态度,已成名的大家总是过于爱惜自己的羽毛,不愿轻易公开地表达对事物的想法和见解,特别是当自己身上已打上公司tag、立场tag,而不是所谓“独立大V”时。
飞总在本书中并没过多地着墨于技术本身,而是站在技术之上,从宏观的、大环境的层面对商业案例进行分析探讨,在我看来,颇有黄仁宇老先生“大历史观”的感觉。大数据的时代已经开启,大数据的时代远未结束,希望能看见飞总的更多好文,也谢谢他高质量的、持续的分享。
龚玮薇
Oracle数据库系统技术经理
飞总的文章富有批判精神且论述有理有据,这一点深深吸引了我。一篇篇文章恰似坊间故事,把来龙去脉讲得非常有趣,更于有趣之中蕴含着思考,于思考之间洋溢着情感。愿飞总持之以恒,不断为粉丝们呈现佳作。
李海翔(那海蓝蓝)
数据库内核开发者,
《数据库查询优化器的艺术:原理解析与SQL性能优化》、
《数据库事务处理的艺术:事务管理与并发控制》作者,
腾讯T4级工程师
我们处在技术高速发展的时代,而商业是技术好的驱动力。一段代码可能只能默默无闻地放在我们自己的测试服务器上,也可能每天被调用上百万次。决定代码生命周期的往往不是代码质量本身。新技术可能推动商业模式的发展,也可能让项目走向低迷。飞总对技术和商业的关系有着深入的思考,他把这些思考的精华写在了这本书中,将我带入了另一个认知维度。
林晓斌
极客时间“MySQL实战45讲”专栏作者,MySQL专家
硅谷之所以被称为IT圣地,不仅因为这里实现了大量科技创新,更因为这里实现了技术和商业的完美结合,值得国内的IT企业认真思考和学习。徐飞的这本《大数据浪潮之巅:新技术商业制胜之道》以通俗易懂、幽默风趣的语言,将硅谷和国内典型的技术与商业融合创新的案例娓娓道来,其中一些是失败的教训,比如MongoDB追求技术上的易用性而忽视了商业应用的安全性,因而给了微软的CosmosDB大举侵占市场的机会;另一些则是成功的经验,比如Spark通过综合不同大数据存储系统的优点,并针对性地改造其缺点实现了后来居上。通过介绍这些正反面案例,带领读者从中汲取经验,学习思路。
谢梁
滴滴首席数据科学家
大数据是被称为“未来石油”的珍贵资源,大数据的概念一被提出,便成为各大知名IT企业争夺的制高点。谷歌、微软、IBM、阿里巴巴等公司都不惜重金进行相关技术的研究和商业化实践,一时间大数据江湖风起云涌。
飞总在微软、Tableau、华为西雅图研发中心等多家公司从事过十余年大数据相关的工作,对大数据技术以及商业化实践形成了独到而深刻的见解。本书用浅显易懂又风趣幽默的语言,向读者分析了MongoDB、微软、谷歌、亚马逊、Facebook等世界IT巨头及各个创业公司的技术革新、商业模式变化,以及由此导致的企业沉浮。既能满足读者的猎奇心理,又能让人学到大数据、技术型企业的商业运作等专业知识,给人带来了深刻的思考与丰富的启迪。
汪云海
山东大学计算机学院教授
推荐序一
次读到徐飞的大数据系列文章是在他的“飞总聊IT”公众号上,我一口气读完了所有历史文章。后来有机会见到徐飞,才发现我们以前是同事。我于2006年加入微软的必应搜索引擎开发部门,主要从事搜索技术研发;徐飞比我晚三年加入,他当时直接进入了必应的大数据Cosmos部门。说来也奇怪,我们在同一栋楼工作了若干年,却没有正式见过面,这可能是因为那段时间必应正野蛮生长,人员流动比较大。
过去十年,整个互联网产业发生了翻天覆地的变化,从大数据到云计算再到人工智能,变革一浪接着一浪。读徐飞的大数据系列文章,我再次感受了这场轰轰烈烈的变革。读完文章再看现在的格局,有种以史为镜的感觉,对现在的很多挑战都有了新的思考。作为一名大数据老兵,徐飞是科班出身,所写的文章不仅有精辟的技术见解,而且穿插了很多背后的故事,引经据典、娓娓道来,有种读小说的感觉。不少故事和过程,特别是一些重要的技术决策,我都是次知道完整的来龙去脉。其中,谷歌的“三驾马车”、SQL与NoSQL之争、从MongoDB到CosmosDB都是我们亲身经历的事件。我对微软相关的文章尤其感兴趣,因为其中的商业和技术决策是很好的学习案例,值得再三回顾:从Cosmos到CosmosDB,从闭源到开源,从“面子”到“里子”,其中的兴衰一言难尽,值得所有技术公司借鉴。书中还分析了一些很新的系统,比如阿里巴巴的Blink系统等。
如果你对计算机和互联网行业感兴趣,想了解一些伟大的技术和公司的发展史,那么这本书正适合你,它会告诉你很多有趣的故事。更重要的是,你可以通过这些故事来了解背后的原因,所谓知其然且知其所以然。
汪军华
微软杰出工程师(Distinguished Engineer)
推荐序二
极客时间App上的专栏“技术与商业案例解读”上线后不久,我们请专栏作者徐飞来公司做直播,给用户分享他写这个专栏背后的故事,于是我次见到了飞总。和任何一个技术出身的小伙伴一样,飞总有点羞涩,但和很多技术人又不太一样的是,飞总很有自己的观点,而且敢说。时间过去很久了,我还能很清楚地记得他指点江山般地分析一家当红公司的种种优势与劣势,畅快淋漓而有见地。
文如其人,飞总的专栏也是如此。每次看或者听专栏的内容时,我都会纳闷:这哥们儿的知识怎么那么渊博?好像没有他不了解的公司,没有他不知道的奇闻逸事。也许正是这个原因,在极客时间App一开始用户量还不大的情况下,飞总的专栏就有几千人订阅。因为工作原因,我个人特别喜欢了解那些科技公司的历史。在我从事的软件开发领域,技术更迭实在太快,如果不能从源头理清这些技术的发展脉络,就很容易迷失在历史的谜团里。
飞总的文章不仅有趣,而且很有参考价值。有一次,飞总分析了当时很火热的大数据公司Cloudera的业务模式、竞争对手及财务状况,然后他断言Cloudera当时的估值虚高,大概是其实际价值的两倍。这篇文章发布后的第三天,就传出了Cloudera公司自砍一半估值上市的新闻。听起来有点不可思议,但这也从侧面说明飞总对大数据行业的了解有多么深刻。
本书是将飞总的专栏中大数据方面的内容抽出来整理而成的。里面既有对国内外当红的大数据产品的解析,比如TiDB、麒麟(Kyligence)以及被阿里巴巴以9000万欧元收购的Flink,又有国际知名公司的大数据发展史,公司包括阿里巴巴、微软、亚马逊、IBM等,读起来都非常有趣。技术变革从来都不是一件容易的事情,但是不管技术怎么变动,每家公司都希望在保持业务平稳增长的状态下发展,在移动互联网时代下做到这一点很难,不能掉以轻心。
古人说“以史为镜,可以知兴替”。相信有心的读者朋友——不论是程序员还是在IT企业家,都会从本书受益良多。
霍泰稳
极客邦科技创始人兼CEO
推荐序三
从20世纪60年代至今,信息技术的版图不断扩大,从大型机、小型机、PC,到操作系统、网络、数据库、ITOM、云计算,而大数据无疑是近十年来引人瞩目的新领域之一。
与其他技术领域相比,大数据领域的故事尤其难讲,一是因为领域新,在一个领域稳定下来之前,是不容易讲清楚其来龙去脉的。二是大数据领域的技术性很强,涉及的细分领域也很多,外行很难理清技术和需求之间的关系,自然更难看清兴衰背后的深层根源。第三,大数据领域中的技术发明者和商业角逐者既有大数据技术的使用者(比如雅虎、Facebook),又有产品和技术提供者(比如MongoDB、Hadoop、谷歌),更有在技术使用者和商品提供者之间转换的云厂商巨头(比如亚马逊、阿里巴巴、微软等),不熟悉该领域的专家很难看清楚其中的演进规律。第四,在商业模式上,大数据领域是少有的甚至可以说是个以开源模式为主导的技术领域。
评论
还没有评论。