描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787550263581
推荐一:雅虎中国前总裁、中国互联网**预言家——谢文,大数据力作。本书作者是中国互联网业**代创业者,历任和讯网总裁、雅虎中国总裁、一起网CEO,亲身经历中国互联网发展全过程,是为中国互联网**观察家,圈内人都知道,他的文章不只是“可以读”,而是“必须读”。
推荐二:大数据首入中国国家战略规划,大数据经济起飞在即!高层领导频繁吹风“大数据”,工信部制定《大数据产业“十三五”发展规划》,各省市纷纷跟进,中国的大数据时代已然在望,大数据产业迎来台风口。如果还不懂大数据,你就真out了。
推荐三:不尚虚的概念,只讲实用的干活,国内*接地气的大数据读本。作者是*懂中国互联网业的权威专家,本书内容一针见血、入木三分,足以帮助读者看穿各种花哨概念的迷雾,直达现实的核心。大数据时代,风险和机遇并存,本书带您绕过陷阱,找对起飞的通道。
推荐四:小米公司副总裁 陈彤、财新传媒总编辑 胡舒立、中国金融博物馆理事长 王巍 鼎力推荐!
2015年8月19日,国务院常务会议通过《关于促进大数据发展的行动纲要》,政府顺应潮流,加大政策支持力度,促进大数据行业发展。中国大数据产业起飞在即!
万物皆数,万物互联,一个与现实世界平行的数据世界正在加速构建。大数据经济势不可挡,不断增多的人类制造物都开始采用数据化生产方式,新的原材料开始用数据化的方式生成,新的需求通过数据化的方式获得,商业销售和货币交换都以数据化的方式进行,大数据不再是网络业少数人讨论的技术问题,而是与我们普通人休戚相关的日常!
作者谢文亲身参与中国互联网行业发展全过程,是国内**的互联网观察者和预言家,被称为中国的“KK”。作为中国网络业的开路人,他的发言兼具专业的理解力、趋势的观察力和深刻的人文理念。对于关注中国网络业的读者来说,他的文章不是可以一读,而是!
一、一切都是数据,数据就是一切
关于大数据,你知道的都不对
数据的由来——从三千年前说起
数据的进化——从数据到大数据
大数据时代的下一个“倒霉蛋”
数据已成为生活必需品?
二、大数据时代的游戏规则
得数据者得天下
扎克伯格定律
数据大≠大数据
大数据商业模式
产业链的颠覆和重组
数据服务业才是未来
大数据蓝海的历史使命
大数据时代的标准之争
创新的大数据商业模式
看得见的大数据未来
《大数据时代》解读
大数据变革前夜
三、创造性毁灭:新时代的生存法则
创造性毁灭还是从0 到1 ?
大数据战争的产业制高点
假如微博成为主流媒体
假如微博也是搜索
移动互联网未来的格局
即将引爆的电子商务革命
创新的企业机制
十亿美金的教训:技巧有余,眼光不足
互联网的溢出效应
百度是个什么样的公司
一软到底还是软硬兼施
谷歌转型的挑战
乔布斯真正的伟大之处
网络业内的资本狂潮
一个时代的终结
历史的转折点
四、互联网的加法怎么做
互联网的加法怎么做
真假“互联网 ”的辨识标准
互联网思维还是思维互联网?
攻防转换中的互联网金融
互联网金融还是大数据金融?
通用电气的工业互联网
新挑战与旧思维
真假产业革命
唯有创新能救夕阳产业
打车软件的道理与利益
迎接大数据制造业的到来
五、互联网时代的中国特色
互联网时代的《仿造西洋火车无利多害折》
三条战线的创新之战
网络业的亚健康状态
电信业的体制之困
宽带战略的产业效益
微博是块试金石
虚拟世界雾霾重重
虚拟世界的隐私权博弈
失衡的数据
互联网的“瞻对”问题
无可奈何的反垄断
后 记
出版后记
导 语
大数据是什么?从哪里来的?有什么用?讨论大数据难免要围绕着这些问题展开。但至今,对这些基本问题还没有什么共识达成。当然,这也没有严重影响大数据的发展。在什么领域里阻力小、见效快、收益大,这些领域里的大数据创新就数量多、影响大。
微观派愿意就具体的技术问题讨论大数据,例如数据大了怎么存储好,数据种类多了如何统一,数据增长快了怎么能比较省钱地应对。中观派愿意讨论利用大数据的好处,例如如何通过数据挖掘提供产品和服务的营收,如何利用用户行为数据增加产品和服务的针对性。宏观派愿意讨论大数据对社会的影响,尤其是负面影响,例如大数据如何威胁个人隐私、企业利益和国家安全。三者一致的地方在于都认为大数据是个可以控制、可以利用、可以取舍的技术现象。对大数据,用也好,不用也好,用一部分舍弃一部分也好。总之,大数据只
是一种工具。但万一不仅仅如此呢?
如果世界上的万事万物都正在快速地被人类数据化,存储在计算机里,流动于互联网中,万物皆数,万物互联,那么就会形成一个与现实世界平行的数据世界。人类在数据世界里完成的社会行为在比例上不断增加,在内容上不断丰富,那么,该如何理解这种变化呢?
如果不断增多的人类制造物都开始采用数据化生产方式,新的原材料开始用数据化的方式生成,新的需求通过数据化的方式获得,商业销售和货币交换都以数据化的方式进行,那么,大数据还只是网络业少数人讨论的技术问题吗?
如果社会管理、国家安全、公共卫生和交通、教育和医疗都在迅速采用数据化的方式,那么,一个社会该以什么样的态度对待大数据现象,以什么样的姿态面对大数据浪潮的冲击?如果社会交往、新闻资讯、文化娱乐、思想传播都更主要地通过数据化形式进行,那么,是抗拒或封杀这样的传播方式还是努力去适应这样的传播方式?
如果人们居住的房屋、驾驶的车辆、使用的器具、穿戴的衣物都变成数据化终端,那么,人类该怎样去适应这样的生活方式,该形成怎样的社会习俗?仅仅把大数据看作一种技术现象、经济现象、社会现象或政治现象是不够的。从个人层面讲,轻视大数据就容易在各种生活选择中不知所措,诸如上学、就业、居家、社交都有可能陷入困境。从企业层面讲,看不到大数据的趋势,轻视各行各业走向数据化的趋势,以为随便做做就算互联网 了,都可能是首先被淘汰被取代的企业。从社会层面讲,文化、道德、习俗如果比较保守,比较内向,比较排外,那就会在大数据浪潮面前不知所措,消极被动地应对危机。从国家层面讲,如果抓不住大数据的机遇,消极抵抗大数据浪潮,就会像许多处于农业社会的国家面对工业革命的冲击却错失良机,再想赶超就需要数百年的努力。
大数据是一种世界观,大数据是一种历史观,大数据是一种价值观,大数据是一种方法论。大数据其中的技术问题自有专业人士应对,商业问题自有企业家们操心,但由此引发的社会文化、道德、习俗的变迁,国家兴衰与全球范围的竞争,每个人都很难不去面对,不去
思考,不去选择。
如果把人类走向信息化社会的努力分为三个阶段或三个时代的话,可以分为计算机时代、互联网时代和大数据时代,理由在于不同时代的驱动力不同。计算机解决的是数据计算问题,互联网解决的是数据传输问题,大数据则是在此基础上直奔主题,用数据化的方式解决人类生存发展的各种问题。
苏联解体后专家们统计,美国与苏联相比,20 世纪80年代末计算机拥有量是25比1。当苏联还痴迷于原子弹、航母、导弹、坦克的数量时,却不知道或不理解人类已经开始走向信息化社会了,一个国家的国力已经不再仅仅以军事力量去衡量,而更主要的是以信息生产能力去衡量。
和苏联相仿,中国几乎完全错过了计算机时代,直到20 世纪70 年代末的改革开放才急起直追。今天虽然在计算机应用的深度和广度上还落后于发达国家,但基本上算是齐头并进了。在互联网兴起时,中国落后美国10年以上。但同样感谢改革开放的国策,从20 世纪90 年代中期开始奋起,今天也算是第二互联网大国。在2010 年左右世界开始进入大数据时代,中国次有了和发达国家同时出发的历史机遇。但是,种种迹象表明,中国走向大数据时代的决心不那么大,步伐不那么快,基础性建设不那么多。如果蹉跎十来年,就又会与发达国家拉开整整一个时代的差距。所以,认识大数据,思考大数据,努力大数据,就应该成为此时此刻的一个重要话题。
关于大数据,你知道的都不对
一个概念,无论它可以抽象到多么高深的程度,其形成、演变、推广的过程往往却很实在、具体,充斥着不同社会力量的博弈。这个概念的对错与否、生命力的短长、对社会的影响往往不取决于概念本身,而在于它的社会价值。
例如,PM2.5 是一个衡量空气污染的指标概念,是描述客观存在的一种尺度。但是,这个概念在中国的落地生根却经过了两三年惊心动魄、迂回曲折的艰难历程。这个概念长期被拒绝在中国采用,理由是不合中国国情,不能反映出环境保护方面取得的伟大成就。然后,当亿万百姓可以通过网络获取这一指标的实时报道时,又被说成是外部势力居心叵测的挑
衅。终于,现在PM2.5 检测体系开始在全国逐步建立,大众的兴奋度却逐步降低,因为据说不经过二三十年,中国是很难达到联合国规定的空气优良标准的。
再例如,基尼系数是世界各国广泛用来衡量社会发展水平和社会不平等程度的一个客观指标概念。但是,这个曾经被中国学界广泛使用的概念近年来却无法获取权威的全国性数据,据说是因为基尼系数七八年前就达到了0. 45 的水平,这被认为是一个社会贫富差距过大、继续增加就会导致社会动荡的临界点。一些学人体谅苦心,跳出来说普适性的基尼系数计
算方式不适合中国国情,需要建立具有中国特色的基尼系数。因为城乡二元化,所以应该分别计算城乡基尼系数;因为沿海内地发展水平差异巨大,所以应该分别计算沿海地区和内陆地区的基尼系数;因为城市地区有户口的居民与新迁移进城的无户口居民之间生活水平差异巨大,所以应该分别计算正式居民与非正式居民的基尼系数,甚至干脆将非正式居民排除于统计体系之外。于是,社会贫富差距就成了一个只能泛泛而谈而无法实际度量的东西。
还例如,世界多数国家普遍采用的时区制,在中国从来就没有实行过,据说是怕影响国家统一。夏令时制曾经试行过两三年又被取消,据说是因为既麻烦又节电效果不明显。邮政编码先是被大力推行,然后又被取消,然后又被推行,理由先是推行成本过高,后是不推行成本过高。相反,有些概念的命运没有这么坎坷,一旦引进国门就大行其道。纳米是个只有极少数材料物理科学界专家才明白的概念,但今天在很多超市里却随处可见纳米除污剂、纳米装饰品,甚至还有什么纳米食品。
可见,一个新概念的出现,即使本身正确,孕育着推动科技进步和社会发展的巨大潜能,其真正实现也绝非易事,更可能的是由于社会环境的制约,被否定,被歪曲,被庸俗化。
今天,在中国相当范围内,开始流行一个全新的概念——大数据。我得承认,这个概念的流行中我自己起了一点作用。在大数据开始被讨论差不多一年的时候,它开始沦入其他新概念类似的命运:越来越说不清楚了。个中原因也不难解释:首先,大数据的概念是个舶来品,在发达国家尤其是美国逐渐成形、讨论和实践。在潮涌般的媒体报道、论文分析和专著论述中,大数据这个概念如同瞎子摸象一样,被不同视角、不同利益和不同水平的人描述出来,让人难以琢磨。一个被严格定义并被广泛接受的大数据概念还没有出现,它更像是一个宽泛的现象描述,各种各样的东西都被装在里面。这样的好处是百家争鸣,共识会逐渐形成;坏处是鱼龙混杂,存在走歪走偏的可能性。其次,大数据是个发展中的事物,人们对其理解、
阐释也在思想的碰撞、利益的竞争和技术的发展中不断深化,在概念层次和理论框架上说不清楚是必然的,和历史上许多新理念的形成过程并无二致。再者,关心大数据的主力军是网络业和IT 业人士,他们目前面临着沉重的竞争压力和创新突围的激烈竞争,难免情不自禁地把自己的战略、产品、技术和服务装进大数据这个筐里,图存发展。
在维基百科网站上,大数据开始是这样被定义的:“大数据通常包括这样一些数据集,其体量超出了业内常用软件工具的能力,无法在可以容忍的时间内获取、把握、管理和处理。”这个定义显然是描述性的、单向思维的、自相矛盾的:如果大数据仅仅等于数据体量大,那么大数据与其他数据有什么本质区别?这种区别仅仅在于软件处理能力上吗?近年在处理
体量相对庞大的数据方面,流行常用的软件程序叫Hadoop,那么能够被它处理的数据算不算大数据呢?说不算吧,Hadoop 被很多人称为个大数据软件;说算吧,它面对的数据并没有超出它的能力。可见,这种大数据概念一定来自每日和数据纠缠在一起的软件工程师和数据工程师们,是一种具体的、狭隘的、操作性的定义,经不起时间和逻辑的检验。
2001 年,在全球IT 咨询服务巨头Gartner 工作的分析师Doug Laney 写了一篇研究报告,次提出了一个三维模型,用以分析数据增长所带来的挑战和机会。这个三维模型的维是高速增长的数据体量(Volume),第二维是高速进出的数据运动(Velocity),第三维是高度异质的数据种类(Variety)。由这三维形成的空间里充满的就是我们今天称之为大数据的东西。Gartner 采用了这个3V 模型,从此成了广为人知,也被IT 业界普遍接受的大数据定义。2012 年,作为Gartner 资深专家的Laney 又在一篇新分析报告中更新了自己的大数据概念定义:“大数据是体量庞大、高速变动和/或种类繁多的信息资产,需要采用全新的处理形式以有助于提高人们在决策形成、视野拓展和过程优化中的能力。”
这是一个很不错的定义。首先,明确了大数据是一种以信息形态存在的资产,具有3V 特性;其次,盘活这种资产需要全新的处理形式;再者,这种资产增值创利主要体现在决策、视野和过程优化三方面。这个定义比前面提过的定义有进步,至少把大数据从狭窄的数据处理领域扩展到了整个IT 业,也就是信息技术业。而且,由于信息技术已经普及到各个产业,
应用于社会生活的方方面面,所以,大数据也就应该被社会各领域的人们所关注。
但是,我对这样一个大数据概念的定义仍然有些不满足,有些困惑,有些疑虑。这个定义仍然是描述性的,有些含混不清、难以把握。例如,“体量庞大”是什么意思?体量为一个MB 的数据等于1024 KB,一个GB 数据等于1024 MB,一个TB 数据等于1024 GB,一个PB 数据等于1024 TB……数据体量大到什么程度就算大数据了?“高速变动”是什么意思? 1 GB/s还是1 TB/s ?或者是数据体量每年翻番?“种类繁多”是什么意思? 1000种不同数据? 100 种数据来源? 10 种数据格式?“全新的处理方式”是什么意思?今天的全新方式也许明天就过时了,明天的全新方式也许后天就落后了,怎样的处理方式才能在本质上算是大数据处理方式呢?另外,除了“有助于提高人们在决策形成、视野开拓和过程优化中的能力”,大数据就不能再干点别的什么事了?在这三种用途之外就不存在大数据现象和大数据生存空间了吗?尽管有大量的论文、书籍试图对此详加说明,但好像至今没有谁能说得很清楚。
可见,这样的定义仍然是技术性的、应用性的,隐约可见IT 咨询服务业自我推销的影子。在这样的定义基础上,很难支撑正在被媒体大肆宣扬的“大数据革命”“大数据时代”“新工业革命”这样一些新概念。更糟糕的是,大家可能都在使用“大数据”这个概念,可能都认为“大数据时代”很令人振奋,甚至都赞同“不数据,毋宁死”的观点,但说着说着就南辕北辙,就自相矛盾,就互相为敌了。这里的主要原因就是因为大家对大数据的理解不一样,甚至完全相反。
在阅读大数据方面的文章书籍时,在各种场合与专家学者交流中,一个突出的感觉就是大家普遍在使用大数据这个概念的时候时态混乱,有的使用过去时,有的使用进行时,有的使用将来时,还有的各种时态混合使用,这就使一个本来就有些玄妙的概念更加难以理解了。
很多人非常正确地指出,大数据本不是个新东西,概念的提出和使用已经有几十年历史了。用这样的过去时态讨论大数据的大都是大学校园里的资深学者教授。我本人次听到大数据这个词,还是20 世纪80 年代中期在美国哥伦比亚大学就读社会学,学习宏观社会结构理论和社会网络分析的时候。当时一些学科,主要是天体物理学、生态学、自动控制以及社会学和经济学的某些分支,在前沿研究中都遇到了共同的问题,那就是学者们有机会获得了海量的研究对象数据,却因为计算机能力、研究经费不足和分析方法不够等原因而望洋兴叹。久而久之,“大数据”就成了描述这一现象的代名词,也就是数据量太大、太复杂以至于在当时条件局限下无法利用。大数据等于大麻烦、大障碍、大问题。但是,在经过四分之一个世纪之后,我们今天所说的大数据还和当年的理解别无二致吗?当年的主要矛盾是计算能力大大落后于实际需求,在哥伦比亚大学这样世界闻名的学府里,计算机主机的能力大概也就相当于今天一台配置比较好的台式计算机,使用起来过程复杂,需要大量的研究经费支持。今天的主要矛盾正好反过来,是计算能力大大超过实际需求,以至于大批网络公司和其他各行各业的众多企业和机构面对潮水般涌来的数据不知所措,不知道如何利用,只好定期删除。问题不在于知道如何使用数据却受到计算能力的局限,而是空有充沛的计算能力却不知道如何利用手中的数据进行创新,产生显著的经济价值和社会效益。假如能够
找到合适的应对之道,大数据完全有可能变成大机遇、大创新、大空间。很多人以大数据的领先者自居,利用各种渠道和场合推销自己的硬件、软件或解决方案,自认为是大数据的终结者,说话的时态用的是完成时,这样说话的人大多出自IT 业、软件业或咨询服务业。除了完全可以理解的商业动机外,这种完成时的大数据说法也不无道理。大数据发展是一个渐
进过程,软硬件方面对此的配合适应也是一个连续的进程,很难找到一个清晰的边界划分什么才是大数据时代的软硬件或解决方案。但是,如果把今天的新产品、新技术都装进大数据这个筐里,势必混淆了大数据与非大数据的界限,削弱大数据所引发的革命性变革力量,无法区分产业进化与产业革命的分野。
很多人已经自认为是大数据的实践者了,四处可闻数据挖掘和精细化运营的实例宣讲和心得体会,说话的时态用的是进行时。这样说话的大多是网络公司,特别是电子商务和云计算领域的公司。从好处看,众多企业举起了大数据的旗帜,对大数据未来的发展是个利好,众人拾柴火焰高;从坏处看,如果眼下这些数据挖掘和精细化运营的实践就算是大数据
了,而由此产生的产业创新和经济效益却并无惊人之喜,这对大数据发展又是个利空,容易让人产生幻灭感。
凡此种种,不一而足。在使用大数据概念上的时空错乱反映了一个事实:大家对什么是大数据理解不一,做的东西真假都有,新旧俱全。力图尽可能地探究大数据的概念含义,并不是因为我喜欢咬文嚼字,或是认为只有从理论到实践才是成功的道路。事实上,很多引发产业革命的创新者和成功者在开始阶段未必能想得很清楚,自己做的东西是否正确,甚
至可能做错了再重来。但有两点却是共同的:一是做的东西前无古人,是创新,不是旧东西的延续、改良、精致化;二是虽然开始未必想得很清楚,甚至想错了,但一定是走在正确的大方向上。所以,在今天的大数据热初起的时刻,尽可能地厘清这一概念的内涵和外延,理顺概念的来龙去脉,推演概念的潜力与发展,是非常必要的。概念过小,必然难以产生大影响;概念过大,必然鱼龙混杂,失去生命力。
数据的由来——从三千年前说起
人类是社会性动物,会思想,会表达,会学习,会互动。虽然越来越多的证据表明,这些能力不是属于人类的,动物界还有许多种动物具有这些能力,但人类无疑是能力的。
虽然无法从考古材料中确凿地证明,但人类初在发明语言和文字之前,一定是通过肢体动作、表情和声音表达自己的思想、情绪和愿望的,这从对其他灵长类动物的研究中得到了充分的证明。一个人的动作、表情和声音要想让另一个人明白其含义,不是简单的事,恐怕要经过漫长、反复试错的过程,才能让人们取得共识,让某一个动作、表情或声音表达一种确定的含义。一旦含义确定,就会成为一群人共同的精神财富,并代际相传。
我们今天所能见到的人类的思想情感表达的初形式是数千年前,甚至数万年前人类刻画的岩画(有考古发现说有2 万~ 3 万年前的岩画,但还未有足够多的例证)。我曾在埃及、土耳其、伊朗、阿塞拜疆、法国、美国等地的古迹中见到许多新石器时期的岩画,中国各地也都有岩画遗存。
这些岩画共同的主题都是人、动物、植物、山水和日月星辰,以及某些无法识别的符号类标志。岩画主题主要是种植、战争、欢庆和生活。我所见过的壮观的地画(也该算岩画的一种)应该算秘鲁纳斯卡地画了,是三千多年前的人类用碎石堆放而成,地画的直径至少几十米,大到数百米,只有乘飞机在数百米高空才能看明白地画的形状。
大约经过数千年甚至上万年的努力,人类的思想表达从岩画发展到木制品、金属制品、动物制品等,表达内容也从简单到复杂、具体到抽象,从自我或家族部落欣赏到进行权力表达或成为用来交换的商品。今天,有考古证据证明,至少在五千多年前,人类开始创造出文字并以石头、植物纤维、动物骨头等材料为依托,刻画留存至今。无论两河流域、埃及、希
腊还是中国的古文字,主要是用来记载帝国兴衰、天灾人祸、祭祀占术以及国家律法的。这些文字多发现于古代王宫和相关的建筑遗址内。
自从文字发明后,就成为人类文明记录、传承和传播的主要工具。随着社会的发展,文字开始用于文化、思想、历史、发明和行为规范等方面。在早期,学习文字、拥有文字和使用文字是极少数人的事情,他们多属于权贵圈、宗教界和为这两种人服务的“知识分子”。识字的人很少,因为掌握文字的成本极高,需要富有家庭的长期投入。记录文字很难,因为能够留存的文字不是书写,而是刻画。保存文字不容易,要有房屋,有院落,甚至要有警卫。这就需要财富,需要不用劳动的人,需要专门教授文字和学习文字的人,更需要使用文字的人。于是,一个学字、识字、用字的社会阶层出现了,那就是社会精英阶层,也就是社会统治阶层及其附庸者。事实上,直到工业革命初期,世界各国无一例外地识字率都极低,不到10%,文盲占90% 以上。中国直到20 世纪50 年代初,扫盲仍然是个大任务,文盲占总人口的80% 以上。农业社会低下的劳动生产率决定了没有多少社会财富可以用来让人读书识字,交通不便、社会流动率低、商品交换不发达决定了文字需求不多,只有统治者和精英阶层需要人类文字发展史上有几个重要的里程碑。个是拼音文字的出现。
文字刚出现的时候都是象形文字,渐
评论
还没有评论。