描述
开 本: 32开纸 张: 轻型纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787218150536
★多则故事与案例,普通人也能理解大数据和统计学问题:吸烟真的致癌吗?喝酒真的有害吗?信用分数到底影响了贷款的哪些方面?……
★实用的防骗指南,有了它,不再被数据忽悠!贴心核对清单,六个问题,助你练就火眼金睛!
★穿插相关图表,说明清晰又幽默,看似枯燥的统计知识轻量化!
★荷兰计量经济学者、数据分析记者现身说法,多年统计学研究和亲身考察的经验值得信赖!
★得到《卫报》《新科学家》等报刊的力推!
有人说,“数据决定生活”。在大数据时代,这句话已成为不辩自明的真理。几乎无处不在的数据,小能反映成绩、体重、天气,大能左右投票结果、影响经济增速、抹杀气候变化。然而,许多数据其实并不像表面上标榜的那样客观、公正,反而常常被人操纵,来误导我们。因此,是时候为数据正名,认清数据陷阱背后的真相了。
在本书中,荷兰计量经济学家、数据统计记者桑内·布劳就将带领读者“数”落世界,通过真实案例,从南丁格尔用大数据来挽救生命,到美国烟草业报告造假,再到欧盟公投中的票数摇摆,揭示日常生活中的数据偏见,教你如何不再盲信数字,练成大数据时代人人必修的“避坑大法”。
前言 拨开数据的迷雾
01 大数据分析的先驱:南丁格尔
02 愚蠢的数据:肤色和智商是否有关
03 统计中常见的基本错误
04 数据可以是骗人的鬼才
05 你的大数据被滥用了吗
06 你的心态,决定了数据的价值
后记 如何让数据回到正途
核对清单 当你看到数据时,该怎么做
前言 拨开数据的迷雾
胡安妮塔在我对面那张折叠椅上坐定了之后,我用西班牙语跟她解释说,我来自荷兰的一所大学,到玻利维亚来是想做一份关于幸福指数和贫富差距的调研。我告诉她,下面我将问她一些问题,了解一下她对自己的生活和国家的看法。
我对这类谈话早已驾轻就熟。塔里哈是玻利维亚的一座小镇,靠近阿根廷边境,而我在这儿采访当地居民已经整整十天了。为了采集到足够的数据,我和摆地摊的妇人聊过天,与种草莓的农民喝过啤酒,还和几个家庭吃过烧烤。之前有一位妇女组织的干事愿意帮我和当地的家政人员,也就是像胡安妮塔这样的妇女取得联系,于是我带着一摞问卷来到了该组织的办公室。
“我们开始吧。”我说,“你今年几岁?”
“58 岁。”
“你是哪个族裔的人?”
“我是艾马拉[1] 人。”哎哟,我想,她可是当地原住民呢。
我以前还真没碰见过几个。
“你的婚姻状况是?”
“单身。”
“你识字吗?”
“不识。”
“你会写字吗?”
“不会。”
我又陆续询问了她的职业和受教育程度,还有家里是否有手机、冰箱和电视机等问题。
“我每个月赚200 玻利维亚诺[2]。”我问到她的收入时她告诉我。这个数字远低于玻利维亚总统埃沃·莫拉莱斯不久前刚提的工资标准815 玻利维亚诺。“要是我向老板提出涨薪的要求,我怕她会解雇我。所以我现在只能住在‘卡皮塔’里。”我顺手把“卡皮塔”这个词写了下来,但我当下并不明白它是什么意思。之后我才了解到,这是一种小帐篷。
问卷的后一部分是调研的核心内容,即幸福指数和贫富差距。我在荷兰鹿特丹伊拉斯谟大学的办公室位于教学楼的11 层。我在办公室墙上贴着5 张用幻灯片制作的图表,每张都代表了一种收入分配的方式。当时我的教授还特意让我再三确认,所有图表的尺寸都一样。
但是,来到玻利维亚调研的天我就发现,贫富差距的问题不适用于每个人。我之前采访过摆地摊的妇女,她们就看不懂这些图表的意思,更别提不会读写的胡安妮塔了。所以我决定跳过这部分。
然而,我还没来得及问下个问题,胡安妮塔却开口了,她坐直了身子,说:“你知道玻利维亚是怎样的吗?这个国家有非常多的贫困户,还有极少数的超级富豪。两者之间的贫富差距会变得越来越大。在这里,人与人之间根本就没有任何信任,你说这疯狂不疯狂?”
其实,胡安妮塔在毫不知情的情况下,已经回答了A 图表中的问题,同时还回答了我的另外两个问题:对未来的展望和对国民之间信任度的看法。之前我真是小看她了。对此,我感到一丝丝羞愧,但我假装若无其事,继续提问。还剩下后几个问题。
“请你用数字1—10 表示你现在的幸福指数。”
“1。”“那未来五年内你觉得自己的幸福指数会是?”
“1。”
我想,正是从2012 年的那次采访开始,我对数字产生了一丝犹疑。在那之前,我主要是一个“数据消费者”——从报纸或新闻上读到数据,从导师那儿获取研究计量经济学的数据,或是从世界银行和其他组织网站上记录它们的官方数据。
但此刻,我没有可用的现成数据了,我成了一个“数据采集者”。一年之后,我开始攻读博士学位,并选择把数字作为研究课题。但与胡安妮塔的对话却动摇了我。我研究了她的幸福指数,却不能用一个数字来概括她在小帐篷里的生活;我了解了她对贫富差距的看法,却不知道该把答案放进五张图表的哪一张。她说的大部分内容都与数字无关,终却都是用数字表示的。
胡安妮塔还教会了我其他东西。“我”深深地影响着数据终呈现出来的面貌。是“我”认为幸福感很重要,因此想将它量化并表现出来;是“我”坐在自己的办公室中选择用抽象的问题与图表做调研;是“我”觉得胡安妮塔不够聪明,无法回答有关贫富差距的问题。是我,是我,是我,全是我。换作其他人拿着一样的问卷,只要观点或者出发点不同,都很可能得出不同的结论。数字本应该是客观的,但那一刻我突然发现,它与研究人员的联系却如此紧密。
结束了和胡安妮塔的谈话后,我在Excel 表的第80 列记下了有关她的数字:年龄58,月薪200,幸福指数1。这些数据看起来和我往年下载的数据一样简洁,但我突然意识到,这份数据带有欺骗性。
从儿时起,我就特别擅长一切与数字相关的东西。刚刚学会数数不久,我就开始玩点线成图[1] 的游戏了。在我人生早的记忆里,有次在德国黑森林度假,我就用这个方法画出了雪人和云朵。不久之后,祖父母送了我一台带闹钟的收音机。一到晚上,我就盯着那上面的LED 灯,把显示出来的4 个数字各种加减组合,组成新的数字。数学是我中学时喜欢的一门课,后,我也选择了计量经济学作为读博期间的研究方向。我学习了所有经济模型背后的统计学知识,并用它们计算、分析和编程。后来我明白了,小时候玩的点线成图游戏,其实也是在寻找一种数字的组成模式。
不过,数字在我的生活中还扮演着另外一种角色:它给予我支持与慰藉。5 岁到26 岁的求学生涯里,我收到过许多份成绩单和评估报告。我用上面的数字衡量我在学校的表现:得了低分会让我沮丧不已,而得了高分我就能兴奋得上天。只要考试成绩还算满意,哪怕几天就把知识忘得一干二净,我也毫不在乎。走出校园以后,我也依旧被数字掌控。从玻利维亚回来后,我看到自己在体重秤上的重量:56 千克。我用它算了一下我的BMI 指数[1],才18.3,顿时为自己的好身材而骄傲。
被数字驱使、掌控的人可不止我一个。大学里的同事们要是想升职,就必须在科学期刊上发表足够多的论文;在我母亲工作的医院里,大家每年都会紧张地等待《大众日报》上的“全荷兰前100 强医院”名单公布;我父亲必须在65 岁退休。
后来我才意识到,和胡安妮塔的谈话让我看见了这类数字背后的一些重要的东西。就像我影响了自己采集来的数据一样,别人也影响了我和我周围的人用来指导自己生活的那些数字。大学教授定下了升职的论文数量标准;医生确定了BMI指数的正常值范围;政府决策者则决定了你的退休年龄。
2014 年博士毕业后,我决定投身新闻行业,因为和胡安妮塔的谈话让我发觉:这些数字背后的故事,比数字本身更有意思。我在一个叫De Correspondent 的新闻网站担任数据分析记者。“分析”一词在这里有双重含义,我不仅要向读者解释这些数据如何得来,同时我会和他们探讨:我们是否要降低数字在社会生活中的重要性?我们可以不分析数字背后的含义吗?
很快我就发现,自己提出的这些问题是有必要的。因为读者会发给我一些糟糕的问卷调查、模棱两可的科学研究,以及带有欺骗性的图表。这些错误我在读博期间也曾犯过。在做了几次小型报告会和读了别人给我写的评论后,我渐渐发现自己的数据样品并不具有代表性,而且我还混淆了其中的相关性和因果关系。而现在我看到的是,当记者在全球报道新闻时,当政府官员制定政策时,当医生为大众的健康做决定时,他们犯着和我当年一样的错误。这个世界充斥着各种烂透了的数据。
生活中,我们也要和其他各式各样与数字有关的信息打交道。家长收到托儿所发来的自家1 岁小孩的情况报告;交警在街上开着数额不一的罚单;优步司机因为评分过低而无法继续开专车。
于是,我渐渐明白:从退休年龄到脸书点击量、从国内生产总值到我们每个人的收入,是数字决定着世界的面貌,并且现在看来,数字的影响力还会持续增加。大数据算法已经像雨后春笋般进入了政府和企业中。慢慢地,人们再也不需要亲自做决策,通通改成由数据模型代劳。
数字似乎已经深深地催眠了我们。一个人写的文字,会很容易受到他人的抨击和批评,但同样一群人,对数字的包容度却比对文字要大得多。同时,在新闻领域做了几年研究之后,我得出了一个结论:数字在我们的生活中已经变得过于重要。数字的导向性已经大到让我们再也无法继续忽视滥用数字的现象。是时候揭开数字背后的真相了。
但是,本书不是要读者去抵制数字。数字本身和文字一样是无辜的,犯错的是数字背后的人。本书讲的就是这些人,讲的是他们的直觉、认知偏差和利益关联。在本书中,你将会看到:心理学家用数字包装种族歧视的观点;世界性学研究员采集数据的过程其实见不得光;烟草巨头们滥用数据,上百万人为此赔上了性命。
本书也讲我们自己。作为数据消费者,是我们自己选择走入数字陷阱被它欺骗。更严重一点儿说,是我们自己选择被数字牵着鼻子走。数字影响着我们吃什么、喝什么、在哪儿工作、挣多少钱、住哪儿、和谁结婚、投票给哪个党派、能否贷到银行贷款,以及要交多少保险费。数字甚至还影响你是生病了还是痊愈了,是活着还是死了。
就算你觉得自己和数字毫不相干,那也无济于事,因为你肯定和数字有着千丝万缕的联系。
本书将分析揭秘数字的世界,让人人都能辨别正确使用数据和滥用数据的情况。所以,我们要问问自己:我们希望数字在生活中扮演什么样的角色?
是时候为数字正名了:它既不是一切的基石,也不是一无是处,它应该和文字结合使用。
在那张问卷前,我们先回到初的问题:人类对于数字的痴迷是从何时开始的?想回答这个问题,我们就得从历著名的护士——弗洛伦斯·南丁格尔——开始说起。
尽管英国人已经被警告了一个多世纪,但我们还一直在统计数据上面造假。 ——《卫报》
这本书可以帮助我们理解为什么数字不像看起来那样客观。 ——《新科学家》杂志
一本大数据时代的书。 ——荷兰微生物学家 罗萨琳·赫茨伯格
如果你想告别被数据“蒙眼”的状态,我全力推荐这本书! ——荷兰阿姆斯特丹市市长 费米卡·哈赛玛
数字标准化
从远古时代开始,人类就会计数了。现存早的书面记录里就包含了表示数字的符号。在乌鲁克古城(今属伊拉克),有一块公元前3400—前3000 年的泥板,上面写着“29086 单位大麦 37 个月 库辛”。这句话有可能的解读是:“在37 个月间,总共收到29086 单位的大麦。由库辛签核。”
历史学家尤瓦尔·赫拉利这样写道:“很遗憾,人类史上的个文本不但不是哲学巧思,不是诗歌,不是传奇,不是法律,甚至也不是对王室歌功颂德,而是无聊至极的财经文件,记录各种税务、债务以及财产的所有权。”这点当然很重要,因为在一个社会的发展历程中,数字起着尤为关键的作用。
在原始社会时期,人类可以在脑子里记下一切有用的信息,比如哪儿有食肉野兽出没,哪种果子有毒,哪个人值得信任。到了农业社会时期,一小块地区内的农民依旧可以将生活需要的信息记在大脑中。但从农业革命起,人们开始大规模地合作,组成城市,甚至组建国家。社会的经济模式逐渐变得复杂;货币交易的出现,取代了之前的以物易物,而后慢慢扩大,形成了一个越来越错综复杂的经济关系网。例如,你欠了甲的钱,但你又是乙的债主,同时你还必须向丙支付租金。于是,人类大脑渐渐不够用了,再也不能把所有信息都记在脑子里。
对于一个要向数千居民征税的城邦而言,这点尤为重要。官员需要通过书面记录来登记和管理收到的款项名目及时间。先写下口头协议,接着将其合法化,之后记录下谁做了何事,后再上交行政部门处理。这样,人类就再也不需要通过大脑记录信息了。跟此前的库辛和大麦的例子一样,大部分被书面记录下来的信息里都包含了数字。
在数字初发展的过程中,人类不单单记录数字,还得记录数字表示的内容。让我们再回过头去看一下那块古老的泥板上的字:29086 份。在当时的情况下,让库辛记录下这些的人不仅要确认数字是“29086”,还得充分认识“份”这个单位概念。
在历史上绝大部分的时间里,测量单位的标准都十分本地化。每个地方都使用对当地来说方便的单位。比如,法国就曾用“比雪雷”和“乔纳利尔”作为土地计量单位。比雪雷指农民播种这块土地需要的谷物数量,乔纳利尔指一台葡萄收割机一天内可工作的土地面积(在现代语言中,我们依旧可以找到那些古老的测量单位的痕迹,比如一箭之遥、步步为营等)。就算两个地区使用相同的单位,单位背后的含义也可能千差万别。17 世纪时,荷兰格罗宁根省的埃津厄使用“鲁德”作为长度单位,1 鲁德约合现在的5 米。而在距离其70 千米的贝灵沃尔德,他们的1 鲁德还不及埃津厄1 鲁德的一半。据估计,仅仅在18 世纪的法国就有25 万种不同的长度和重量单位。
正如两个人不说同一种语言就不能交流,若双方采用不同的数字用法,那么就无法达成共识。1999 年的一件事足以证明,没有一门通用的数字语言,后果会有多么严重。那一年,美国“火星气候探测者”号卫星本应飞抵火星,并绕其飞行,但它却在1999 年9 月23 日从雷达上消失了,并且永远无法找回。这件事是如何发生的呢?原来,要把探测卫星发射至火星,需要两台电脑合作完成。其中一台电脑使用的是英制单位里的“磅力/ 秒”进行计算,而另一台却采用国际通用的公制单位“牛顿/ 秒”。这次沟通上的失误,导致探测器的飞行轨道比预期低了170 千米,终很可能是火星灼热的大气层焚毁了卫星。
幸运的是,如今这种问题只是个别案例了,因为现在世界上几乎每一个国家都采用国际单位制。但这样的变革在当年肯定少不了一番斗争,有的甚至需要革命。法国大革命(1789—1799 年)之后,革命党人决定废除所有地方计量单位。他们提出公制单位的设想,而这恰恰和当时科学家们的想法不谋而合,并且,这样还能让他们更好地管理国家。
比方说,革命党人想按土地面积征税,但国内每个人都有一套自己的距离单位,那税该怎么征呢?这场变革持续了一段时间,终成功地将公制单位的概念(后来的国际单位制),从法国推广到了世界上绝大多数国家。现在只有3 个国家——美国、利比亚和缅甸——仍旧使用英制单位,即质量单位为“磅”,长度单位为“英里”,等等。
这是人类在南丁格尔的思想基础上取得的个进展:将数字标准化。换句话说,我们在如何衡量一个特定的概念上达成了识。“米”和“千克”只是一个开端。19 世纪70 年代,人们对于数字信息的需求量变得极大。这是因为在19 世纪,大量农村人口迁徙到了城市,各类问题变得集中且明显:贫困、犯罪率和疫病。这些问题都是从哪儿来的?我们该如何解决它们?不管是政府人员还是平民百姓,越来越多的人都开始思考答案。
为了衡量这些问题的严重性,首先我们必须将它们分好类,一个人在什么情况下才算是贫穷、犯罪或生病了呢?例如,之前为南丁格尔的报告提供过帮助的英国著名统计学家威廉·法尔,就曾与同事们一起列出了一份公认疾病的清单。这份清单终被世界卫生组织(WHO)所采纳。南丁格尔为了展示士兵的死亡原因,在她的图表里也使用了以下分类:1. 可预防的疾病;2. 战争时受的伤;3. 其他原因。
“疾病”或“死亡原因”这些词,看起来似乎和数字没什么关系,但事实并非如此。只有当一项名目有了准确的定义时,它才可以被量化显示出来,正如哲学家哈金所言:“数字是需要被归类的。”
通过将数字标准化,人们终于可以使用同一种数字语言了。今天,世界各地都在谈论米和千克、GDP增长和IQ 数值、二氧化碳排放量和千兆字节等等。所以说,世界上使用人口多的语言不是中文、英语或西班牙语,而是数字。数字语言的形成也为接下来的进展提供了可能:大规模数据采集。
评论
还没有评论。