描述
开 本: 128开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787521738797
这是一本教读者如何从众多的信息中辨识真正有用的信息、数据和观点的实用读物。今天,信息噪声常把自己包装成大数据和神奇算法的模样,用量化信息震慑读者。如何分辨其中哪些是真正有用的信息,哪些只是胡说八道的噪声?
在本书开头,作者定义了胡扯(老派胡扯与新派胡扯),讨论了胡扯在我们进化史中的深层起源,并解释了在今天的数字环境中胡扯能迅速扩散的原因;
接下来,两位作者对打着数学和统计学幌子的各种信息噪声一一进行剖析,通过举例让读者掌握分辨信号与噪声的基本技能;
后,作者还提醒读者如何友好、善意地“当面指斥胡扯”,以及如何完善自身。
读完这本书吧,让我们都能有底气地当面指斥胡扯,在这个大数据时代、算法时代摆脱海量信息噪声的困扰。
“用数据说话”是互联网时代的通用思维方式,有人说数据不会骗人,真的是这样吗?
X 让人看不懂的数据分析和神奇算法
X 莫名奇妙的数学方程
X 强行联系因果的统计学论文
X 某些新闻报道或PPT中花里胡哨的图表
……
我们都曾经或正在被这些东西蒙蔽,却往往毫无察觉,甚至乐在其中!
一些貌似可靠的数据来源,也可能藏着一本正经的胡说八道。比如TED演讲中的统计数字、《纽约时报》等媒体报道的大数据分析新算法、甚至是医学期刊中的诊断数据……虚假信息都有可能鱼目混珠,而你能分辨其中哪些是真正有用的信息,哪些只是胡扯吗?
对此,华盛顿大学专门开发了一门尚未开课即爆满的公开课,而这本书正是源自这门引发热议的课程。
两位作者花了多年时间研究打着数学和统计学幌子的胡扯,犀利幽默地对它们分门别类一一剖析,帮助我们培养批判性思维,有效分析海量数据和观点,拆穿无用数据的精致伪装,在信息时代做个游刃有余的明白人。
话说回来,除了教会你如何识别数据胡扯,当你迫不得已需要胡扯时,它也会成为一本实操性强的工具书呢!
推荐序1 科学地对抗科学的胡扯的“胡扯” / V
推荐序2 拨开扯淡的迷雾 / IX
推荐序3 闲得没事也别胡扯 / XIII
前 言 / XVII
第1 章 胡扯无处不在
惯于欺骗的甲壳类动物和狡猾的乌鸦 / 003
狡辩之词和律师的语言 / 008
谎言传千里,真相难出门 / 012
第2 章 媒体、信息和错误信息
印刷厂就是妓院 / 022
不加渲染的事实宛若凤毛麟角 / 025
偏见性、个人化和对立 / 029
错误信息和虚假信息 / 033
新型造假者 / 037
第3 章 胡扯的本质
胡扯与黑箱 / 048
刑事机器学习 / 051
第4 章 因果关系
夜晚天空红艳艳,水手脸上笑容现 / 060
关于因果关系的思考 / 064
相关性不会增加报纸销量 / 068
延迟享乐与共同原因 / 076
伪相关性 / 078
吸烟不会导致死亡? / 083
如果其他方法都行不通,那就人为操控吧 / 084
第5 章 数字与胡扯
提取数字 / 095
有害的百分比 / 098
古德哈特定律 / 106
数学滥用 / 110
僵尸统计数据 / 115
第6 章 选择偏倚
你看到什么取决于你看的是哪儿 / 126
隐藏在墨菲定律背后的原因 / 129
帅哥和程序员 / 137
音乐才华的致命危险 / 143
消除选择偏倚 / 148
第7 章 数据可视化
数据可视化的发端 / 158
鸭子! / 162
水晶鞋和丑陋的继姐 / 166
邪恶的轴 / 177
比例油墨原理 / 192
第8 章 大数据与胡扯
机器是怎么看到东西的 / 213
废料进,废品出 / 219
同性恋雷达和胡扯的结论 / 221
机器是怎么思考的 / 226
机器为什么失败 / 230
第9 章 科学的易感性
检察官谬误 / 242
p 值操纵和发表偏倚 / 251
点击诱饵科学 / 260
胡扯科学的市场 / 265
科学为什么有用 / 271
第10 章 辨别胡扯
1. 质疑信息来源 / 278
2. 小心不公平的比较 / 281
3.如果好得或糟糕得不像是真的…… / 284
4. 从数量级考虑 / 287
5. 避免证真偏差 / 292
6. 考虑多个假设 / 295
辨别网上的胡扯 / 296
第11 章 驳斥胡扯
使用归谬法 / 306
要让人难以忘记 / 308
寻找反例 / 311
使用类比 / 312
重新绘制图表 / 314
使用零模型 / 316
揭穿者心理 / 319
致 谢 / 329
注 释 / 333
参考文献 / 349
一部现代经典……伯格斯特龙和韦斯特让读者觉得自己获得了某种非常特别的智慧:被授权的那种……这是一本直面衰落的民主和全球流行病的生存指南。
——《连线》杂志
这本书充满激情地阐述了科学语言是如何被用来误导研究人员和公众的……就在驾驭数据的能力变得空前重要的时候,这本书出现了。
——《自然》期刊
真相必然是逻辑自洽的,但未必是可想象的。一个陈述如果连逻辑都不自洽,那就必然是胡说;但对于逻辑自洽的陈述,其真伪就只能再通过事实来验证,而不能仅凭个人的常识、直觉甚至想象。这本书通过大量生动的实例,展示了人们是如何分别使用“逻辑推理”和“事实验证”这两种科学方法来排查胡说的。在大数据时代,自古已有的胡说已经披上了新衣,若想保持清醒和明智,本书会给你启发和帮助。
—— 薛兆丰(经济学者)
人们畏惧、痛恨受骗。但在今天的大数据时代,一种用数据和统计语言精心编织的谎言正在越来越多地出现,它们穿着客观、严谨、准确的外衣,令我们难以质疑。这本书带你洞察数据科学的前沿,为你打造戳穿数据谎言的利器,让你在数据时代做一个游刃有余的明白人。
——涂子沛(大数据专家、科技作家)
无论能不能改变世界,在这个充满胡扯的世界中,我们至少该学会独善其身,本书可以作为胡扯世界的生存指南。
——胡翌霖(清华大学科学史系副教授)
胡扯有两个原则:一是暗示,一是科学修辞。特别是后者,一旦某些观点被披上了科学语言的外衣,普通人总会掉进这些被精心设计的陷阱。不过也别慌,你甚至不用学会所谓的“费米估算”。识别胡扯,只需要多问一句“这个人想向我兜售什么”。那么问题来了,两位作者真正想向你兜售的东西又是什么呢?
——王程韡(清华大学科学史系副教授)
胡说八道通常很容易,反驳废话往往更困难。这种不对称性导致了我们这个世界胡扯的话越来越多。面对胡扯我们能做什么呢?由于胡扯消耗的能量比反驳它的多,因此简单的驳斥废话注定是一场失败的战斗。这本书提供了更好的策略和武器来识别和应对胡扯:如何免于陷入华丽空洞的低级胡扯,如何识别基于偏见的统计数据的高级胡扯。这本书不是一本数学书,相反,读者可以不具备统计学知识,但将学会简单有效的工具来规避胡扯,对抗在信息爆炸的当下各种胡扯的传播和影响。
——吴靖(香港中文大学商学院决策科学与管理经济学系助理教授)
这是一本书,也是三本书。经济全球化也带来了“胡扯”的全球化,比起诞生于愚昧的瞎胡扯,如今更可怕的是披着科学外衣的新胡扯,而这是一本反胡扯通识读本。过去文盲是不识字无法读取信息,现今的文盲是不辨信息真伪,此书也是一本扫盲读物。群居让人类学会了礼仪,如今我们还要学习如何优雅地驳斥胡扯,本书还是一本高效沟通手册。
——汪冰(北京大学精神卫生学博士、书评人)
我们已经身处一个大数据时代,不少人一看到数据就贴上可信的标签,但是数据也会被误用甚至欺骗。本书通过形形色色的生动案例告诉你,为什么很多胡说八道可以在数据的外衣下行之有效,有时候是有意为之,更多时候则是无心之失,来自缺乏逻辑或者能力不足。我过去常说历史数据逻辑是经济学的核心,读了这本书之后发现,这三个原则其实也可以成为多数学科的核心,除了数据,每个人都应该多掌握一点儿逻辑甚至历史知识。
——徐瑾(FT中文网财经版主编/公众号徐瑾经济人主理人)
铺天盖地的胡扯在围猎着我们,当下的互联网时代令这一问题更加凸显。每当看到谣言满天飞,有人觉得凡事都有“内幕”和“反转”,以及生活中随处可见的数据小伎俩,我都认为,我们的态度、注意力和情感不该如此被动地让胡扯肆意拉扯。指望胡扯者停止胡扯并不现实,唯有用理智与思想武装自我,保持自己的大脑依然是理性的主场,而这本书,就是我推荐你自己武装自己的思想武器。从心理学、逻辑学到概率论、数据科学,本书就像一把对抗胡扯的瑞士军刀,可以助你披荆斩棘,对那些试图蒙蔽与蛊惑你的陷阱多个心眼,不再稀里糊涂地盲从于那些精心设计的胡扯。
——叶壮(心理学者。北京社会心理联合会科普委员会副秘书长,中国心理学会成员,美国心理科学协会成员,腾讯DN.A计划特约专家,首都科学讲堂专家组成员)
无论如何,新式胡扯不那么容易被人发现,我们经常被种种数学化的形式所“忽悠”。不过,阅读此书会帮助我们快速而准确地辨别出这些新式胡扯。这本书逻辑清晰、语言优美,很多地方论述得十分精彩。
——姚利芬(中国科普研究所创作研究室副研究员)
如果你还不知道什么是“胡扯”,或者想学会辨别“胡扯”的方法,又或者想约束自己减少“胡扯”,避免分享“胡扯”,这本书都是你的不二之选。
——王大鹏(中国科普研究所副研究员,中国科普作家协会理事)
胡扯无处不在,科学作为非常严谨的体系也未能幸免。特别是在我们这个大数据社会,新技术迭代加速,周期缩短,人们的交流、学习和生活等方式越来越依赖数据驱动,胡扯也披上数据外衣,展现出严肃和认真的一面,让人们更加难以辨识。伯格斯特龙和韦斯特通过大量科学和生活实例为我们呈现了胡扯存在的多种形式以及对我们的影响,同时提供了应对的妙招,凡事多问三个为什么,为我们在信息超载的智能时代,能够区分虚实,不为胡扯所扰。
——郑庆伟(启迪之星副总经理)
现在,我们每个人都被骗术淹没,欺诈如此普遍,以至于我们不再意识到它的存在。在如何发现它,如何抵制它,以及如何阻止它成功方面,这本书堪比一门大师课。
——保罗·罗默(2018年诺贝尔经济学奖得主,新增长理论的主要建立者之一。现任纽约大学经济学教授,斯坦福大学经济学教授,胡佛研究所高级研究员)
如果你想读一本肯定会成为经典的书,那就买这本书吧。它解决了我们这个时代一个非常重要的问题: 对真理的尊重正在下降。它也是一部文学性很棒的佳作。每一页——确切地说,每一段——都增添了新的乐趣。
——乔治·阿克尔洛夫(2001年诺贝尔经济学奖得主,加州大学伯克利分校经济学教授)
读到伯格斯特龙和韦斯特关于“胡扯”的精彩例子,我笑出了眼泪。这是一本扣人心弦的读物,任何人都关心我们如何被愚弄(或如何不被愚弄),以及与数学和科学的联系。但这也很有趣。这是我们这个时代的一本必要的书。
——萨尔·波尔马特(2011年诺贝尔物理学奖得主,天体物理学家,加州大学伯克利分校物理学教授,美国国家科学院院士)
信息领域充斥着用定量描述来误导人的冒牌货;如果你想知道哪里是雷区,就读读这本书。
——乔丹·艾伦伯格(美国威斯康星大学数学系教授,畅销书作者,著有《魔鬼数学:大数据时代,数学思维的力量》)
如果我能让这本重要手册的内容成为每个高中生的规定课程(从而取代三角学),我愿意这样做。我强烈建议当面指斥我们这个充斥着错误信息的时代胡扯,我只是遗憾没有为自己的书想出这个书名。
——凯西·奥尼尔(数据科学家,著有《算法霸权:数学杀伤性武器的威胁》)
前言(节选)
当今社会胡扯现象随处可见,令人不胜其烦。政治家无视事实信口开河,科研人员把发新闻稿视为科学研究,硅谷的初创公司将胡扯发展到了艺术的高度,大学奖励的是胡扯而不是分析思维,大多数管理活动似乎只不过是一个对胡扯进行编排组合的复杂过程。心怀不轨的广告商朝我们眨眨眼,诱导我们和他们一起把胡扯进行到底,而我们也眨眨眼表示回应——但与此同时,我们就会放松警惕,对他们奉送的修饰过的胡扯信以为真。胡扯在具体问题上误导我们,破坏我们对一般信息的信任,因此会污染我们这个社会。尽管能力有限,但我们希望可以通过本书,对这一现象给予回击。
…………
要彻底消灭胡扯,就需要准确地了解它是什么。这就有点儿棘手了。
首先,“胡扯”(bullshit)既是名词也是动词。我不仅听腻了你的胡扯(名词),也可以反过来跟你胡扯(动词)。这很好懂。简单地说,胡扯作为动词就是指说一些胡扯的话。
但是,“胡扯”这个名词到底指的是什么呢?和许多人试图用哲学概念匹配日常语言的努力一样,试图为它制定一个泾渭分明的定义的努力也必然徒劳无功。因此,我们将从例子着手,描述一些可以称之为胡扯的东西。
大多数人都认为自己擅长发现胡扯。当胡扯以修辞或花哨的语言形式出现(我们称之为老派胡扯)时,他们这样想也许没有错。
老派胡扯似乎并没有消失,但随着新派胡扯的兴起,它似乎没有那么引人注目了。新派胡扯使用数学、科学和统计语言来制造严谨准确的印象。它们利用数字、统计数据和数据图表粉饰那些可疑的论断,给它们披上了一层合理的外衣。新派胡扯可能会采用下面这些形式:
•根据货币汇率加以调整后,我们表现出色的全球基金在过去9年中有7 年跑赢了市场。
(回报率到底是如何调整的?该公司有多少基金未能跑赢市场,相差多少?就这个问题而言,是某一只基金在9年中有7年跑赢了市场,还是在这7年中每年都有一只不同的基金跑赢了市场?)
•虽然没有统计意义(p = 0.13),但我们取得的结果突出表明了我们靶向治疗肿瘤的临床意义(5年生存率比为 1.3),并对当前的治疗范式提出了挑战。
(如果一个结果没有统计意义,那么讨论它的临床意义又有什么意义呢? 5年生存率是这种特定癌症的相关指标,还是说大多数患者在3年内死亡?为什么我们要认为这“对当前的治疗范式提出了挑战”?)
•该团队的卷积神经网络算法可以从一个由人类代谢组、转录组和蛋白质组构成的多层网络中提取底层控制逻辑。
(什么是多层网络?这些不同的“组”之间的连接有什么重要意义?如何测量?作者所说的“控制逻辑”是什么意思?我们如何知道这些系统真的是通过一个底层控制逻辑连接到一起的?我们如何确证这种方法可以提取这个底层控制逻辑呢?)
•我们的系统筛查显示,34%的有行为障碍的二年级学生承认在过去一年里至少闻过一次神奇马克笔。
(这个数据很重要吗?如果真的很重要,那么闻马克笔这个行为是“行为障碍”的原因还是结果?有多少没有行为障碍的二年级学生承认闻过马克笔?也许这个比例更高!)
新派胡扯之所以特别有效,是因为我们中的许多人觉得没有资格质疑以数量形式呈现的信息。这让那些新派胡扯者们正中下怀。要反击,就必须学会在合适的时机,以合适的方式质疑这些言论。
…………
在教学中,我们一直在教导学生如何对数据进行逻辑和定量思考。本书源于我们在华盛顿大学教授的一门叫作“Calling Bullshit”(与本书同名)的课程,目的是说明一个事实:即使你不是一名专业的统计学家、计量经济学家或数据科学家,你也能批判性地思考那些定量论证;无须大量数据和数周时间,也能看穿胡扯。只要有基本的逻辑推理,在需要的时候,再辅以通过搜索引擎轻松获取的信息,通常就足以解决问题了。
新的信息技术已经改变了我们的科学和社会交流方式。随着信息获取途径得到改善,信息超载的现象愈演愈烈。我们希望本书能帮助你面对。
评论
还没有评论。