描述
开 本: 32开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787521753912
1.全球知名复杂网络科学与计算流行病学专家,面向大众读者介绍大数据和算法如何预测和改变我们的未来,深入浅出,是一本优秀的预测科学普及性作品。
2.一本横跨复杂系统科学与人工智能领域的前沿作品,介绍了早期科学家如何打破数学、物理学、生物学、计算机科学、政治学、经济学的学科壁垒,推动社会科学的范式转移。
3.通过数据建模,推演事物的发展趋势,总结复杂世界背后的简明法则,从而预测疫情的蔓延、自然灾害、经济和政治体制的崩溃等潜在危机,缓解人们对未知的天然焦虑,帮助人们更好地进行危机管理与科学决策。
纵观人类历史,从古希腊的德尔菲神谕到中国古代的易经占卜,出于对未知事物的恐惧,人类总是痴迷于预测未来,也正是这种恐惧为预测科学的发展提供了不竭动力。而今,打开智能手机,除了我们习以为常的气象预报,各种平台越来越精准地推送我们可能感兴趣的新闻、图书、电影、音乐……,预测科学已经在不知不觉中全方位地渗透了我们的日常生活。在本书中,作者基于在复杂网络科学与传染病预测领域的学术研究经历,带领我们一览预测科学发展史上的重要节点和突破——复杂科学的诞生,打破了自然科学、生命科学与社会科学之间的壁垒,使得基于模型描述社会行为成为可能;数字革命带来的海量数据与算法,则大幅提升了模型的准确性。从此,人变成了“可预测”的社会原子。
基于这些模型,我们不仅能预测一场足球比赛的结果、一本书的销量或一位艺术家职业生涯的成功与否,还能预测一场流行病的蔓延、一种社会思潮的传播、金融市场的波动,甚至一个人的感情生活。我们不光能够清晰地模拟并分析未来的图景,还能针对各种危局制定行之有效的应对策略。
但本书的目的不仅在于展示预测科学的巨大威力,还在于唤起人们对其局限性与伦理界限的认知,比如,大数据和算法会习得人类社会固有的歧视与不公,甚至会被用来操纵和影响人类行为。只有了解数据、算法和预测背后的运行机制,人们才能避免陷入夜郎自大或盲目崇拜的陷阱,更好地掌握我们的未来。
目录
前言 我是占卜师 / Ⅴ
第一章 预测科学
登陆新世界:预测的历史 / 001
关于未来的力学 / 006
概率与未来 / 008
一种新的预测类型 / 012
第二章 鸟群与人群
简化而不简单 / 015
行人动力学 / 023
隔离与数学 / 027
网络 / 030
第三章 数据、算法与预测
数据化 / 035
数据与预测 / 044
机器学习 / 051
模拟大脑 / 055
隐性知识的新神谕 / 059
第四章 预测新书能卖多少册
预测一切,就是现在! / 065
“美丽的运动”:算法当教练 / 072
成功可以预测 / 081
算法无边界 / 091
第五章 人工智能的陷阱
算法的偏见 / 095
不公正的算法 / 099
谷歌流感趋势 / 102
理论死了,理论万岁! / 110
第六章 人工世界
下次大流行病何时暴发? / 113
钟摆与核爆炸 / 128
社会传染 / 134
可能的世界 / 141
第七章 管理我们的未来
谢顿博士是谁? / 145
失败还是凯歌高奏? / 152
光明与阴暗 / 157
第八章 尾声
揭开数字预言家的面纱 / 167
致谢 / 175
注释 / 181
预测一切,就是现在!
我还是没养成按照严格的日程清单有条不紊工作的好习惯。 不过,了解我的人都知道,我们团队没有固定碰头会的工作机制,因为没必要把工作安排得那么僵化。我们的工作环境是大型开放空间,有着透明玻璃墙,每天想不碰面都难。要是哪天我给大家发邮件,正式通知要开会,大家就都知道肯定有什么重大突发事件。在日常工作中,我们的信息和思想交流总是自发的,咖啡机前就是大家工作台的自然延伸。
2012 年 2 月,一个周四的下午,大家又聚在一起喝咖啡。我们早有了共同关注的话题。别误会,这次我们不是在聊学术热点,而是在讨论正热播的大众选秀节目《美国偶像》(American Idol)。当时欧洲正在热播《X 音素》(The X Foutor),而《美国偶像》则在美国收视长虹,每季节目的冠军都成了家喻户晓的明星,凯莉·克莱森(Kelly Clarkson)、 詹妮弗·哈德森(Jennifer Hudson)和凯莉·安德伍德(Carrie Underwood)都是从这个节目开始进军娱乐界的。节目每周三晚上播出,观众投票时间截至周四,届时宣布晋级选手。还有什么话题更适合在喝咖啡时聊?自打节目开播,我们每周四上午都会边喝咖啡边讨论前一晚选手的表现。有的同事还会加点儿赌注,让讨论更刺激。那天,大家正热火朝天讨论时,不知道是谁突然来了一句:“与其在这闲聊,不如正儿八经地预测!这不是我们的老本行吗?”这么一句玩笑话,大家可都当了真。到了下午,大家已经鼓捣出各种图表和数据,琢磨起具体的预测模型了。物理学家较起真来,娱乐新闻也能有学术的面孔。我们以推特的数据为基础,预测了下一集谁会被淘汰。到了第二周周三,我们已经有了初步的思路。我们通过推特筛取数据,截取带选手名字以及其他与“美国偶像”相关的实时推文,并对 50 万条推文展开分析;针对每场演出都选出一群支持者,在地图上对他们进行定位;处理完数据后,再加上统计学的算法,就大功告成了。
周四早上,我们的确预测出将遭淘汰的选手,但由于时间仓促,统计学偏差过大,起初几次预测并不精准。不过,在我们预测的排名最末的两三名选手中,总有一位最终是被淘汰的。这一结果让大家备受鼓舞。我们决定优化算法,精确识别每位选手支持者的地理信息。经过几轮实验,预测已达到了百分百的准确率。
决赛前几天,我刚到办公室,就发现同事们都在等我。大家告诉我,是时候在总冠军出炉前公布我们的预测了。可是,这不就是一帮科学家喝咖啡时临时起意的玩笑吗?看着大家严肃的表情,我意识到大家已不再把这事当作一种消遣。我们立刻着手撰写论文,准备发布预测模型。5 月 23 日,《美国偶像》这一季最后一集播出。3 天前,即 5 月 20 日,我们的论文通过了专家审核,发表在 arXiv.com 网站这一学术论文公共平台上。在这之后,《美国偶像》还将播出两集,5 月 22 日进行最后的演出,第二天就将迎来总冠军决赛之夜。我们搜集了5 月 22 日纽约时间晚上 8 点节目开播到洛杉矶时间翌日凌晨1 点投票结束这一时间段的大量数据,完成了总决赛预测,并将结果更新到 arXiv.com 网站上 1 。提交预测后,大家并未如释重负,而是带着不安和兴奋入睡。第二天,一觉醒来,我们发现自己已经身处媒体风暴的旋涡中。雪片般的邮件塞满了我们的邮箱:有人认为自己支持的选手被我们低估了,写信来骂我们;有人则激动地表示我们才是慧眼识才的伯乐;甚至还有来自地下赌场的恐吓信,说我们坏了它们的生意。其实,失望、高兴、愤怒,这些情绪都是多余的(恐吓信当然还是违法的),因为当我们发布预测结果时,投票已结束了,预测无论如何不可能改变结果。可你又能跟赌红眼的人争论什么呢? 5 月 22 日晚上,大家都围在电视机前观看直播,气氛如同观看世界杯决赛般热烈。纽约时间晚上 10 点,第 11 季《美国偶像》冠军揭晓:菲利普·菲利普斯(Phillip Phillips)。
正是我们预测夺冠的歌手!
第二年,《美国偶像》宣布改变比赛机制,节目组会在投票当晚就公布被淘汰的选手,这么一来,我们就没时间预测了。我们甚至怀疑,这项改变是为我们量身定制的。
当然,根据推特数据来预测选秀比赛的结果,只是科学家们心血来潮的一场游戏,不必太认真。不过,大家在兴奋之余很快意识到,这次成功的经验打开了通向新世界的大门。选秀节目的冠军得主能被精准预测,这意味着我们身处一个可被算法预测的世界。许多年来,我们的预测对象总是天气、流行病和其他严肃的社会现象。如今只要数据到位,加上掌握正确算法,我们就能在短时间内实施定量分析,预测此前根本想不到能被预测的事件。时至今日,预测科学已经“看透”了我们的生活。当你去应聘时,你的简历有可能会经过某个软件的筛查,雇主根据分析结果决定是否录取你。工作几年后,你准备安家置业,去银行申请贷款,银行会通过算法分析你的收入情况,评估你的还款能力,从而决定是否放贷。一言以蔽之,预测已经全方位地渗透了我们的日常生活。我们越是预测,就越想预测,似乎走不出“越喝越渴”的怪圈。观看体育比赛时,没等比赛结束,我们就想知道谁会赢。 新人闯进娱乐圈,刚发布第一首新曲时,我们就想知道他会不会红。在去投票的路上,我们就在猜谁会当选。股市刚开盘,我们就想知道收盘时是涨是跌。究其原因,预测让我们“安心”,它让未来变得不再是未知的,这降低了我们面对未来时内心的不安与恐惧。预测不仅适用于外部世界,还适用于我们自己,比如预测我们的音乐品味。截至 2018 年,音乐流媒体平台声田(Spotify)已经有 2 亿多活跃用户,其中8 000 多万属于付费用户。如果你是其中之一,就一定收到过它推送的歌曲。亚马逊网站似乎总能知道我们喜欢读什么书,网飞(Netflflix)流媒体平台似乎总能猜对我们热衷追什么剧集。当然,它们的预测有时也会失准。不过,你一定注意到了,这几年来,它们推送的信息似乎越来越精准了。我们往往来不及细想,就下意识点击了“收听”或者“购买”。这意味着,平台的算法已经实现了预期功能。你一定还听过针对亚马逊公司的批评,有人指责这个商业巨头正在吞噬中小企业的生存空间。在我看来,这种观点有些偏颇和流于表面了。从专业角度来看,亚马逊公司实际上是通过成功预测,在我们打开商店网页前,就提前找到我们想要的。诚然,建立在成功预测基础上的商业模式正在掌控市场本身,不断推陈出新的各种应用程序(App)挤满了我们的手机屏幕。我们在看手机,手机上的它们也在“看”我们,识别我们的品味与消费习惯,甚至比我们还要了解我们,跨过手机屏幕来“指挥”我们的行为。
让我们回到声田这家公司,一起领教算法已经达到何种水平。这家公司诞生于 2008 年,如今是全球最大的流媒体音乐服务平台,市值达到 240 亿美元。2 它成功的秘诀正是协同过滤算法(collaborative filtering),这种算法的关键就是“他人”。听音乐时,我们经常会将自己喜欢的歌曲保存到歌单中,这么一来,用户的音乐偏好就隐藏在 20 多亿份歌单中。当两个用户的歌单存在大量相似歌曲时,就意味着他们的音乐品味相近。一般来说,每个人大概率会喜欢与自己品味接近的其他人收藏的歌曲。这就是协同过滤算法的运算机制。用户的习惯操作被转化为可供算法分析的数据,形成巨型矩阵,矩阵的每一行为用户,每一列则为平台可推荐的 3 000 万首歌曲。这时,一种叫作矩阵分解(Matrix Factoring)的数学方法便派上用场了。通过矩阵分解,我们可以得到两类向量 U 和 C。其中,U 为用户向量,代表每个用户的音乐品味,C 为歌曲向量,代表每首歌曲的具体特征。这些向量本质上只是无意义的数字串,可协同过滤算法能将每个用户向量与其他用户向量做比较,得出哪些用户向量最为相似,同样的处理方式也适用于歌曲。如此一来,我们便能确定,哪些用户趣味相投,哪些歌曲曲风相近。我们将“相似性”这一抽象的概念转化为可测量的数据后,就能将这些数据用于定量预测。
协同过滤算法的巨大优势在于,它能精准地推荐复杂的内容,如音乐、电影,而不必真的理解推荐的内容究竟是什么。显然,要运用协同过滤算法,需要大量的用户和数据,而这恰恰解释了为什么许多平台运营商会提供免费服务。不花钱的用户在享受免费服务的同时,提供算法所需的数据,而系统则能够利用这些数据为付费用户提供更完整和优质的服务。声田公司还运用了自然语言处理(Natural Language Processing)这一机器学习技术,对歌曲展开进一步识别与分析,同样的技术也可以运用到新闻报道、网站文章的分析上。如此一来,每位艺术家、每首歌曲都有数千条术语进行描述,而这些术语又能生成一个新的向量,以表征两首歌曲是否相似。此外,声田公司甚至使用神经网络算法(Neural Network)分析一首歌曲的音轨,对新发行的歌曲进行相似性分析和分类,确保在相关信息缺乏的情况下,这些歌曲也会被推荐。
当然,不同算法究竟如何相互融合、彼此支持,从而得出最优方案,这恐怕不是本文能够说清的。说到底,这是商业机密。大量的流动数据似乎并不具备商业价值,可当人工智能与商业模式相结合时,点石成金的魔法便应运而生了。它形成了一个巨大的水晶球,容纳并预测着我们生活的方方面面。算法不会唱歌,却知道你爱听什么歌;算法不会踢球,却能预测一 场比赛的输赢,甚至能当教练—这是怎么回事?
评论
还没有评论。