描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121354045
统计之都核心成员李舰、硅谷知名互联网公司数据分析专家海恩通过一个个故事告诉我们如何通过定量的方法认识这个世界隐藏的秩序和深刻的美。
每一位在大数据和人工智能时代继续跳舞的人,都不容错过。
1.1 随机的世界 2
1.1.1 打台球的物理学家,确定、不确定与随机2
1.1.2 上帝掷骰子吗,决定论与随机性4
1.1.3 连环杀手的归案,随机与均匀 6
1.1.4 扔硬币的数学家们,大数定律9
1.2 认识概率 11
1.2.1 游戏奖金的分配,概率论的发展 11
1.2.2 6 连号和14 连号,概率的计算 13
1.2.3 主持人背后的山羊,条件概率 16
1.2.4 寻找失踪的核潜艇,贝叶斯概率18
1.3 统计思想和模型 20
1.3.1 女士品茶,假设检验 20
1.3.2 “渣男”去死,最大似然 23
1.3.3 六西格玛的奇迹,小概率 25
1.3.4 牛顿的苹果,模型拟合27
1.4 统计与科学 29
1.4.1 智多星与神机军师,统计预测29
1.4.2 深蓝与阿尔法狗,归纳和演绎 31
1.4.3 中药与西药,临床试验33
1.4.4 所有模型都是错的,科学和否定 36
第2 章 数据与数学38
2.1 数据与空间 39
2.1.1 多维世界的虫子,坐标和向量 39
2.1.2 黑客帝国和变形金刚,矩阵简介 42
2.1.3 九章算术与线性方程,线性方程组 45
2.1.4 二十八宿与黄道十二宫,线性变换 48
2.2 随机变量和分布 51
2.2.1 伯努利的硬币,随机分布 51
2.2.2 相亲多少次与神奇的37,离散型分布 54
2.2.3 棣莫弗的正态,连续型分布 56
2.2.4 醉鬼的步伐,随机过程 58
2.3 认识数据 59
2.3.1 忒修斯之船,数据、测量与变量 59
2.3.2 从性别到体重,数据的尺度 61
2.3.3 周岁与虚岁,连续变量与离散变量 63
2.3.4 一份体检记录,数据分析的基本数据结构 65
2.4 数理统计基础 66
2.4.1 管中窥豹与一叶知秋,总体和样本 66
2.4.2 恶赌鬼的诡计,数字特征 68
2.4.3 被平均的工资,统计量 70
2.4.4 小李飞刀与孔雀翎,参数估计 72
第3 章 数据可视化76
3.1 历史上的统计图形 77
3.1.1 河图与洛书,可视化简介 77
3.1.2 伦敦霍乱的防治,空间可视化 78
3.1.3 南丁格尔的玫瑰,玫瑰花瓣图 79
3.1.4 拿破仑远征,自定义统计图形 81
3.2 数据与可视化 83
3.2.1 女王的裙子,数据可视化83
3.2.2 画布与宣纸,图形设备 84
3.2.3 深水王子与针眼画师,绘图语言的变迁 86
3.2.4 “挑战者”号航天飞机,直观的可视化 88
3.3 基础统计图形 90
3.3.1 老忠实喷泉的秘密,分布图 90
3.3.2 统计图形的奠基人,条形图和饼图 91
3.3.3 古老国度的诗云,坐标变换 93
3.3.4 飞翔的动态气泡图,动态可视化 95
3.4 数据之间的关系 97
3.4.1 东上相的轨道,散点图 97
3.4.2 五十州的最高峰,箱线图 99
3.4.3 泰坦尼克号的幸存者,马赛克图 100
3.4.4 切尔诺夫的笑脸,样本关系的可视化 102
第4 章 模型与方法104
4.1 常用统计模型 105
4.1.1 穿杨与射雕,回归模型 105
4.1.2 降维攻击,主成分分析 108
4.1.3 顾客就是上帝,路径模型110
4.1.4 股票的走势,时间序列114
4.2 机器学习 116
4.2.1 啤酒和尿布的传说,关联规则 116
4.2.2 寻找“白富美” ,聚类分析118
4.2.3 宁可错杀与绝不放过,分类效果评估121
4.2.4 树木与森林,常用分类算法124
4.3 人工智能 128
4.3.1 人工智能的三起两落,AI 发展史128
4.3.2 深度学习的前生今世,深度学习简史 130
4.3.3 神秘的神经,神经网络简介 132
4.3.4 美丽的滤镜,卷积神经网络与深度学习135
4.4 其他分析方法 139
4.4.1 茶、酒与百事可乐,随机试验方法 139
4.4.2 蒙特卡罗和原子弹,蒙特卡罗方法142
4.4.3 医生的笔迹,文本分析 143
4.4.4 沙漠里的飞碟,最优化方法 146
第5 章 大数据时代 149
5.1 技术的变迁 150
5.1.1 统计学的滥觞统计学简介150
5.1.2 信息时代的来临计算机科学简介151
5.1.3 数据挖掘和商业智能,商业智能简介153
5.1.4 大数据时代新纪元,大数据简介154
5.2 分析工具 156
5.2.1 谁说菜鸟不会数据分析Excel 简介156
5.2.2 群雄逐鹿的分析软件统计软件和BI 系统158
5.2.3 全栈工程师的最爱,Python 简介160
5.2.4 本书作者最爱的R ,R语言简介162
5.3 计算框架 164
5.3.1 冰箱里的大象,可扩容的数据分析164
5.3.2 将兵与将将,并行计算 165
5.3.3 电老虎和电蚂蚁,大型机和云计算 167
5.3.4 摩尔定律的未来GPU ,计算框架170
5.4 大数据行业应用 172
5.4.1 互联网的兴起,互联网概览 172
5.4.2 流量的起点,搜索引擎173
5.4.3 收入的来源,精准广告 175
5.4.4 猜你喜欢和投其所好,推荐系统 177
第6 章 数据的陷阱180
6.1 一叶障目 181
6.1.1 神奇的天蝎座,规律的背后 181
6.1.2 赢家的诅咒,悖论与分布182
6.1.3 打飞机的油价,选择性关注184
6.1.4 和女神的缘分,频率与巧合 185
6.2 相关与因果 187
6.2.1 芳华与热饮,遗漏的关键变量187
6.2.2 热帖的秘密,不存在的相关 188
6.2.3 雪与火的城市,地理决定的因果 189
6.2.4 名字很重要吗,背后的关键因素 190
6.3 样本和调查192
6.3.1 测不准的美国大选,选择性抽样 192
6.3.2 不对称的杜蕾斯,数据无反应偏差194
6.3.3 幸运儿的传奇,幸存者偏差195
6.3.4 哈佛校长的辞职,样本方差的影响197
6.4 图形的误导 198
6.4.1 收入的变化,被掩盖的数据 198
6.4.2 收费站与汽车站,视觉的误区200
6.4.3 东莞的逃亡,隐含信息的误导201
6.4.4 有毒的拟合,图形与模型203
参考文献207
索引211
统计学可真是一个尴尬的存在,常常处在各种鄙视链的低端。从数学的角度看,统计学中的数学原理太肤浅,撑死也就一个大数定律,一个中心极限定律,这也能算数学?从应用学科的角度看(例如,计算机、管理学),统计学太数学,一点也不应用。分析数据就好好分析数据,还要整什么大数定律,什么中心极限定律,这也能算应用?作为一名统计学的工作者,对这样的观点虽然并不苟同,但确实很惭愧。常常为此,反省自问:问题到底出在哪里?我辈应该如何作为?
我有一个朴素的信念,任何东西只要是美的,就一定会被大家接受甚至追捧。但是,这里有两个非常具有挑战性的问题。第一、统计学的美到底是什么?第二、她那独特的美如何被大众感知?这是两个非常朴素的问题,作为一名统计学教员,我常常用这两个问题来检讨自己。统计学作为一个历史非常短的学科,在它的发展历史中,有不少杰出的学者做出了卓著的贡献。是他们的卓著努力为统计学建立了扎实的理论基础,为统计学的应用开疆拓土。在这个过程中,产生了很多有用的统计学思想,闪烁着统计学智慧的光芒,解决了太多的实际问题。因此,统计学的美是毋庸置疑的,但为什么大家感受不到?对此,作为一名统计学教员,我没有理由去埋怨大众,而应该做自我批评,自我检讨。如果,我们有能力把统计学中最闪光的智慧,用最朴素而有趣的语言,结合生动而有趣的故事表述出来,那世界又会怎样?如果能够做到,统计学的美就可以被大家感受到。届时,统计学是不是数学重要吗?统计学是不是应用重要吗?统计学就是统计学,她既有理论,又有应用。关键是,她很美,她真的很美,美得令人窒息,美得令人流连忘返,而我们都陶醉于她那独特的美。请问,到哪里去找这样一本书,专攻统计学之美?
要写这样一本书的难度可想而知。首先,你要对统计学的宏观理论框架,从历史到最新前沿,非常熟悉。说来惭愧,我做不到。其次,你要对推动统计学理论发展的重要故事、案例,甚至历史性事件如数家珍。太惭愧,我也做不到。还有,你需要很强的语言文字能力。让文字和数学公式自由穿插,流畅而优美地交织在一起。这对我来说也很难。这样一本书一定是跨学科的。与数据科学相关的领域可不仅仅是统计学,还有计算机科学、经济学、管理学等。不同学科的交叉融合,也极大地促进了统计学的发展。要对这么多学科有所研究,也不是一件简单的事情。
正当我一筹莫展的时候,突然老天眷顾,统计之都大侠舰哥送给我他的新书《统计之美》。首先,我一下子就被目录吸引了。从统计学科学入手,谈到数据与数学,讨论了数据可视化,当然也有模型与方法,还有大数据技术,以及数据的陷阱。每一章的立意都是如此独特,跟任何现有专著或者教材完全不同。这些章节的框架设计恢宏壮美,讨论的问题深刻而朴素,覆盖的内容从过去到未来。这样的框架设计,散发着强烈的舰哥独有的大侠风范。从微观处看,每个章节下面都是一个又一个短小、精炼、经典而深刻的小故事或者案例。这些小故事(或案例)有:上帝掷骰子、女士喝茶、寻找失踪的核潜艇等。每个小故事都突出讲述了一个统计学的智慧,一个知识点。通过这样精炼而经典的小故事,让人们感受到统计学之美,她美在哪里?她美就美在统计学的智慧上,这些智慧变成了统计学思想,统计学思想变成了统计学理论,统计学理论变成了统计学的模型算法。噢,这个路途太长了,难怪当人们看到模型算法的时候,实在是想不起她原来的美了。
不过,别着急,没关系。舰哥的《统计之美》为你揭开这层面纱,让你重新领略统计学的独特之美!为舰哥鼓掌,为《统计之美》点赞,我辈加油!
王汉生
北京大学光华管理学院教授 2018年 12月
前言
英国学者李约瑟研究中国科技史时提出了一个问题:“尽管中国古代对人类科技发展做出了很多重要贡献,但为什么科学和工业革命没有在近代的中国发生?”这就是著名的李约瑟难题( Needham’s Grand Question)。具体地说,是问“为什么近代科学没有产生在中国,而是在 17世纪的西方,特别是文艺复兴之后的欧洲?”李约瑟通过对中国科学技术史的研究,在社会制度和地理环境中寻找答案。但这个问题一直被国人拿来反思自己的文化和传统,很多人都分析出了各种原因,大多数人认为中国的传统文化中缺少科学精神、甚至没有能够产生现代科学的基因,再结合现实生活中的各种乱象,无不痛心疾首,都想治病救人。
让我们把时间拉回到百年前的中国,轰轰烈烈的新文化运动已经开始,“德先生”和“赛先生”进了中国。国人深切地认识到了科学的威力,无数仁人志士立志向学, 1923年的“科玄之争”更是加速了科学在全民中的普及。当时“科学派”的观点不仅仅是科学在实业中的价值,更是要全面介入人们的生活。当然,当时的“玄学”也不是指魏晋那套老庄玄学和今天人们认为的旧中国玄学,而是“在欧洲鬼混了二千多年的无赖鬼” ,也就是形而上学。这次科玄之争可以说力度非常大,当时国人对科学的信仰程度超乎今天人们的想象。中华人民共和国成立后,对全民进行科学教育的成就更是有目共睹,中国的科技水平也是发展神速,但是如今国民科学素质的情况似乎仍然不容乐观,很多科普作者越科普越心焦,质疑中国科学精神的言论也仍然甚嚣尘上。
国民的科学素养真的这么差吗?科学素养的缺失真的是传统文化带来的吗?我看都不见得。梁启超在东南大学时,学生罗时实认为国粹将亡,因为读经的人太少了,梁启超闻声大怒,拍案道:“从古就是这么少”。当然,科学相比于经学更值得普及,但是对普通民众缺乏专业的科学知识不应苛责,这是正常现象,不同科学领域、不同知识内容的科普是一项漫长而有意义的事业,更需要普及的可能是科学思维。科学思维虽然与任何形式的玄学都水火不容,但也并不等于“死理性派”,也不是“死的机械论”,不能说演绎法是科学而归纳法就不是科学,也不能说理性主义是科学而经验主义就不是科学。不同的历史文化可能侧重不同,我们不能因为中国历史上三百年的特殊时期就质疑整个历史的科技成就,也不能因为中国传统公理体系的缺失就否认整个文化的科学精神,这是不科学的做法,也属于没有文化自信的表现。
卢瑟福曾说过“如果你的实验需要统计学,那么你应该再做一个更好的实验”,波普尔强烈排斥归纳逻辑 并力求以可证伪性为划界的标准,乔姆斯基高举理性主义的大旗并自创“笛卡尔语言学”
,这些观点曾经都是主流并且影响了很多人。但是需要指出的是,如今大数据时代下已经充分证明了经验主义、归纳推理的强大之处,即使是如日中天的人工智能实际上也是大数据加上深度学习的归纳方法的成功。我们无意对大师们进行臧否,也不参与具体路线的争论。实际上,无论是倾向于经验主义还是理性主义、归纳主义还是演绎主义,都不会动摇科学的根基。库恩认为,科学很重要的特点在于其独特的范式,在科学领域里大部分时间并没有竞争学派在质问彼此的目的和标准,因此相比其他领域能够取得明显的进步 。在不同的领域,大家遵循公认的科学范式进行研究,不管认识论和推理逻辑方面有何不同的倾向,都是科学的。但是由于欧几里得、笛卡儿那一类的完美体系实在太迷人,容易导致很多人忽视了一种重要的科学思维方式,也就是统计思维。
巧合的是,当年科玄论战中“科学派”的主要理论基础就是统计学大宗师卡尔·皮尔逊早期的代表作《科学的规范》。当年的皮尔逊还没有发展出后来的很多统计学经典理论,该书是一本科学哲学著作,坚定地表达了对科学的信仰,他认为科学的领域是无限的,科学方法是通向整个知识区域的唯一门径。但是他也认为无论在哪种情况下科学都不能证明任何固有的必然性,也不能以绝对的确定性证明它必须重复,科学对过去是描述,对未来是信仰。有些精密科学靠明晰的定义和逻辑可以发展,有些问题要靠近似的测量来解决,需要测量理论、误差理论、概率论、统计理论来实现。后来随着统计学的发展成熟,直到今天大数据和人工智能成为显学,都验证了皮尔逊当年的观点。
也许是因为科学这个词听起来太高端,也可能是科学比较接近真理,现在很多科普过于强调精确科学或者“硬”科学,有时候站在了普通人直觉或者经验的对立面,更侧重理性主义和演绎推理。这种精神放在一百年前的蒙昧期是合适的,放在今天全民教育水平不低的情形下可能有些矫枉过正,我觉得还是允执厥中比较好。能够在概念世界和知觉世界中达到和谐、能够在演绎法与归纳法中达到平衡,统计学可能是一个很好的桥梁。如今无论是自然科学还是社会科学都离不开统计学,尤其在应用领域,直接掀起了大数据的热潮,技术层面的威力已经深入人心,但是思维方面的普及还有所不足。实际上,对中国人来说,理解统计思维似乎是一件非常轻松的事,无论是上古伏羲观天法地的归纳精神,或者神农尝百草的试验精神,还是后世天人合一的整体思维、观过知仁的结果导向、未战而庙算的预测习惯,都是深合统计之道的。
很多人受到各种原因的误导之后对中国的文化不自信,易于走向崇洋媚外的极端,这是不对的。即使是作为很多科学基础的数学,也不止一种思维方式。数学家吴文俊院士说过“我国古代数学并没有发展出一套演绎推理的形式系统,但却另有一套更有生命力的系统”,这个生命力就是“从实际中发现问题,提炼问题,进而分析问题和解决问题” ,完全不同于希腊几何学纯逻辑推理的形式主义道路,中国数学的经典著作大都是以问题集的形式出现的,对结果不是用定理来表达的,而是用“术”来表达的,用现代的话来讲就是程序,与近代计算机的使用融合无间。可见中国传统的数学思维是非常适合现在这个算法时代的。算法与统计的结合造就了机器学习、人工智能的大爆发,甚至可以说是主导了这个时代的科技应用方向。统计学家约翰·图基 1962年的文章中指出,任何数理统计学工作都应该在纯数学或者数据分析的实践中二选一,两个标准都不符合的工作必然只是一时的过客。陈希孺院士也曾预测“新一轮的突破性进展正在孕育中,它也许就是数据分析? ”如今大师们的论断都已言中,统计学与算法结合解决实际问题,已经渐成主流,甚至发展出了一门新的学科——数据科学。
卡瓦列里原理在西方数学史中被认为是微积分发明前的重要基础,而中国的祖暅原理与之
作者旁征博引,数据科学的例子信手拈来,历史上的著名典故、日常生活中的趣事、互联网上的热点话题,甚至是科幻与武侠小说中的场景,都成了作者眼中讲述统计学概念、方法的绝佳例子。围绕这些精心挑选的有趣问题进行分析和讨论,给出解决问题的路径,同时引出统计学中重要的概念与方法。
读完本书,读者可以深切体会到统计学是如何被应用到生活中的。
——RickJin(靳志辉),博士,火光摇曳CEO
如果那些用数学面具吓人的统计教科书作者能够学习一些本书的风格,则必定会有更多年轻人从事数据科学工作。
——吴喜之,教授,中国人民大学统计学院
本书用优美的语言告诉我们如何通过定量的方法认识这个世界隐藏的秩序和深刻的美,每一位希望在大数据和人工智能时代继续跳舞的人,都不容错过。
——周涛,教授,电子科技大学
这是一本出色的统计学科普书,用朴素的语言和风趣翔实的案例阐述了统计学的实用价值和迷人之处。统计学不仅是一门技术,更是我们认识和理解世界的“道”。
——邓一硕,懒投资CFO、统计之都成员
坚实的理论基础,独到的思维方式,有趣的应用领域,再加上每节一个生动的小故事作为开胃菜,这是本书献给广大读者的一份统计学大餐。
——邱怡轩,普渡大学统计系博士、统计之都成员
观本书96个统计相关故事,有趣、有味、有智慧,如饮醇酒,如沐春风。
——魏太云,百分点数据建模部负责人、统计之都成员
评论
还没有评论。