描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111618355
内容简介
如果用一段话来总结这本书的内容,我很愿意引用2013年第yi次写下课程教案时对课程的描述:“它不是一门人云亦云的课程,不讲理论,以实战为主,用一套套实际数据来讲如何从数据里发掘商业问题和检验商业假设;它是一门商业素养和技术算法综合应用的课程,需要有开放思想和开放学习能力的同学来参与和体验;它是一门动手性极强的课程,以脸书、腾讯、雅虎等公司的分享数据为基础,培养学生过硬的推理和分析能力;它是一门跨学科的课程,为同学未来领导跨部门商业数据分析团队铺路。
目 录
前言
第1章 大数据及其应用 …… 001
1.1 大数据的特性 …… 001
1.2 数据发展历程 …… 005
1.3 数据挖掘经典算法简介 …… 013
1.4 大数据技术应用:人脸的价值 …… 027
1.5 数据存储简介 …… 030
1.6 大数据分析:应当具备的知识架构 …… 032
1.7 本章作业 …… 033
1.8 扩展:舆情来预测股票的一些细节 …… 034
第2章 分类算法 …… 036
2.1 机器学习 …… 036
2.2 两种思考模式:演绎和归纳 …… 042
2.3 分类算法的应用 …… 044
2.4 跨部门数据整合 …… 050
2.5 总结:机器看世界 …… 052
2.6 用户流失识别 …… 056
2.7 生存分析简介 …… 058
2.8 Weka简介 …… 059
2.9 本章作业 …… 066
2.10 扩展 …… 072
第3章 聚类算法 …… 078
3.1 K均值聚类算法原理 …… 078
3.2 K均值聚类的三个步骤 …… 080
3.3 分类算法vs.聚类算法 …… 087
3.4 Weka中的聚类算法 …… 088
3.5 聚类的应用 …… 089
3.6 Weka操作聚类分析的演示 …… 094
3.7 本章作业 …… 097
3.8 扩展 …… 098
第4章 网络分析 …… 101
4.1 网络分析的背景 …… 101
4.2 PageRank …… 105
4.3 应用 …… 118
4.4 网络分析 …… 124
4.5 扩展:网络关系的存储 …… 134
4.6 扩展:科技树的传承 …… 136
参考资料 …… 137
第5章 购物篮算法 …… 138
5.1 购物篮算法的原理 …… 139
5.2 评价:三个指标 …… 145
5.3 开放思考:可否把购物篮看作网络 …… 150
5.4 Weka操作关联规则的演示过程 …… 152
5.5 本章作业 …… 154
5.6 扩展 …… 155
第6章 神经网络 …… 160
6.1 四个基本型:本质是穷举 …… 160
6.2 什么是学习 …… 161
6.3 神经网络算法 …… 170
6.4 空间想象:支持向量机(SVM) …… 185
6.5 商业问题和基本型 …… 189
6.6 Weka操作神经网络分析的过程 …… 191
6.7 本章作业 …… 193
第7章 如何领导数据分析团队 …… 195
7.1 大数据/机器学习/深度学习的演变 …… 195
7.2 对管理者的启示 …… 203
7.3 本书知识回顾 …… 219
第1章 大数据及其应用 …… 001
1.1 大数据的特性 …… 001
1.2 数据发展历程 …… 005
1.3 数据挖掘经典算法简介 …… 013
1.4 大数据技术应用:人脸的价值 …… 027
1.5 数据存储简介 …… 030
1.6 大数据分析:应当具备的知识架构 …… 032
1.7 本章作业 …… 033
1.8 扩展:舆情来预测股票的一些细节 …… 034
第2章 分类算法 …… 036
2.1 机器学习 …… 036
2.2 两种思考模式:演绎和归纳 …… 042
2.3 分类算法的应用 …… 044
2.4 跨部门数据整合 …… 050
2.5 总结:机器看世界 …… 052
2.6 用户流失识别 …… 056
2.7 生存分析简介 …… 058
2.8 Weka简介 …… 059
2.9 本章作业 …… 066
2.10 扩展 …… 072
第3章 聚类算法 …… 078
3.1 K均值聚类算法原理 …… 078
3.2 K均值聚类的三个步骤 …… 080
3.3 分类算法vs.聚类算法 …… 087
3.4 Weka中的聚类算法 …… 088
3.5 聚类的应用 …… 089
3.6 Weka操作聚类分析的演示 …… 094
3.7 本章作业 …… 097
3.8 扩展 …… 098
第4章 网络分析 …… 101
4.1 网络分析的背景 …… 101
4.2 PageRank …… 105
4.3 应用 …… 118
4.4 网络分析 …… 124
4.5 扩展:网络关系的存储 …… 134
4.6 扩展:科技树的传承 …… 136
参考资料 …… 137
第5章 购物篮算法 …… 138
5.1 购物篮算法的原理 …… 139
5.2 评价:三个指标 …… 145
5.3 开放思考:可否把购物篮看作网络 …… 150
5.4 Weka操作关联规则的演示过程 …… 152
5.5 本章作业 …… 154
5.6 扩展 …… 155
第6章 神经网络 …… 160
6.1 四个基本型:本质是穷举 …… 160
6.2 什么是学习 …… 161
6.3 神经网络算法 …… 170
6.4 空间想象:支持向量机(SVM) …… 185
6.5 商业问题和基本型 …… 189
6.6 Weka操作神经网络分析的过程 …… 191
6.7 本章作业 …… 193
第7章 如何领导数据分析团队 …… 195
7.1 大数据/机器学习/深度学习的演变 …… 195
7.2 对管理者的启示 …… 203
7.3 本书知识回顾 …… 219
前 言
2013年开始我为学院MBA学生讲授数据分析选修课程,至今已超过5年。开设当年正值大数据概念引起国内关注之时,为了吸引学生眼球,给课程名加上个“大”字。商学院的同学多在企业各业务职能部门从事管理工作,他们的实际需求并不在于成为技术专家,而在于直面日渐增长的数据对业务决策带来的挑战和机遇,能在实际工作中将商业挑战与企业数据结合提出正确的商业分析需求,并有效组织和管理团队完成基于数据的决策。按照这样的教学思路和近五年的实战授课,如今终于可以完成此书,供读者阅读了解企业如何结合数据和算法实现新的商业应用。
如果用一段话来总结这本书的内容,我很愿意引用2013年次写课程教案时的简介:“它不是一门人云亦云的课程,不讲理论,以实战为主,用一套套实际数据来讲如何从数据里发掘商业问题和检验商业假设;它是一门商业素养和技术算法综合应用的课程,需要有开放思想和开放学习能力的同学来参与和体验;它是一门动手性极强的课程,以各大互联网公司分享数据为基础,培养学生过硬的推理和分析能力;它是一门跨学科的课程,为同学未来领导跨部门商业数据分析团队铺路。你,准备好了吗?”回首过去五年多的持续教学和不断改进,在不惑之年再来面对这颇有些年少轻狂的描述,觉得自己算是做到了不忘初心。
将课程教案改编成书的重要原因在于市场中始终缺少这样一本将商业需求和数据分析结合在一起的书。为了备课,我在过去五年参阅了很多相关书籍,包括偏重介绍商业应用的《大数据时代:生活、工作与思维的大变革》(Viktor Mayer-Sch?nberger,Kenneth Cukier)、《决战大数据:驾驭未来商业的利器》(车品觉)等,以及偏重技术算法的《数据挖掘十大算法》(Xindong Wu,Vipin Kumar)、《数据分析:数据科学应用场景与实践精髓》(Bart Baesens)和《机器学习》(周志华)等,这些书各有特点,我也选用作为课程推荐读物。但通过几年授课经验和学生的反馈,觉得市场已有书籍用于MBA同学或企业管理人员学习和实践始终还差两点:介绍商业应用的书籍通常缺乏技术的详细做法,当同学们被书中的精彩描述所打动,希望能深入下去实践时却不知该如何开展;而介绍技术的书籍则通常缺乏与企业从需求到问题的结合,同学可以学到工具却不太能对应到真正的商业现象和管理思维。工作实践中,只有将商业现象转变为需求定义、问题描述并终确定具体技术方案后,工具才可以上阵解题。借《庄子·列御寇》中的“朱泙漫学屠龙于支离益,单千金之家,三年技成而无所用其巧”故事做个不恰当的比喻,算法类书籍通常能教读者屠龙之技,却不教读者如何找龙,而商业类数据帮读者找到龙,却不教屠龙之技。本书希望能弥补这一缺陷。
此外,很多大数据相关书籍不太适合自学。如果读者有买过大数据方面偏技术的书,想必或多或少都有被书中大段的数学公式和推导“震撼”,终将书“供奉”起来的经验吧。我猜其震撼程度和供奉速度随读者的年龄、职位增加而增大、变快。由于大数据这一概念已经达到举国皆知、全民皆知的程度,绝大多数希望了解和掌握数据分析精髓的读者并不具备计算机、统计等相关专业知识,这就要求一本好的教材做到深入浅出,并能教会“文科生”掌握这方面的知识。“文科生”并不是我的某种偏见,而是有太多我的学生在课程伊始会来问我 “老师,我是文科生,能学好这门课吗”之类的问题,有其代表意义。 另外一类常碰到的问题是:“老师,我工作很忙,但很希望了解数据分析,能学好这门课吗?”借此机会,我隆重宣布:这本书适合广大文科生,而且适合“三心二意”的同学(即本职不是数据分析相关工作,但希望了解、参与和领导这方面工作的企业人员)。此书的目的就在于满足广大日常忙于本职工作,但有兴趣掌握数据分析精髓的企业文科生们的学习需求。对于这个承诺,此书毫无压力,因为它本就来自MBA实践授课,经过近五年的改进,获得了学生的良好反馈。
那么它是如何做到的呢?首先,它保证能用小学和中学的知识将大数据分析中主要需要掌握的计算机算法(也叫机器学习算法)思路讲清楚!要知道,文科生、理科生在中小学期间学到的数学知识可没有什么差异。每次我在课程节课时都会给学生一个承诺:保证用中小学(主要是小学和初中,偶尔用到点中学奥数)知识教会大家机器学习,超纲的话可以投诉我。承诺一直维持到2017年,由于那只狗(AlphaGo)大热,在授课时加入神经网络知识才没法保持。所以这本书里,我承诺主要用中小学知识教会读者大数据分析的算法精髓,偶尔会涉及大学一年级的微积分课程知识(幸运的是,这也是文科生必修的课程,而且已经成为部分高中的教学内容)。如果读者能将书中关于神经网络的知识内容用中小学知识讲清楚,或有别的改进建议,请通过网络告诉我(我在网上建了反馈系统@ https://www.wjx.top/jq/20812517.aspx)。一旦采用,我将给您邮寄此书的签名新版(如果此书还能再版,哈哈),并奉上100元(或捐赠给指定慈善机构或个人)作为感谢。
其次,根据2012年一篇发表在美国科学院院刊上的学术研究,论文正文里每页多1个数学公式会导致该论文的引用次数(相对公式少的)减少28%(引用是指其他学术论文提及它,是学术领域评价论文影响的一个重要指标,可以类比为认同程度)。因此,本书杜绝各类高等数学公式(简单来说,就是那些使用超过x,y,z和a,b的变量,或者超过加减乘除符号的方程、不等式和其他数学公式),但请读者允许我保留中小学时学到的四则运算式、二元一次方程组和解析/立体几何,毕竟初等数学公式可以比文字更简洁易懂地说清楚一些道理。从这个角度来说,本书也适合中小学生学习,或者作为家庭指导儿女了解大数据的教材。希望本书可以为大数据分析领域的书籍带来一点小清新。
当然,采用形象易懂的描述并不意味着降低对大数据分析的理解程度或本书的质量。事实上,把前人推导出来的公式和算法整理列出的工作量,通常远少于在理解算法本质后将其和日常现象结合描述出来的付出。而这,也是我在任教十余年中感受到的教学的挑战和责任:把大部分学生教懂的难度远远大于把大部分学生教不懂。想必不少读者在大学期间(也可能从中学开始)就有“这些公式好难”或者“学这些数学公式有什么用”的困惑,以及崩溃于老师在罗列公式和推导步骤时说的“显而易见,我们可以得到……”或者“很简单,我们可以看出……”的经验。如果回忆一下当年某些名为“数理统计和概率论”“线性代数”“随机过程”“(非)线性优化”等课程的学习感受,想必留给大多数同学的记忆不仅是很多难以理解的数学推导,还有不知道为什么要学这些的无助。尽管我在科研道路探索了十几年后越来越能感受到数学之美,但也不无遗憾:如果当年老师能让我明白这些道理所对应的社会事物和现象,那我会更早热爱科学。
所以,在课堂上和这本书里,我会努力用粗浅的语言去描述高深知识的本质,让读者明白:原来不过如此。教学不是吓倒学生,让他们畏惧,而是让学生感受到自己也能掌握和做好的自信。实现了这步,就可以更好地帮助学生融会贯通,创造新的想法和做法!为此,我采用了几点小创新:首先,除开始的介绍部分和结束的管理部分,其余各章内容先从商业现象入手,展开为商业需求和问题描述,然后提出解决思路,终介绍与此思路相关的机器学习算法,希望通过这个方式打通业务和技术的隔阂,建立从商业到数据的分析和决策逻辑,真正帮助大家读有所得,并能很快转化为解决工作中其他实际问题的能力。其次,本书将主要基于通俗易懂的语言(而非专业术语),让读者感受到我娓(不)娓(够)道(专)来(业)的知识梳理。再次,本书正文里采用文字和初等数学的方式来介绍相关机器学习算法,将更严谨专业的数学表达放在对应插文里,供有兴趣深入了解的读者参阅。后,本书附带教课课件,也即将推出网络教学视频选集,可供大家借鉴。
这本书的完成离不开五年来选修本课程的我院数百位MBA同学的反馈和建议,也离不开三任助教(王西蒙、田婧和张琦)的付出。西蒙作为首任助教,协助我应对了很多早期由于准备不足带来的慌乱;田婧持续帮助我改进授课内容和分析案例,做了很多教学基础工作;张琦完善授课视频,并协助我整理教案文稿和丰富书中内容。现在西蒙已远赴北美亚马逊工作;田婧现在北美佐治亚大学交流,即将博士毕业走上工作岗位;张琦即将通过我院博士班资格考,成为新一届的女博士。他们都有各自人生的精彩,也通过本书留下各自经历的痕迹,特此记之。
在本书出版之际,需要感谢在这大半年时间里一直督导本书出版的编辑张有利老师和责编冯小妹老师,没有你们的鞭策和鼓励,患有严重拖延症加上语言表达困难的我很难按时完成本书。此外,要感谢2018年毕业前往苏州大学工作的师妹沈怡,你个帮忙通读初稿,并给出了很多中肯的意见。还要感谢浙江大学陈熹老师、南京大学宋培建老师、清华大学卫强老师和清华大学出版社刘向威老师,你们或交流课程心得,或推荐相关读物,让我受益匪浅。
此外,感谢2015~2017年上过本课的全体MBA同学,你们众志成城帮忙打Call取名字,并通过民主投票终确定本书书名。特别感谢徐建林同学,甘心做我的小白鼠,周末熬夜阅读帮忙检查错漏字,并测试作业数据。很抱歉之前上课的同学没有建微信群,无法再联系到。但希望你们看到本书后,能感受到我想表达的心意,也祝愿所有同学在工作岗位上取得更大的进步,将新一代商业数据科学的思维和机器学习方法真正用到企业实践中。
如果用一段话来总结这本书的内容,我很愿意引用2013年次写课程教案时的简介:“它不是一门人云亦云的课程,不讲理论,以实战为主,用一套套实际数据来讲如何从数据里发掘商业问题和检验商业假设;它是一门商业素养和技术算法综合应用的课程,需要有开放思想和开放学习能力的同学来参与和体验;它是一门动手性极强的课程,以各大互联网公司分享数据为基础,培养学生过硬的推理和分析能力;它是一门跨学科的课程,为同学未来领导跨部门商业数据分析团队铺路。你,准备好了吗?”回首过去五年多的持续教学和不断改进,在不惑之年再来面对这颇有些年少轻狂的描述,觉得自己算是做到了不忘初心。
将课程教案改编成书的重要原因在于市场中始终缺少这样一本将商业需求和数据分析结合在一起的书。为了备课,我在过去五年参阅了很多相关书籍,包括偏重介绍商业应用的《大数据时代:生活、工作与思维的大变革》(Viktor Mayer-Sch?nberger,Kenneth Cukier)、《决战大数据:驾驭未来商业的利器》(车品觉)等,以及偏重技术算法的《数据挖掘十大算法》(Xindong Wu,Vipin Kumar)、《数据分析:数据科学应用场景与实践精髓》(Bart Baesens)和《机器学习》(周志华)等,这些书各有特点,我也选用作为课程推荐读物。但通过几年授课经验和学生的反馈,觉得市场已有书籍用于MBA同学或企业管理人员学习和实践始终还差两点:介绍商业应用的书籍通常缺乏技术的详细做法,当同学们被书中的精彩描述所打动,希望能深入下去实践时却不知该如何开展;而介绍技术的书籍则通常缺乏与企业从需求到问题的结合,同学可以学到工具却不太能对应到真正的商业现象和管理思维。工作实践中,只有将商业现象转变为需求定义、问题描述并终确定具体技术方案后,工具才可以上阵解题。借《庄子·列御寇》中的“朱泙漫学屠龙于支离益,单千金之家,三年技成而无所用其巧”故事做个不恰当的比喻,算法类书籍通常能教读者屠龙之技,却不教读者如何找龙,而商业类数据帮读者找到龙,却不教屠龙之技。本书希望能弥补这一缺陷。
此外,很多大数据相关书籍不太适合自学。如果读者有买过大数据方面偏技术的书,想必或多或少都有被书中大段的数学公式和推导“震撼”,终将书“供奉”起来的经验吧。我猜其震撼程度和供奉速度随读者的年龄、职位增加而增大、变快。由于大数据这一概念已经达到举国皆知、全民皆知的程度,绝大多数希望了解和掌握数据分析精髓的读者并不具备计算机、统计等相关专业知识,这就要求一本好的教材做到深入浅出,并能教会“文科生”掌握这方面的知识。“文科生”并不是我的某种偏见,而是有太多我的学生在课程伊始会来问我 “老师,我是文科生,能学好这门课吗”之类的问题,有其代表意义。 另外一类常碰到的问题是:“老师,我工作很忙,但很希望了解数据分析,能学好这门课吗?”借此机会,我隆重宣布:这本书适合广大文科生,而且适合“三心二意”的同学(即本职不是数据分析相关工作,但希望了解、参与和领导这方面工作的企业人员)。此书的目的就在于满足广大日常忙于本职工作,但有兴趣掌握数据分析精髓的企业文科生们的学习需求。对于这个承诺,此书毫无压力,因为它本就来自MBA实践授课,经过近五年的改进,获得了学生的良好反馈。
那么它是如何做到的呢?首先,它保证能用小学和中学的知识将大数据分析中主要需要掌握的计算机算法(也叫机器学习算法)思路讲清楚!要知道,文科生、理科生在中小学期间学到的数学知识可没有什么差异。每次我在课程节课时都会给学生一个承诺:保证用中小学(主要是小学和初中,偶尔用到点中学奥数)知识教会大家机器学习,超纲的话可以投诉我。承诺一直维持到2017年,由于那只狗(AlphaGo)大热,在授课时加入神经网络知识才没法保持。所以这本书里,我承诺主要用中小学知识教会读者大数据分析的算法精髓,偶尔会涉及大学一年级的微积分课程知识(幸运的是,这也是文科生必修的课程,而且已经成为部分高中的教学内容)。如果读者能将书中关于神经网络的知识内容用中小学知识讲清楚,或有别的改进建议,请通过网络告诉我(我在网上建了反馈系统@ https://www.wjx.top/jq/20812517.aspx)。一旦采用,我将给您邮寄此书的签名新版(如果此书还能再版,哈哈),并奉上100元(或捐赠给指定慈善机构或个人)作为感谢。
其次,根据2012年一篇发表在美国科学院院刊上的学术研究,论文正文里每页多1个数学公式会导致该论文的引用次数(相对公式少的)减少28%(引用是指其他学术论文提及它,是学术领域评价论文影响的一个重要指标,可以类比为认同程度)。因此,本书杜绝各类高等数学公式(简单来说,就是那些使用超过x,y,z和a,b的变量,或者超过加减乘除符号的方程、不等式和其他数学公式),但请读者允许我保留中小学时学到的四则运算式、二元一次方程组和解析/立体几何,毕竟初等数学公式可以比文字更简洁易懂地说清楚一些道理。从这个角度来说,本书也适合中小学生学习,或者作为家庭指导儿女了解大数据的教材。希望本书可以为大数据分析领域的书籍带来一点小清新。
当然,采用形象易懂的描述并不意味着降低对大数据分析的理解程度或本书的质量。事实上,把前人推导出来的公式和算法整理列出的工作量,通常远少于在理解算法本质后将其和日常现象结合描述出来的付出。而这,也是我在任教十余年中感受到的教学的挑战和责任:把大部分学生教懂的难度远远大于把大部分学生教不懂。想必不少读者在大学期间(也可能从中学开始)就有“这些公式好难”或者“学这些数学公式有什么用”的困惑,以及崩溃于老师在罗列公式和推导步骤时说的“显而易见,我们可以得到……”或者“很简单,我们可以看出……”的经验。如果回忆一下当年某些名为“数理统计和概率论”“线性代数”“随机过程”“(非)线性优化”等课程的学习感受,想必留给大多数同学的记忆不仅是很多难以理解的数学推导,还有不知道为什么要学这些的无助。尽管我在科研道路探索了十几年后越来越能感受到数学之美,但也不无遗憾:如果当年老师能让我明白这些道理所对应的社会事物和现象,那我会更早热爱科学。
所以,在课堂上和这本书里,我会努力用粗浅的语言去描述高深知识的本质,让读者明白:原来不过如此。教学不是吓倒学生,让他们畏惧,而是让学生感受到自己也能掌握和做好的自信。实现了这步,就可以更好地帮助学生融会贯通,创造新的想法和做法!为此,我采用了几点小创新:首先,除开始的介绍部分和结束的管理部分,其余各章内容先从商业现象入手,展开为商业需求和问题描述,然后提出解决思路,终介绍与此思路相关的机器学习算法,希望通过这个方式打通业务和技术的隔阂,建立从商业到数据的分析和决策逻辑,真正帮助大家读有所得,并能很快转化为解决工作中其他实际问题的能力。其次,本书将主要基于通俗易懂的语言(而非专业术语),让读者感受到我娓(不)娓(够)道(专)来(业)的知识梳理。再次,本书正文里采用文字和初等数学的方式来介绍相关机器学习算法,将更严谨专业的数学表达放在对应插文里,供有兴趣深入了解的读者参阅。后,本书附带教课课件,也即将推出网络教学视频选集,可供大家借鉴。
这本书的完成离不开五年来选修本课程的我院数百位MBA同学的反馈和建议,也离不开三任助教(王西蒙、田婧和张琦)的付出。西蒙作为首任助教,协助我应对了很多早期由于准备不足带来的慌乱;田婧持续帮助我改进授课内容和分析案例,做了很多教学基础工作;张琦完善授课视频,并协助我整理教案文稿和丰富书中内容。现在西蒙已远赴北美亚马逊工作;田婧现在北美佐治亚大学交流,即将博士毕业走上工作岗位;张琦即将通过我院博士班资格考,成为新一届的女博士。他们都有各自人生的精彩,也通过本书留下各自经历的痕迹,特此记之。
在本书出版之际,需要感谢在这大半年时间里一直督导本书出版的编辑张有利老师和责编冯小妹老师,没有你们的鞭策和鼓励,患有严重拖延症加上语言表达困难的我很难按时完成本书。此外,要感谢2018年毕业前往苏州大学工作的师妹沈怡,你个帮忙通读初稿,并给出了很多中肯的意见。还要感谢浙江大学陈熹老师、南京大学宋培建老师、清华大学卫强老师和清华大学出版社刘向威老师,你们或交流课程心得,或推荐相关读物,让我受益匪浅。
此外,感谢2015~2017年上过本课的全体MBA同学,你们众志成城帮忙打Call取名字,并通过民主投票终确定本书书名。特别感谢徐建林同学,甘心做我的小白鼠,周末熬夜阅读帮忙检查错漏字,并测试作业数据。很抱歉之前上课的同学没有建微信群,无法再联系到。但希望你们看到本书后,能感受到我想表达的心意,也祝愿所有同学在工作岗位上取得更大的进步,将新一代商业数据科学的思维和机器学习方法真正用到企业实践中。
张诚
2018年11月2日立冬
评论
还没有评论。