描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 是国际标准书号ISBN: 28515499
《机器学习算法的数学解析与Python实现》
读者对象:想要学习机器学习的学生、程序员、研究人员或者爱好者,以及想要知道机器学习是什么、为什么和怎么用的所有读者。
- 生动——语言生动幽默,通过分析大量生活案例,帮助读者理解机器学习的算法。
- 简单——让很多听起来高大上的名词更实用。
- 实用——精选了*主要的机器学习算法,如线性回归算法、Logistic回归算法、KNN算法、朴素贝叶斯算法、决策树算法、支持向量机算法、K-means聚类算法、神经网络、集成学习方法等。
- 系统——从概念、原理、Python实现、应用场景几个方面,详细剖析机器学习中主要的算法。
《机器学习实战:基于Sophon平台的机器学习理论与实践》
读者对象:机器学习工程师、算法工程师、大数据分析师、智能系统架构师、人工智能产品经理
(1)星环科技人工智能平台团队合著,凝结星环科技人工智能和大数据团队丰富的实战经验
(2)从技术视角提供当前人工智能相关技术的深入介绍,不仅讲解人工智能知识体系的理论基础,也可以指导基于实战的平台环境进行操作。
(3)针对各种类型的机器学习问题,基于星环自研的人工智能平台(Sophon)环境,结合真实案例,依照数据、分析、建模的演进历程进行系统化阐述并进行实战讲解。
《机器学习算法的数学解析与Python实现》
本书以机器学习的算法为主线,深入剖析算法的概念和数学原理,以通俗形象的语言进行讲解,让读者无须了解太多前置数学知识,就能看懂数学公式所表达的意思,从而快速掌握机器学习的思想和原理。本书首先介绍机器学习基本概念及工具,然后从概念、原理、Python实现、应用场景几个方面,详细剖析机器学习中主要的算法,如线性回归算法、Logistic回归算法、KNN算法、朴素贝叶斯算法、决策树算法、支持向量机算法、K-means聚类算法、神经网络、集成学习方法等。
《机器学习实战:基于Sophon平台的机器学习理论与实践》
本书内容覆盖了机器学习领域从理论到实践的多个主题,总共分为10章。
- 第1章为导论,介绍机器学习的背景、定义和任务类型,构建机器学习应用的步骤,以及开发机器学习工作流的方式。
- 第2章详细介绍数据预处理和特征工程技术,并辅以实例进行验证。
- 第3~6章介绍回归模型、分类模型、模型融合和聚类模型,这些内容是机器学习理论和实践中的传统重点。其中不仅介绍各种常见数据类型的处理方法,还针对删失数据进行了专门的综述和实践。
- 第7章介绍机器学习领域较难的图计算话题,并从工业界视角解读如何将图计算落地。
- 第8章针对特征工程、建模过程中大量调参的场景介绍自动机器学习的理论和应用,并细致比较和测试了各种自动特征工程算法在不同数据上的表现。
- 第9章介绍自然语言处理(词向量、序列标注、关键词抽取、自动摘要和情感分析)技术,使用新闻文本数据搭建文本分类的流程。
- 第10章介绍计算机视觉中图像分类和目标检测的应用以及车辆检测的落地案例。
本书既适合作为高等院校计算机、软件工程、人工智能等相关专业的教学用书,同时也可供从事机器学习相关领域的工程技术人员阅读和参考,帮助他们掌握机器学习相关的算法原理,并能通过专业工具平台快速搭建各类模型,构建机器学习的行业应用。
《机器学习算法的数学解析与Python实现》
前言
第1章 机器学习概述 1
1.1 什么是机器学习 1
1.2 机器学习的几个需求层次 3
1.3 机器学习的基本原理 5
1.4 机器学习的基本概念 7
1.4.1 书中用到的术语介绍 7
1.4.2 机器学习的基本模式 11
1.4.3 优化方法 12
1.5 机器学习问题分类 14
1.6 常用的机器学习算法 15
1.7 机器学习算法的性能衡量指标 16
1.8 数据对算法结果的影响 18
第2章 机器学习所需的环境 20
2.1 常用环境 20
2.2 Python简介 21
2.2.1 Python的安装 23
2.2.2 Python的基本用法 24
2.3 Numpy简介 25
2.3.1 Numpy的安装 26
2.3.2 Numpy的基本用法 26
2.4 Scikit-Learn简介 27
2.4.1 Scikit-Learn的安装 28
2.4.2 Scikit-Learn的基本用法 28
2.5 Pandas简介 29
2.5.1 Pandas的安装 30
2.5.2 Pandas的基本用法 31
第3章 线性回归算法 33
3.1 线性回归:“钢铁直男”解决回归问题的正确方法 33
3.1.1 用于预测未来的回归问题 35
3.1.2 怎样预测未来 38
3.1.3 线性方程的“直男”本性 40
3.1.4 最简单的回归问题—线性回归问题 44
3.2 线性回归的算法原理 46
3.2.1 线性回归算法的基本思路 46
3.2.2 线性回归算法的数学解析 48
3.2.3 线性回归算法的具体步骤 53
3.3 在Python中使用线性回归算法 54
3.4 线性回归算法的使用场景 60
第4章 Logistic回归分类算法 61
4.1 Logistic回归:换上“S型曲线马甲”的线性回归 61
4.1.1 分类问题:选择困难症患者的自我救赎 63
4.1.2 Logistic函数介绍 66
4.1.3 此回归非彼回归:“LR”辨析 70
4.2 Logistic回归的算法原理 71
4.2.1 Logistic回归算法的基本思路 71
4.2.2 Logistic回归算法的数学解析 74
4.2.3 Logistic回归算法的具体步骤 78
4.3 在Python中使用Logistic回归算法 78
4.4 Logistic回归算法的使用场景 81
第5章 KNN分类算法 82
5.1 KNN分类算法:用多数表决进行分类 82
5.1.1 用“同类相吸”的办法解决分类问题 84
5.1.2 KNN分类算法的基本方法:多数表决 86
5.1.3 表决权问题 89
5.1.4 KNN的具体含义 89
5.2 KNN分类的算法原理 90
5.2.1 KNN分类算法的基本思路 90
5.2.2 KNN分类算法的数学解析 93
5.2.3 KNN分类算法的具体步骤 94
5.3 在Python中使用KNN分类算法 95
5.4 KNN分类算法的使用场景 96
第6章 朴素贝叶斯分类算法 98
6.1 朴素贝叶斯:用骰子选择 98
6.1.1 从统计角度看分类问题 99
6.1.2 贝叶斯公式的基本思想 102
6.1.3 用贝叶斯公式进行选择 104
6.2 朴素贝叶斯分类的算法原理 106
6.2.1 朴素贝叶斯分类算法的基本思路 106
6.2.2 朴素贝叶斯分类算法的数学解析 108
6.2.3 朴素贝叶斯分类算法的具体步骤 111
6.3 在Python中使用朴素贝叶斯分类算法 111
6.4 朴素贝叶斯分类算法的使用场景 112
第7章 决策树分类算法 114
7.1 决策树分类:用“老朋友”if-else进行选择 114
7.1.1 程序员的选择观:if-else 116
7.1.2 如何种植一棵有灵魂的“树” 118
7.1.3 决策条件的选择艺术 119
7.1.4 决策树的剪枝问题 122
7.2 决策树分类的算法原理 125
7.2.1 决策树分类算法的基本思路 125
7.2.2 决策树分类算法的数学解析 127
7.2.3 决策树分类算法的具体步骤 133
7.3 在Python中使用决策树分类算法 134
7.4 决策树分类算法的使用场景 135
第8章 支持向量机分类算法 137
8.1 支持向量机:线性分类器的“王者” 137
8.1.1 距离是不同类别的天然间隔 139
8.1.2 何为“支持向量” 140
8.1.3 从更高维度看“线性不可分” 142
8.2 支持向量机分类的算法原理 146
8.2.1 支持向量机分类算法的基本思路 146
8.2.2 支持向量机分类算法的数学解析 150
8.2.3 支持向量机分类算法的具体步骤 153
8.3 在Python中使用支持向量机分类算法 154
8.4 支持向量机分类算法的使用场景 156
第9章 K-means聚类算法 157
9.1 用投票表决实现“物以类聚” 157
9.1.1 聚类问题就是“物以类聚”的实施问题 159
9.1.2 用“K”来决定归属类别 162
9.1.3 度量“相似”的距离 164
9.1.4 聚类问题中的多数表决 165
9.2 K-means聚类的算法原理 168
9.2.1 K-means聚类算法的基本思路 168
9.2.2 K-means聚类算法的数学解析 169
9.2.3 K-means聚类算法的具体步骤 170
9.3 在Python中使用K-means聚类算法 171
9.4 K-means聚类算法的使用场景 172
第10章 神经网络分类算法 174
10.1 用神经网络解决分类问题 174
10.1.1 神经元的“内心世界” 177
10.1.2 从神经元看分类问题 180
10.1.3 神经网络的“细胞”:人工神经元 181
10.1.4 构成网络的魔力 184
10.1.5 神经网络与深度学习 188
10.2 神经网络分类的算法原理 188
10.2.1 神经网络分类算法的基本思路 188
10.2.2 神经网络分类算法的数学解析 190
10.2.3 神经网络分类算法的具体步骤 193
10.3 在Python中使用神经网络分类算法 194
10.4 神经网络分类算法的使用场景 195
第11章 集成学习方法 197
11.1 集成学习方法:三个臭皮匠赛过诸葛亮 197
11.1.1 集成学习方法与经典机器学习算法的关系 198
11.1.2 集成学习的主要思想 199
11.1.3 几种集成结构 200
11.2 集成学习方法的具体实现方式 202
11.2.1 Bagging算法 202
11.2.2 Boosting算法 202
11.2.3 Stacking算法 202
11.3 在Python中使用集成学习方法 203
11.4 集成学习方法的使用场景 205
《机器学习实战:基于Sophon平台的机器学习理论与实践》
前言
丛书前言
本书编委会
前言
第1章 机器学习导论
1.1 什么是机器学习
1.1.1 机器学习的背景
1.1.2 机器学习的定义
1.1.3 机器学习的任务类型
1.1.4 构建机器学习应用的步骤
1.2 开发机器学习工作流的方式
第2章 数据预处理与特征工程
2.1 特征提取
2.1.1 探索性数据分析
2.1.2 数值特征
2.1.3 类别特征
2.1.4 时间特征
2.1.5 文本特征
2.1.6 过滤方法
2.1.7 封装方法
2.1.8 嵌入方法
2.1.9 自动化特征工程
2.2 交互式数据预处理
2.3 本章小结
第3章 回归模型
3.1 回归任务概述
3.2 回归算法原理
3.2.1 线性回归
3.2.2 决策树回归
3.2.3 生存回归
3.3 Sophon 案例
3.4 本章小结
第4章 分类
4.1 分类任务概述
4.2 分类算法原理
4.2.1 逻辑回归
4.2.2 因子分解机
4.2.3 XGBoost
4.3 使用 Sophon 建立分类模型
4.3.1 场景介绍
4.3.2 建模过程
4.3.3 结果分析
4.4 本章小结
第5章 模型融合
5.1 集成学习理论
5.1.1 集成学习基本概念
5.1.2 个体学习器
5.1.3 基学习器集成
5.1.4 常用的集成学习方法
5.2 常用融合方法
5.2.1 平均法
5.2.2 学习法(Stacking 方法)
5.3 使用 Sophon 进行模型融合
5.3.1 场景与数据集介绍
5.3.2 建模过程
5.3.3 结果分析
5.4 本章小结
第6章 聚类 78
6.1 聚类任务概述
6.2 聚类算法原理
6.2.1 K-Means
6.2.2 Fuzzy C-Means
6.2.3 Canopy
6.2.4 高斯混合
6.3 聚类模型实例
6.3.1 场景介绍
6.3.2 建模过程
6.3.3 结果分析
6.4 本章小结
第7章 图计算
7.1 背景和问题描述
7.2 常用算法介绍
7.2.1 PageRank
7.2.2 标签传播
7.2.3 中心性检测
7.2.4 图嵌入
7.3 落地案例
7.3.1 场景介绍
7.3.2 建模过程
7.3.3 结果分析
7.4 本章小结
第8章 自动机器学习
8.1 场景介绍
8.2 自动化特征工程
8.2.1 自动多表特征扩展
8.2.2 自动特征构建
8.3 建模过程
8.4 结果分析
8.5 真实测试案例
8.5.1 数据集
8.5.2 前置设置
8.5.3 测试结果分析
8.5.4 Abalone 和 Airfoil Self-Noise 数据集的增强测试
8.5.5 小结
8.6 本章小结
第9章 自然语言处理
9.1 自然语言处理算法原理
9.1.1 词向量
9.1.2 序列标注
9.1.3 关键词抽取
9.1.4 文本自动摘要
9.1.5 文本情感分析
9.2 使用 Sophon 建立自然语言处理模型
9.2.1 场景介绍
9.2.2 建模流程
9.2.3 模型评估
9.3 落地案例
9.4 本章小结
第10章 计算机视觉
10.1 计算机视觉概述
10.2 计算机视觉算法原理
10.2.1 图像分类
10.2.2 目标检测
10.3 计算机视觉模型示例
10.3.1 图像预处理
10.3.2 图像分类算法建模
10.3.3 目标检测算法建模
10.4 落地案例
10.5 本章小结
附录A 企业级人工智能应用平台Sophon
A.1 产品架构
A.2 技术特点
A.3 组件介绍能
A.4 Sophon Edge 边缘计算
A.5 Sophon EP 实体画像
A.6 Sophon KG 知识图谱
A.7 Sophon CV 图像分析
A.8 Sophon NLP 自然语言处理
A.9 Sophon Cloud 服务管理
《机器学习算法的数学解析与Python实现》
这是一本介绍机器学习的书,按常理来说,我应该首先介绍学习机器学习的重要性。可是,有必要吗?我记得约五年前,机器学习还是一个很有科幻色彩的术语,而现在技术学习圈几乎整版都换成了机器学习的各种模型,国内很多大学已经开始设立人工智能专业,机器学习当仁不让地成为核心课程。据说相关学者已经将该知识编制成课本,即将走入中学课堂。机器学习的火热,连带着让长年不温不火的Python语言也借机异军突起,甚至掀起一阵Python语言的学习热潮。机器学习已经成为“技术宅”的一种必备技能,因此,实在没必要再占篇幅介绍它的重要性。
但是,学习机器学习的路途是坎坷和颠簸的,唯一不缺的就是让你半途而废的借口。机器学习今日的成就是站在巨人的肩膀上取得的,因此,当你终于下定决心学习机器学习时,很多人会给你开出一串长长的学习清单:机器学习涉及大量向量和矩阵运算,所以线性代数是肯定要学的;机器学习的很多模型算法都以统计知识作为背景,所以统计学和概率论也是必修的;许多重要环节依赖微分运算,那本好久不看的《高等数学》是不是到了重出江湖的时候了?
想想看,如果告诉你学习机器学习,首先得把《线性代数》《概率统计》《高等数学》统统翻一遍,然后你才只是刚刚摸到学习机器学习的起跑线,如果不擅长数学,你得需要多大的毅力才能坚持下来,把机器学习学明白?
真的很难,如果开始学习机器学习时我就知道后面会承受这么多“痛苦”,也许我根本就不会开始。特别是如果你也是利用业余时间来自学机器学习,那么真的称得上煎熬:当你已经为别的事情绞尽脑汁,好不容易有了那么一点属于自己的时间,想要学习充电时,结果鼓起勇气翻开书本,扑面而来的全是各种难以理解的数学公式和闻所未闻的专业术语,你就能立即体会到什么是无力感。
那时我总是在想,能不能有一本教机器学习的书对读者友好一点。首先不要假设读者擅长数学,认为读者一上来就可以看懂各种高深的数学公式,在介绍机器学习具体模型算法时要能按照从宏观到微观的顺序介绍。刚接触新的知识领域,先把模型算法的主要原理和基本结构讲清楚,让读者在脑海里勾勒出基本的轮廓,明确各种概念之间的关系,然后才深入各个细枝末节展开介绍,这样读者才不至于觉得自己一直在各种陌生的公式里转来转去,最后看得晕头转向。最后我还想再贪心一点,希望这本书的文字能够稍微有趣一点,最好能像弹幕评论那样在不经意间引人会心一笑,毕竟我是利用睡前的时间来学习机器学习,辛苦了一天,身体和精神都很疲惫,文字太生硬的话恐怕是啃不动的。
我找了很久,可惜直到最后也未能找到这样的一本书。现在,我决定自己动手来写一本。不过,这本书也并不能让你在短期内就全面掌握机器学习的各种知识。机器学习不但自成体系,自身就拥有枝繁叶茂的知识结构,而且也从多门大学科里汲取养分,又带有交叉学科的一些特点,可能将一个子问题深入研究下去就能发展成一门新学科—从神经网络发展到深度学习就是一个很好的例子。弱水三千,一本书哪怕写得再凝练透彻,也只能取一瓢饮。学习机器学习犹如建造大厦,总是需要从最基础的开始学,筑牢根基,然后一本一本地往上堆叠各有侧重的书本,才可能最终构建出完整的知识体系。
每一本书都有自己的使命。初学机器学习时,遇到的最大问题是迷茫,我深有体会。面对机器学习领域数量繁多又互有交叉的知识点,就像身处一大片繁茂的森林,没有指南设备很难不迷失方向,而大量好不容易挤出来的宝贵时间就浪费在辨别方向上了。在本书中,我负责为你踹开机器学习世界的大门,绘制出这个庞大而陌生的世界中的“山河湖海”,总体是怎样的,哪里是重点,哪里是难点,哪些点用到了哪些学科知识,点和点之间的关系又是怎样的,我都迫不及待想要一一清楚地告诉你。为了完成这个使命,我会竭尽全力,但也请原谅我无法“送佛到西”,正如前面所述,每个知识点深入下去,可能又是一片茂密的森林,机器学习涉及的知识点众多,我希望通过本书能让你清楚地看到兴趣所在,不过知识点背后仍然有很长很长的路,还请加倍努力。
最后,我想谈一谈“要不要亲手实现一遍机器学习算法”这个争议很大的问题。我推崇学以致用,用机器学习算法解决实际问题才是本书的最终目的,所以本书将会涉及如何在实际中使用书中提及的机器学习算法的问题。对于这个问题,一般会有两种选择,一种是让读者亲手从头实现一遍算法,另一种则是直接使用现成的算法库。对于这个问题,如何选择争议很大,本书中选择的是后者。
学习机器学习的动机很多,可能是实际工作需要,可能是兴趣爱好,也可能是学业要求,从每种动机的角度看,这个问题都可能有不同的答案。我认同许多人所说的求知不能太功利这一观点,不过大家的时间和精力毕竟有限,就算不去追求投入产出比,至少也应该有一个学这门知识想要达到的目的。机器学习是更偏重于应用的学问,在当下的发展也确实使得机器学习越来越像一门技能,而不仅仅是技术。初学算法时我最想学的是里面的“最强算法”,不过在第1章我将介绍,机器学习算法没有最强的,只有最合适的,对于不同的问题,对应会有不同的最合适算法。所以,我们更需要关注的应该是问题,而不是算法本身。在本书中我选择介绍市面上成熟的机器学习算法包,通过现成的算法包,就能够根据实际要解决的问题直接选择所需要的机器学习算法,从而把注意力集中在对不同算法的选择上。
本书的目标读者是想要学习机器学习的学生、程序员、研究人员或者爱好者,以及想要知道机器学习是什么、为什么和怎么用的所有读者。本书第1章介绍机器学习总体背景,第2章介绍配置环境,第3章到第10章彼此独立,每一章介绍一种具体的机器学习算法,读者可以直接阅读想要了解的算法,第11章介绍了集成学习方法,这是一种组合机器学习算法的方法,也是当前在实际使用中常见又十分有效的提升性能的做法。
各章详细内容如下:
第1章首先介绍机器学习究竟是什么,特别是与“人工智能”“深度学习”这些经常在一起出现的术语究竟有什么关系,又有什么区别。本章也将对机器学习知识体系里的一些常用术语进行简要说明,如果读者此前并不了解机器学习,则可以通过本章了解相关背景知识。
第2章对当前机器学习算法常用的Python编程语言以及相关的Python库进行介绍,同时列举一些常用的功能。
第3章开始正式介绍机器学习算法,要介绍的第一款机器学习算法是线性回归,本章将对回归问题、线性模型和如何用线性模型解决回归问题,以及对机器学习解决问题的主要模式进行介绍。
从第4章开始,介绍当下机器学习应用最广的分类问题,第一款解决分类问题的算法是Logistic回归分类算法,即用线性模型结合Logistic函数解决分类问题。
第5章介绍KNN分类算法,这款算法不依赖太复杂的数学原理,因此一般被认为是最直观好懂的分类算法之一。
第6章介绍朴素贝叶斯分类算法,它基于贝叶斯公式设计,理论清晰、逻辑易懂,是一款典型的基于概率统计理论解决分类问题的机器学习算法。
第7章介绍决策树分类算法,这是一款很重要的算法,从思想到结构都对程序员非常友好,当前XGBoost等主流机器学习算法就是在决策树算法的基础上,结合集成学习方法设计而成的。
第8章介绍支持向量机分类算法,这是一款在学术界和工业界都有口皆碑的机器学习模型。在深度学习出现之前,支持向量机被视作最被看好的机器学习算法,能力强、理论美,也是本书中最为复杂的机器模型。
第9章介绍无监督学习的聚类问题,以及简单好懂的聚类算法—K-means聚类算法。
第10章介绍神经网络分类算法,当前大热的深度学习就是从神经网络算法这一支发展而来的,而且大量继承了神经网络的思想和结构,可以作为了解深度学习的预备。
第11章介绍集成学习方法,以及如何通过组合两个以上的机器学习模型来提升预测效果。
我自己也经常阅读各类书籍,常常看到不少作者提到写书不易,待自己写作了一本书之后,才真正体会到写书真是一段漫长的“马拉松”,只有真正经历了才能明白其中所需要的决心和毅力。本书能顺利写作完成,首先要感谢我的妻子,她的一句“真想看你写完的这本书”是我克服白天工作的疲惫,坚持写下来的最大动力;我还要感谢我的父母,他们培养了我学习新知识的兴趣,更让我懂得了学习新知识的最大乐趣在于分享,继而深深地埋下了写作本书的梦想种子;最后我需要特别正式地感谢本书的策划编辑吴怡女士,这个世界上大大小小的进程都需要一个第一推动力——吴怡女士促使了我写作本书的梦想变成现实。
◆ 名人推荐 ◆
张平文 中国科学院院士 北京大学数学科学学院教授
王新民 北京大学大数据分析与应用技术国家工程实验室 研究员
孙元浩 星环信息科技(上海)有限公司 创始人CEO
郭正彪 长江证券互联网金融总部数据总监
刘 速 中国石油规划总院信息技术专家,信息中心数据分析技术部经理
李秀生 四川新网银行股份有限公司CIO
李昱见 郑州地铁集团有限公司 信息管理部副部长
李 喆 武汉农村商业银行信息科技部总经理
邵 栋 南京大学软件学院副院长
孙建军 南京大学信息管理学院院长
孙煜华 中国南方电网广州供电局高级信息技术专家
王浩学 河南省信息产业投资集团信息中心CTO
王志军 联通公司信息化部副总经理,中国计算机学会大数据专家委员会委员
夏 永 湖北省农村信用社联合社数据中心总经理
《机器学习实战:基于Sophon平台的机器学习理论与实践》
丛书前言
大数据和人工智能作为新一轮产业变革的核心力量,将全面释放科技革命和产业变革积蓄的能量,对于打造新动力具有重要意义。2019年政府工作报告中也进一步提出“要深化大数据、人工智能等研发应用”,这进一步奠定了大数据和人工智能成为当前经济发展的新引擎的地位。很显然,推动大数据和人工智能的发展需要足够多的各类人才的支撑,人才的质量和数量决定着我国大数据和人工智能发展的水平和潜力。教育部自2016年起陆续增设“数据科学与大数据技术”“大数据管理与应用”两个本科专业,以及“大数据技术与应用”“商务数据分析与应用”两个专科高职专业,指导和鼓励国内各高校开设大数据专业,并于2018年印发《高等学校人工智能创新行动计划》,鼓励有条件的高校加强人工智能领域创新人才的培养。截至目前,已有数百所高校获批开设大数据和人工智能相关专业。我们认为,当前大部分大数据和人工智能的人才培养都应该紧贴行业和面向实际应用。从这个意义上说,主要依靠学校力量可能并不能完全满足多样化人才培养的需求。事实上,从大数据和人工智能整个生态来看,尤其在一些相对高端的应用领域,工业界往往走得较快,相应地,相当一部分教育机构则处在追赶的状态。其次,因为广受业界关注,大数据和人工智能相关领域的方法、技术和工具众多,同时也在快速演变,这无疑会让很多应用型初学者无所适从。从这个意义上说,有必要删繁就简,突出主干。最后,我们注意到,不管是大数据技术还是人工智能技术,在整个信息化的体系当中,都不能孤立存在。比如,当前很多大数据和人工智能厂商都逐渐开始将产品放到云端,逐渐推出一些云服务,我们称之为大数据的3.0时代。为了支撑逐渐云化的大数据或者人工智能,技术栈中最好也应该包含DevOps方法、Kubernetes容器管理引擎等内容。鉴于此,我们规划了“工业和信息化领域急需紧缺人才(大数据和人工智能)培养工程”系列教材,按照三个层次来组织大数据和人工智能相关内容。
第一层次主要目标是打基础,因此,主要提供导论性质的基础课程,建设三本教材,即《大数据导论》和《大数据导论实验》以及对应机器学习的《机器学习:基本模型和算法》。
第二层次主要目标是从技术视角提供当前大数据和人工智能相关技术的深入介绍。建设五本教材,内容涉及事务型数据库、分析型数据库、非关系数据库、实时流处理以及机器学习等。
第三层次主要目标是从行业视角提供具体领域的大数据和人工智能应用案例详解,目前规划建设两本教材,分别是《能源领域大数据和人工智能应用详解》和《金融领域大数据和人工智能应用详解》。
本丛书的主要特点如下:
q面向工业界应用型人才培养的需求来规划教材内容 不管是丛书顾问团队还是编写人员,我们都优先考虑以一线从业人员为主,试图尽最大可能还原大数据和人工智能应用场景中的各类实际问题,并以问题驱动的方式来组织教材的大部分内容。便于读者加深对于大数据和人工智能相关技术和方法及其在实际业务场景中的应用的理解。
q依托现有生态,删繁就简的同时围绕大数据和人工智能主题 系统化组织教材内容。星环公司作为国内大数据和人工智能另一产品最丰富的供应商之一(2019信通院大数据产品能力评测),在大数据和人工智能的技术应用、培训、竞赛组织、研究与开发等环境经验丰富,同时形成了闭环以及自有生态。首先,从实践中抽取和提炼问题以及解决问题的经验,形成教材的主要内容,同时也为培训和竞赛组织提供素材。其次,教材可以辅助培训和竞赛的开展,同时,培训和竞赛的组织也为完善教材提供必要的反馈。最后,实践中面临着大量实际问题,则为完善和增强产品提供了研究课题;反之,研究成果也会反哺产品线,更好地服务客户。因此,本系列教材在内容选择,尤其是技术路线选择中,依托了星环公司产品线作为技术主干,同时适当兼顾其他广受好评的一些开源工具和相关技术。
q按照大数据3.0的要求来规划内容 我们认为,未来大数据和人工智能产品往云端逐步迁移是不可避免的趋势,因此,适当引入云计算、DevOps以及容器技术等内容是非常有必要的。
本丛书面向多层次的读者,既可以作为高校大数据相关专业的教材,也可以作为一般社会培训教材。特别是,我们联合工信部中国信息通信研究院中国人工智能产业发展联盟、数据中心联盟共同建立大数据人才发展中心,进行大数据人才的培养认证工作,因此,本系列丛书也可以作为“工业和信息化领域急需紧缺人才培养工程”中大数据和人工智能方向的培训教材。
Serieseditorialboard
丛书编委会
“工业和信息化领域急需紧缺人才(大数据和人工智能)培养工程”系列丛书编委组成如下:
q顾问团队(按姓氏拼音排序)
郭正彪 博士 长江证券互联网金融总部数据总监
刘 速 博士 中国石油规划总院信息技术专家、信息中心数据分析技术部经理
李秀生 四川新网银行股份有限公司CIO
李昱见 郑州地铁集团有限公司信息管理部副部长
李 喆 武汉农村商业银行信息科技部总经理
邵 栋 副教授 南京大学软件学院副院长
孙建军 教授 南京大学信息管理学院院长
孙煜华 中国南方电网广州供电局高级信息技术专家
孙元浩 星环信息科技(上海)有限公司创始人兼CEO
王浩学 博士 河南省信息产业投资集团信息中心CTO
王新民 北京大学大数据分析与应用技术国家工程实验室研究员
王志军 联通公司信息化部副总经理、中国计算机学会大数据专家委员会委员
夏 永 湖北省农村信用社联合社数据中心总经理
张平文 中国科学院院士 北京大学数学科学学院教授
q执行主编
荣国平
q编委委员(按姓氏拼音排序)
代克 范颖捷 何铁科 李传艺 林晨 刘汪根 吕程 孙乐飞 徐杰 杨俊
杨一帆 张贺 周洪明 朱珺辰 等
P R E F A C E
前 言
人工智能技术的快速发展,带来了技术平台和行业应用的繁荣,从Caffe、CNTK、CoreML到TensorFlow、TensorRT,从CPU、GPU到TPU、FPGA、ARM,从图形处理、视觉识别到自然语言处理,技术体系越来越复杂,开发门槛越来越高;大量的技术人员需要不断授受技术更新,更多的应用需要考虑额外的迁移成本,更多的市场需要投入大量的资源以充分体现人工智能赋予的价值。
目前产业界开始出现少量技术使用门槛低、应用开发方便的机器学习平台(Machine Learning Platform,MLP)或者数据科学平台(Data Science Platform, DSP),但这些平台大部分还局限在特定行业的有限算法应用,需要不断进行架构优化、模型扩展和算法增强,提供多种场景下的应用迁移工具,才能形成较为成熟的产品化平台。
星环科技作为国内大数据和人工智能平台的领航者,自2013年成立以来,专注于企业级容器云计算、大数据和机器学习核心平台的研发和服务,拥有一批来自国内外著名高科技企业和科研院校的优秀专业人才,是国内大数据领域最早掌握核心技术的企业,也是最早开展机器学习平台理论与实践的公司之一,产品在政府、金融、公安等行业得到大规模应用。
星环科技人工智能平台Sophon是从大数据到人工智能演进过程中诞生的一款创新性机器学习技术平台。用户可以基于该平台快速完成从特征工程、模型训练到模型上线的机器学习全生命周期开发工作。
Sophon平台具有以下技术特点:
q采用去中心化的全分布式架构、性能线性扩展,满足海量数据处理模式下的快速训练和精准推理要求。
q一站式的机器学习集成开发平台,支持自动化开发、图形化操作及可视化建模,可快速构建行业应用解决方案。
q支持多种复杂算法,支持自定义模型和算法导入,可适应多种特定应用场景的复杂建模和模型迁移要求。
q集成大量面向行业领域的分析工具,如实体画像、视频分析、自然语言处理等,便于第三方应用快速定制开发。
q支持深度学习的知识图谱,能够便捷实现含图结构的应用建模,支持实体间多关系图的分析展示和演进变化,发现更有价值的图谱关系。
随着使用机器学习平台的用户越来越多,应用场景日益广泛,非常需要一本关于机器学习理论总结和实践指导的专业图书,不仅可以讲解整体知识体系的理论基础,也可以作为使用星环人工智能平台(Sophon)工具的指导手册。
目前市面上销售的机器学习相关书籍,要么偏重原理介绍和公式推导,要么重点描述开源算法的实现调用,无法满足二者兼顾的要求。为此,我们结合理论分析和实践指导要求,编写了这本面向机器学习一线工程技术人员的专业书籍。它既能帮助读者深入理解相关算法原理,也有助于读者学会利用专业工具平台快速搭建模型,构建机器学习的行业应用。
本书内容覆盖了机器学习领域从理论到实践的多个课题,总共分为10章。
第1章为导论,介绍机器学习的背景、定义和任务类型,构建机器学习应用的步骤,以及开发机器学习工作流的方式。
第2章详细介绍数据预处理和特征工程,并辅以实例进行验证。
第3~6章介绍回归模型、分类模型、模型融合、聚类模型,这些内容是机器学习理论和实践中的传统重点。其中不仅介绍对各种常见数据类型的处理方法,还针对删失数据进行了专门的综述和实践。
第7章介绍机器学习领域较难的图计算,并从工业界视角解读如何将图计算落地。
第8章针对特征工程、建模过程中大量调参的场景介绍自动机器学习的理论和应用,并细致比较和测试了各种自动特征工程算法在不同数据上的表现。
第9章介绍自然语言处理(词向量、序列标注、关键词抽取、自动摘要和情感分析),使用新闻文本数据搭建文本分类的流程。
第10章介绍计算机视觉中图像分类和目标检测的应用以及落地案例(车辆检测)。
书中的第1~2章是基础内容,建议读者认真阅读,其他章节则可根据需要选择性地阅读。
全书由孙元浩和杨俊统一主持和整理,参与编写的作者还包括杨一帆、裴瑞光、林木丰、乐向楠、陆增翔、蒲瑜琪、李祥祥、曾宪宇、赵文谦、林晨、浦锦毅、安磊、许凯琪、孙乐飞和吴香莲。
本书从雏形到定稿,历时近一年,非常感谢参与本书编纂校对工作的算法工程师和架构师,没有他们无私的理论分享和实践指导,本书是难以高质量完成的。在此我们对所有编者表示衷心的感谢和敬意。
孙元浩
2019年7月
评论
还没有评论。