描述
开 本: 16开纸 张: 胶版纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787122378491丛书名: 人工智能开发丛书
这本书全面透彻讲解Scikit-learn的来龙去脉,读完本书,便可彻底搞通Scikit-learn方方面面的知识。
语言通俗易懂,轻松易学
讲解主干明确,脉络清晰
案例精心挑选,实用性强
本书主要内容包括机器学习介绍,NumPy、Pandas、SciPy库、Matplotlib(可视化)四个基础模块,Scikit-learn算法、模型、拟合、过拟合、欠拟合、模型性能度量指标、数据标准化、非线性转换、离散化,以及特征抽取和降维的各种方法,包括特征哈希、文本特征抽取、特征聚合等。全书通过实用范例和图解形式讲解,选材典型,案例丰富,适合从事大数据、数据挖掘、机器学习等人工智能领域开发的各类人员。
1.1 机器学习和人工智能 2
1.2 机器学习和大数据 4
1.3 机器学习和数据挖掘 6
1.4 机器学习分类和应用 7
1.5 机器学习开发步骤 10
1.5.1 数据挖掘标准流程 10
1.5.2 机器学习开发步骤 15
本章小结 18
2 Scikit-learn预备知识 20
2.1 NumPy 21
2.1.1 NumPy数组概念 23
2.1.2 NumPy数据类型 24
2.1.3 NumPy数组创建 26
2.1.4 NumPy数组操作 37
2.1.5 NumPy随机数 51
2.1.6 NumPy输入输出 57
2.1.7 NumPy矩阵 58
2.1.8 NumPy线性代数 59
2.1.9 NumPy常数 63
2.2 Pandas 63
2.2.1 Pandas数据结构 64
2.2.2 Pandas顶层函数 114
2.2.3 Pandas应用举例 115
2.3 SciPy库 122
2.3.1 SciPy库基础知识 123
2.3.2 稀疏矩阵及其处理 124
2.3.3 SciPy库应用举例 138
2.4 Matplotlib 144
2.4.1 Matplotlib基础知识 145
2.4.2 Matplotlib应用举例 149
本章小结 161
3 Scikit-learn基础应用 163
3.1 机器学习的算法和模型 164
3.1.1 特征变量和目标变量 165
3.1.2 算法训练 166
3.1.3 过拟合和欠拟合 174
3.1.4 模型性能度量 175
3.2 模型选择 180
3.3 Scikit-learn的功能模块 180
3.4 Scikit-learn 应用 182
3.4.1 安装Scikit-learn 182
3.4.2 数据导入 183
3.4.3 模型持久化 185
3.4.4 文本数据处理 186
3.4.5 随机状态控制 187
3.4.6 分类型变量处理 187
3.4.7 Pandas数据框处理 188
3.4.8 输入输出约定 188
3.5 应用实例 191
本章小结 193
4 Scikit-learn数据变换 195
4.1 概念介绍 196
4.1.1 评估器(estimator) 196
4.1.2 转换器(transformer) 197
4.1.3 管道(pipeline) 198
4.2 数据预处理 199
4.2.1 数据标准化 201
4.2.2 数据非线性转换 223
4.2.3 数据归一化 232
4.2.4 分类型特征变量编码 237
4.2.5 数据离散化 245
4.2.6 特征组合 251
4.3 缺失值处理 254
4.3.1 单变量插补 255
4.3.2 多变量插补 258
4.3.3 最近邻插补 262
4.3.4 标记插补缺失值 264
4.4 目标变量预处理 268
4.4.1 多类别分类标签二值化 268
4.4.2 多标签分类标签二值化 273
4.4.3 目标变量标签编码 276
本章小结 279
5 Scikit-learn特征抽取和降维 281
5.1 特征抽取 282
5.1.1 字典列表对象向量化 283
5.1.2 特征哈希 286
5.1.3 文本特征抽取 291
5.1.4 图像特征抽取 316
5.2 特征降维 320
5.2.1 主成分分析 321
5.2.2 特征聚合 326
5.2.3 随机投影 330
本章小结 340
附录 342
1. 互操作和框架增强包 343
2. 评估器和任务扩展包 344
3. 统计知识扩展包 347
4. 推荐引擎扩展包 347
5. 特定领域的扩展包 347
Scikit-learn是基于Python的开源免费机器学习库,起源于发起人David Cournapeau在2007年参加谷歌编程之夏GSoC(Google Summer of Code)的一个项目,目前已经成为最受欢迎的机器学习库之一。
笔者将通过上、下两册把这个内容丰富、功能强大的机器学习框架进行系统条理的讲解,帮助有志于从事人工智能,特别是机器学习的开发者快速掌握Scikit-learn,并有效应用于工作中。本书是上册,首先简要介绍了机器学习的基础知识以及学习Scikit-learn的预备知识,然后重点讲解学习和掌握Scikit-learn的基础知识和基本功能,包括数据变换、特征抽取和降维技术等功能,这些都是高效应用Scikit-learn的必备知识。下册将以Scikit-learn提供的算法和模型为基础,讲解各种算法的原理、实现技术和应用案例,使读者在高效应用Scikit-learn技术方面更上一层楼。
第1章:介绍了机器学习的概念,并概述了机器学习与人工智能、机器学习与大数据以及机器学习与数据挖掘的关系。作为人工智能的一个子集,机器学习目前已经在各个领域开花结果,默默地影响着我们的日常生活。
第2章:介绍了Scikit-learn的预备知识,主要包括四个基础模块:NumPy、Pandas、SciPy库和Matplotlib,由于它们功能丰富、便于使用,目前已经广泛应用于数学、科学和工程领域,成为最受欢迎的Python扩展工具包。
第3章:学习掌握Scikit-learn的基础应用,在机器学习的基础上介绍了弄懂Scikit-learn首先需要掌握的最为常见的、全局性的先验知识,为方便实训演练,提供了模型训练和预测的例子。
第4章:介绍了Scikit-learn数据变换相关知识,包括评估器(estimator)、转换器(transformer)和管道(pipeline)等常用的概念,它们均属于数据预处理的范畴。其中转换器(transformer)可以实现数据预处理、缺失值处理、降维等各种数据变换功能。
第5章:介绍了Scikit-learn特征抽取和特征降维相关知识,它们都是数据预处理的一部分。特征抽取是指从原始数据中抽取特定特征变量的过程;特征降维不仅能够在不丢弃任何数据样本的情况下提高模型构建的效率,减少模型的规模,同时还能增强模型预测的效果。
附录:包含精选的Scikit-learn实用拓展学习资源,包括互操作和框架增强包、评估器和任务扩展包、推荐引擎扩展包等非常实用的资源。每个扩展包包含了概要描述和网址链接,便于读者访问。
本书特点
■ 内容由浅入深,循序渐进
本书从机器学习的起源和概念讲起,在引出了机器学习的标准开发步骤之后,讲述了Scikit-learn的外围预备知识(包括NumPy、Pandas、SciPy等)和基础知识,并逐步讲解了Scikit-learn的数据变换、特征抽取和降维功能,这是进行机器学习算法训练、模型应用的基本知识。一方面遵循初学者对机器学习的认知规律,另一方面也便于熟悉机器学习基本知识的学习者有选择地阅读。
■ 语言通俗易懂,轻松易学
讲解时尽量用通俗易懂的语言,配以足量图片和代码,形象化地把抽象内容呈现给读者,使读者很快理解、掌握每个章节的内容,有效降低学习的门槛。内容虽多,但不枯燥,轻松易学。
■ 讲解主干明确,脉络清晰
贯彻机器学习算法训练和应用这一主题。上册内容主要在于构建实际模型之前的工作,即数据预处理和特征抽取等知识,这是进行算法训练和模型应用不可或缺的流程环节,是后续内容的必要铺垫。内容一环接着一环,主干脉络清晰。
■ 案例精心挑选,实用性强
如何实现数据的标准化和规范化?对于缺失值如何处理?特征哈希如何实现?通过典型案例,读者可以轻松地处理这些在构建机器学习模型时必须面对的问题,有效地应用于后续的模型训练和实践应用中。
本书主要是面向有志于从事机器学习开发以及对人工智能领域感兴趣的读者而编写的,包括但不限于如下人员:
(1)具备一定Python基础知识,希望在机器学习领域进阶升级的开发人员;
(2)想要了解和实践Scikit-learn学习包的开发工程师;
(3)有志于从事大数据及人工智能的分析人员;
(4)对大数据和人工智能领域感兴趣的相关读者。
本书例子运行的Python版本号是Ver3.8.1。所有实例都可以通过化学工业出版社网站下载,也可以通过QQ:420165499联系在线下载实例包。读者在阅读和使用过程中,如有任何问题,可通过QQ在线咨询,笔者将竭诚为您服务。
著者
2020年8月
评论
还没有评论。