描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111565901丛书名: 数据分析与决策技术丛书
内容简介
数据科学和机器学习是当今技术领域中*的流行语。本书将带您进行一次数据驱动的旅程,从基础的R和机器学习开始,逐步建立用于解决实际问题的项目的概念。本书共8章。第1章介绍R及其相关的基础知识,并简单介绍了机器学习的概念。第2章深入研究机器学习,介绍各种类型的学习算法,以及一些现实世界的案例。第3章使用市场购物篮分析和关联规则挖掘进行电子商务产品推荐、预测和模式分析。第4章分析不同用户对电子商务产品的评论和评级,使用算法和技术(例如用户协同过滤器)设计一个推荐系统。第5章将机器学习应用于信用风险检测和预测中。第6章使用多种机器学习算法检测和预测哪些客户具有潜在信用风险,介绍了多种有监督学习算法并比较它们的性能。第7章介绍社交媒体和通过TwitterAPI收集数据的过程。第8章根据TwitterAPI的知识建立一个项目,基于该项目分析推文中的情感。
目 录
Contents?目 录
译者序
前言
关于作者
关于审稿人
第1章 开始使用R语言和机器学习 1
1.1 探究R的基本内容 2
1.1.1 使用R作为科学计算器 2
1.1.2 向量运算 3
1.1.3 特殊值 5
1.2 R的数据结构 5
1.2.1 向量 6
1.2.2 数组和矩阵 8
1.2.3 列表 13
1.2.4 数据框 16
1.3 使用函数 20
1.3.1 内置函数 20
1.3.2 用户自定义函数 20
1.3.3 以参数形式传递函数 21
1.4 控制代码流 22
1.4.1 使用if、if-else和ifelse语句 22
1.4.2 使用switch语句 23
1.4.3 循环 23
1.5 高级结构 24
1.5.1 lapply和sapply函数 25
1.5.2 apply函数 26
1.5.3 tapply函数 27
1.5.4 mapply函数 28
1.6 进一步使用R 29
1.6.1 获得帮助 29
1.6.2 处理添加包 30
1.7 机器学习基础 30
1.7.1 机器学习——真正的含义是什么 30
1.7.2 机器学习——如何应用于现实世界 31
1.7.3 机器学习算法的类型 32
1.8 总结 33
第2章 让我们进行机器学习 34
2.1 理解机器学习 35
2.2 机器学习算法 35
2.3 算法家族 40
2.3.1 有监督学习算法 41
2.3.2 无监督学习算法 52
2.4 总结 57
第3章 应用市场购物篮分析预测顾客购买趋势 58
3.1 检测和预测趋势 59
3.2 市场购物篮分析 60
3.2.1 市场购物篮分析的真正含义 60
3.2.2 核心概念和定义 60
3.2.3 用于分析的技术 62
3.2.4 制定数据驱动的决策 63
3.3 评估产品列联矩阵 63
3.3.1 获取数据 64
3.3.2 分析和可视化数据 65
3.3.3 整体推荐 66
3.3.4 高级列联矩阵 67
3.4 频繁项集的生成 69
3.4.1 开始 69
3.4.2 数据检索和转换 69
3.4.3 建立项集关联矩阵 70
3.4.4 建立频繁项集生成工作流 72
3.4.5 检测购物趋势 74
3.5 关联规则挖掘 75
3.5.1 加载添加包和数据 76
3.5.2 探索性分析 76
3.5.3 检测和预测购物趋势 77
3.5.4 关联规则可视化 80
3.6 总结 80
第4章 建立产品推荐系统 82
4.1 理解推荐系统 83
4.2 推荐系统存在的问题 83
4.3 协同过滤器 84
4.3.1 核心概念和定义 84
4.3.2 协同过滤算法 85
4.4 建立推荐引擎 87
4.4.1 矩阵分解 88
4.4.2 算法实现 90
4.4.3 解释结果 94
4.5 产品推荐引擎实战 95
4.5.1 提取、转换并分析数据 96
4.5.2 模型准备和预测 99
4.5.3 模型评价 100
4.6 总结 102
第5章 信用风险检测和预测——描述分析 103
5.1 分析的类型 104
5.2 我们将要面临的挑战 104
5.3 什么是信用风险 105
5.4 获取数据 105
5.5 数据处理 107
5.5.1 处理缺失值 107
5.5.2 数据类型转换 108
5.6 数据分析和变换 109
5.6.1 建立分析实用函数 110
5.6.2 分析数据集 113
5.6.3 保存变换后的数据集 130
5.7 接下来的步骤 130
5.7.1 建立特征集 130
5.7.2 选择机器学习算法 131
5.8 总结 131
第6章 信用风险检测和预测——预测分析 133
6.1 预测分析 134
6.2 如何预测信用风险 135
6.3 预测模型中的重要概念 137
6.3.1 准备数据 137
6.3.2 建立预测模型 137
6.3.3 评估预测模型 138
6.4 获取数据 140
6.5 数据处理 141
6.6 特征选择 142
6.7 应用逻辑回归建立模型 144
6.8 应用支持向量机建立模型 148
6.9 应用决策树建立模型 156
6.10 应用随机森林建立模型 161
6.11 应用神经网络建立模型 165
6.12 模型比较和选择 169
6.13 总结 171
第7章 社交媒体分析:分析Twitter数据 172
7.1 社交网络(Twitter) 172
7.2 数据挖掘与社交网络 174
7.2.1 挖掘社交网络数据 175
7.2.2 数据和可视化 176
7.3 从Twitter API开始 179
7.3.1 概览 179
7.3.2 注册应用 180
7.3.3 链接/认证 181
7.3.4 提取推文示例 182
7.4 Twitter数据挖掘 183
7.4.1 常用词汇和关联 186
7.4.2 广泛使用的设备 191
7.4.3 层次聚类 192
7.4.4 主题建模 194
7.5 社交网络数据挖掘带来的挑战 197
7.6 参考文献 198
7.7 总结 198
第8章 Twitter数据的情感分析 200
8.1 理解情感分析 201
8.1.1 情感分析的关键概念 201
8.1.2 方法 204
8.1.3 应用 205
8.1.4 挑战 206
8.2 推文中的情感分析 206
8.2.1 极性分析 208
8.2.2 基于分类的算法 212
8.3 总结 223
译者序
前言
关于作者
关于审稿人
第1章 开始使用R语言和机器学习 1
1.1 探究R的基本内容 2
1.1.1 使用R作为科学计算器 2
1.1.2 向量运算 3
1.1.3 特殊值 5
1.2 R的数据结构 5
1.2.1 向量 6
1.2.2 数组和矩阵 8
1.2.3 列表 13
1.2.4 数据框 16
1.3 使用函数 20
1.3.1 内置函数 20
1.3.2 用户自定义函数 20
1.3.3 以参数形式传递函数 21
1.4 控制代码流 22
1.4.1 使用if、if-else和ifelse语句 22
1.4.2 使用switch语句 23
1.4.3 循环 23
1.5 高级结构 24
1.5.1 lapply和sapply函数 25
1.5.2 apply函数 26
1.5.3 tapply函数 27
1.5.4 mapply函数 28
1.6 进一步使用R 29
1.6.1 获得帮助 29
1.6.2 处理添加包 30
1.7 机器学习基础 30
1.7.1 机器学习——真正的含义是什么 30
1.7.2 机器学习——如何应用于现实世界 31
1.7.3 机器学习算法的类型 32
1.8 总结 33
第2章 让我们进行机器学习 34
2.1 理解机器学习 35
2.2 机器学习算法 35
2.3 算法家族 40
2.3.1 有监督学习算法 41
2.3.2 无监督学习算法 52
2.4 总结 57
第3章 应用市场购物篮分析预测顾客购买趋势 58
3.1 检测和预测趋势 59
3.2 市场购物篮分析 60
3.2.1 市场购物篮分析的真正含义 60
3.2.2 核心概念和定义 60
3.2.3 用于分析的技术 62
3.2.4 制定数据驱动的决策 63
3.3 评估产品列联矩阵 63
3.3.1 获取数据 64
3.3.2 分析和可视化数据 65
3.3.3 整体推荐 66
3.3.4 高级列联矩阵 67
3.4 频繁项集的生成 69
3.4.1 开始 69
3.4.2 数据检索和转换 69
3.4.3 建立项集关联矩阵 70
3.4.4 建立频繁项集生成工作流 72
3.4.5 检测购物趋势 74
3.5 关联规则挖掘 75
3.5.1 加载添加包和数据 76
3.5.2 探索性分析 76
3.5.3 检测和预测购物趋势 77
3.5.4 关联规则可视化 80
3.6 总结 80
第4章 建立产品推荐系统 82
4.1 理解推荐系统 83
4.2 推荐系统存在的问题 83
4.3 协同过滤器 84
4.3.1 核心概念和定义 84
4.3.2 协同过滤算法 85
4.4 建立推荐引擎 87
4.4.1 矩阵分解 88
4.4.2 算法实现 90
4.4.3 解释结果 94
4.5 产品推荐引擎实战 95
4.5.1 提取、转换并分析数据 96
4.5.2 模型准备和预测 99
4.5.3 模型评价 100
4.6 总结 102
第5章 信用风险检测和预测——描述分析 103
5.1 分析的类型 104
5.2 我们将要面临的挑战 104
5.3 什么是信用风险 105
5.4 获取数据 105
5.5 数据处理 107
5.5.1 处理缺失值 107
5.5.2 数据类型转换 108
5.6 数据分析和变换 109
5.6.1 建立分析实用函数 110
5.6.2 分析数据集 113
5.6.3 保存变换后的数据集 130
5.7 接下来的步骤 130
5.7.1 建立特征集 130
5.7.2 选择机器学习算法 131
5.8 总结 131
第6章 信用风险检测和预测——预测分析 133
6.1 预测分析 134
6.2 如何预测信用风险 135
6.3 预测模型中的重要概念 137
6.3.1 准备数据 137
6.3.2 建立预测模型 137
6.3.3 评估预测模型 138
6.4 获取数据 140
6.5 数据处理 141
6.6 特征选择 142
6.7 应用逻辑回归建立模型 144
6.8 应用支持向量机建立模型 148
6.9 应用决策树建立模型 156
6.10 应用随机森林建立模型 161
6.11 应用神经网络建立模型 165
6.12 模型比较和选择 169
6.13 总结 171
第7章 社交媒体分析:分析Twitter数据 172
7.1 社交网络(Twitter) 172
7.2 数据挖掘与社交网络 174
7.2.1 挖掘社交网络数据 175
7.2.2 数据和可视化 176
7.3 从Twitter API开始 179
7.3.1 概览 179
7.3.2 注册应用 180
7.3.3 链接/认证 181
7.3.4 提取推文示例 182
7.4 Twitter数据挖掘 183
7.4.1 常用词汇和关联 186
7.4.2 广泛使用的设备 191
7.4.3 层次聚类 192
7.4.4 主题建模 194
7.5 社交网络数据挖掘带来的挑战 197
7.6 参考文献 198
7.7 总结 198
第8章 Twitter数据的情感分析 200
8.1 理解情感分析 201
8.1.1 情感分析的关键概念 201
8.1.2 方法 204
8.1.3 应用 205
8.1.4 挑战 206
8.2 推文中的情感分析 206
8.2.1 极性分析 208
8.2.2 基于分类的算法 212
8.3 总结 223
前 言
Preface?前 言数据科学和机器学习是当今技术领域中的流行语。从零售商店到世界500强企业,每个人都在努力使用机器学习从庞大的数据中获得有价值的信息,以发展其业务。借助强大的数据处理功能、丰富的机器学习包和活跃的开发者社区,R使用户能够构建复杂的机器学习系统,解决现实世界中的数据问题。
本书将带你踏上数据驱动的旅程,从基础的R和机器学习开始,逐步学习如何解决实际问题。
本书内容第1章概述本书的内容,帮助你熟悉R及其基础知识。该章还简短地介绍机器学习。
第2章通过解释机器学习的基本概念,深入研究机器学习。同时,还呈现各种类型的学习算法,以及现实世界中的一些示例。
第3章开始介绍个项目的部分,使用各种机器学习技术进行电子商务产品推荐、预测和模式分析。该章针对市场购物篮分析和关联规则挖掘,检测客户的购物模式和趋势,使用这些技术进行产品预测和推荐。这些技术在零售企业和电子商务商店(例如Target、Macy’s、Flipkart和Amazon)中广泛使用,用来进行产品推荐。
第4章介绍个项目(电子商务产品推荐、预测和模式分析)的第二部分。该章分析不同用户对电子商务产品的评论和评级,使用算法和技术(例如,用户协同过滤)设计一个推荐系统。
第5章开始介绍第二个项目,将机器学习应用到一个复杂的金融场景中,即处理信用风险检测和预测。该章介绍新的主题,研究1000名向银行申请贷款的用户的金融信用数据集。我们将使用机器学习技术检测具有潜在信用风险以及贷款后可能无法偿还的用户,同时对未来进行预测。该章还详细介绍数据集及其主要特征,讨论处理数据时将面临的主要挑战。后总结适合解决这一问题的机器学习技术。
第6章基于上一章的描述分析继续进行预测分析。这里,我们将使用几种机器学习算法来检测和预测哪些客户具有潜在信用风险,即贷款后可能无法偿还的用户。这终将帮助银行做出数据驱动的决策,决定是否批准贷款申请。我们将涵盖几种有监督学习算法,并比较它们的性能。我们将讨论评估各种机器学习算法的性能和准确度的不同指标。
第7章介绍社交媒体分析。首先,我们将介绍社交媒体和通过Twitter的API收集数据的过程。该章将引导你从推文(tweet)中挖掘有用的信息(包括可视化实际案例的Twitter数据),推文的聚类和主题建模,解决这些问题面临的挑战、复杂度和策略。我们通过例子展示如何使用Twitter数据计算一些强大的度量指标。
第8章根据Twitter API的知识建立一个项目,基于该项目分析推文中的情感。这个项目呈现了多种机器学习算法,用于根据推文的情感进行分类。该章还对这些结果进行比较,帮助你理解这些算法的工作原理和运行结果之间的差异。
本书需要的软/硬件支持以下软件适用于本书的所有章节:
Windows/Mac OS X/LinuxR 3.2.0(或以上)RStudio Desktop 0.99(或以上)对于硬件,没有特定的要求,因为R能在任何Mac、Linux或Windows系统的个人计算机上运行,但是物理内存好不低于4GB,这样一些迭代算法可以更快地运行。
本书适用对象如果你对使用先进的技术从数据中挖掘有用信息来进行数据驱动决策感兴趣,那么本书将指导你如何实现。虽然R的基本知识非常有用,但是在阅读本书时,不需要掌握数据科学的先验经验。掌握机器学习的先验知识十分有用,但这不是必要的。
本书约定正文中的码字、数据库表名、文件夹名、文件名、文件扩展名、路径名、虚拟URL、用户输入和Twitter句柄如下所示:“我们可以使用include命令包括其他上下文。”
命令行的输入或输出如下所示:
新的术语(new term)和重要词(important word)以粗体显示。
警告或者重要注释。
提示和技巧。
下载示例代码你可以在网站http://www.packtpub.com上从你的账户中下载本书的示例代码文件。如果你在其他地方购买了这本书,你可以访问http://www.packtpub.com/support网站并注册,就可以通过电子邮件方式获得相关的文件。
你也可以访问华章图书官网:http://www.hzbook.com,通过注册并登录个人账号,下载本书的源代码。
下载本书的彩图我们还在一个PDF文件中向你提供了本书中屏幕截图和图表的彩色版本。彩色图片可以帮助你更好地理解输出中的变化关系。可以从http://www.packtpub.com/ sites/default/files/downloads/Machine_Learning_With_R_Second_Edition_ ColoredImages.pdf下载这个文件。
本书将带你踏上数据驱动的旅程,从基础的R和机器学习开始,逐步学习如何解决实际问题。
本书内容第1章概述本书的内容,帮助你熟悉R及其基础知识。该章还简短地介绍机器学习。
第2章通过解释机器学习的基本概念,深入研究机器学习。同时,还呈现各种类型的学习算法,以及现实世界中的一些示例。
第3章开始介绍个项目的部分,使用各种机器学习技术进行电子商务产品推荐、预测和模式分析。该章针对市场购物篮分析和关联规则挖掘,检测客户的购物模式和趋势,使用这些技术进行产品预测和推荐。这些技术在零售企业和电子商务商店(例如Target、Macy’s、Flipkart和Amazon)中广泛使用,用来进行产品推荐。
第4章介绍个项目(电子商务产品推荐、预测和模式分析)的第二部分。该章分析不同用户对电子商务产品的评论和评级,使用算法和技术(例如,用户协同过滤)设计一个推荐系统。
第5章开始介绍第二个项目,将机器学习应用到一个复杂的金融场景中,即处理信用风险检测和预测。该章介绍新的主题,研究1000名向银行申请贷款的用户的金融信用数据集。我们将使用机器学习技术检测具有潜在信用风险以及贷款后可能无法偿还的用户,同时对未来进行预测。该章还详细介绍数据集及其主要特征,讨论处理数据时将面临的主要挑战。后总结适合解决这一问题的机器学习技术。
第6章基于上一章的描述分析继续进行预测分析。这里,我们将使用几种机器学习算法来检测和预测哪些客户具有潜在信用风险,即贷款后可能无法偿还的用户。这终将帮助银行做出数据驱动的决策,决定是否批准贷款申请。我们将涵盖几种有监督学习算法,并比较它们的性能。我们将讨论评估各种机器学习算法的性能和准确度的不同指标。
第7章介绍社交媒体分析。首先,我们将介绍社交媒体和通过Twitter的API收集数据的过程。该章将引导你从推文(tweet)中挖掘有用的信息(包括可视化实际案例的Twitter数据),推文的聚类和主题建模,解决这些问题面临的挑战、复杂度和策略。我们通过例子展示如何使用Twitter数据计算一些强大的度量指标。
第8章根据Twitter API的知识建立一个项目,基于该项目分析推文中的情感。这个项目呈现了多种机器学习算法,用于根据推文的情感进行分类。该章还对这些结果进行比较,帮助你理解这些算法的工作原理和运行结果之间的差异。
本书需要的软/硬件支持以下软件适用于本书的所有章节:
Windows/Mac OS X/LinuxR 3.2.0(或以上)RStudio Desktop 0.99(或以上)对于硬件,没有特定的要求,因为R能在任何Mac、Linux或Windows系统的个人计算机上运行,但是物理内存好不低于4GB,这样一些迭代算法可以更快地运行。
本书适用对象如果你对使用先进的技术从数据中挖掘有用信息来进行数据驱动决策感兴趣,那么本书将指导你如何实现。虽然R的基本知识非常有用,但是在阅读本书时,不需要掌握数据科学的先验经验。掌握机器学习的先验知识十分有用,但这不是必要的。
本书约定正文中的码字、数据库表名、文件夹名、文件名、文件扩展名、路径名、虚拟URL、用户输入和Twitter句柄如下所示:“我们可以使用include命令包括其他上下文。”
命令行的输入或输出如下所示:
新的术语(new term)和重要词(important word)以粗体显示。
警告或者重要注释。
提示和技巧。
下载示例代码你可以在网站http://www.packtpub.com上从你的账户中下载本书的示例代码文件。如果你在其他地方购买了这本书,你可以访问http://www.packtpub.com/support网站并注册,就可以通过电子邮件方式获得相关的文件。
你也可以访问华章图书官网:http://www.hzbook.com,通过注册并登录个人账号,下载本书的源代码。
下载本书的彩图我们还在一个PDF文件中向你提供了本书中屏幕截图和图表的彩色版本。彩色图片可以帮助你更好地理解输出中的变化关系。可以从http://www.packtpub.com/ sites/default/files/downloads/Machine_Learning_With_R_Second_Edition_ ColoredImages.pdf下载这个文件。
评论
还没有评论。