描述
开 本: 大32开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787115478788丛书名: 图灵程序设计丛书
2.网罗数据挖掘中10种经典、常用的方法!
回归分析/Logistic回归分析/决策树分析/支持向量机/记忆基础推理/聚类分析/自组织映射/主成分分析/对应分析/关联规则分析
3.图文并茂,示例丰富,结合可下载的R代码和数据,让你亲自体验数据挖掘的流程!
如何预测邮件是否为垃圾邮件?
如何判断顾客会同时购买哪些商品?
如何根据股价数据判断经济的景气程度?
如何从SNS获取数据并分析?
……
大数据时代,必须了解数据挖掘!
本书首先介绍R的基础知识以及使用R进行数据挖掘的流程;然后结合具体示例、代码和图表介绍数据挖掘的10种常用方法;* 后介绍数据挖掘的实战案例,涉及多种方法的比较以及实际的大规模数据的分析。本书详略得当,脉络清晰,让你轻松入门数据挖掘。
第I部分 使用R进行数据挖掘的准备 1
* 1章 基于R的数据分析入门……………………………………………………..3
1.1 R及RStudio的安装……………………………………………………………………….4
1.2 RStudio的基本操作………………………………………………………………………..6
1.3 R语言入门…………………………………………………………………………………….10
1.3.1 作为计算器使用的方法………………………………………………………………10
1.3.2 向量——R的基本数据结构……………………………………………………….11
1.3.3 向量变量的赋值和运算………………………………………………………………12
1.3.4 数组和矩阵…………………………………………………………………………………13
1.3.5 因子型………………………………………………………………………………………..15
1.3.6 列表……………………………………………………………………………………………16
1.3.7 数据框………………………………………………………………………………………..17
1.4 获取外部数据………………………………………………………………………………..18
1.5 数据汇总………………………………………………………………………………………..19
1.6 安装程序包…………………………………………………………………………………….21
1.7 基于dplyr程序包的数据框操作………………………………………………….22
1.8 数据的可视化………………………………………………………………………………..25
1.8.1 柱状图………………………………………………………………………………………..26
1.8.2 直方图………………………………………………………………………………………..29
1.8.3 箱形图………………………………………………………………………………………..30
1.8.4 散点图………………………………………………………………………………………..32
1.8.5 逐层绘制的图……………………………………………………………………………..34
* 2章 数据挖掘概述……………………………………………………………………….36
2.1 大数据和数据挖掘………………………………………………………………………..36
2.2.1 业务理解(Business Understanding)……………………………………….37
2.2 CRISP-DM……………………………………………………………………………………37
2.2.2 数据理解(Data Understanding)……………………………………………….38
2.2.3 数据准备(Data Preparation)……………………………………………………38
2.2.4 建模(Modeling)……………………………………………………………………….39
2.2.5 评估(Evaluation)……………………………………………………………………..39
2.2.6 运用(Deployment)…………………………………………………………………..39
2.3.1 数据的种类和建模……………………………………………………………………..40
2.3 数据挖掘的方法…………………………………………………………………………….40
2.3.2 预测和判别…………………………………………………………………………………41
2.3.3 分类和聚类…………………………………………………………………………………41
2.3.4 维规约………………………………………………………………………………………..41
2.3.5 规则发现…………………………………………………………………………………….41
第II部分 数据挖掘的方法 43
第3章 回归分析………………………………………………………………………………..45
3.1 一元回归分析………………………………………………………………………………..45
3.2 多元回归分析………………………………………………………………………………..50
第4章 Logistic回归分析………………………………………………………………..60
4.1 数据准备………………………………………………………………………………………..60
4.2 使用一个解释变量进行预测…………………………………………………………61
4.3 使用两个及以上的解释变量进行预测…………………………………………67
第5章 决策树分析……………………………………………………………………………71
5.1 使用分类树的判别………………………………………………………………………..71
5.2 使用回归树的预测………………………………………………………………………..77
第6章 支持向量机……………………………………………………………………………81
6.1 支持向量机的概念………………………………………………………………………..81
6.2 类别预测的例子…………………………………………………………………………….83
6.3 数值预测的例子…………………………………………………………………………….86
第7章 记忆基础推理……………………………………………………………………….89
7.1 k* 近邻法的概念…………………………………………………………………………89
7.2 变量的基准化和标准化………………………………………………………………..94
第8章 聚类分析………………………………………………………………………………..96
8.1 聚类分析的概念…………………………………………………………………………….96
8.2 层次聚类分析………………………………………………………………………………..97
8.3 执行层次聚类分析………………………………………………………………………..99
8.4 可视化进阶…………………………………………………………………………………..103
8.5 非层次聚类分析…………………………………………………………………………..107
8.6 执行非层次聚类分析…………………………………………………………………..107
第9章 自组织映射…………………………………………………………………………110
9.1 自组织映射的概念………………………………………………………………………110
9.2 基于自组织映射的分析实例……………………………………………………….111
9.3 基于自组织映射的分类………………………………………………………………120
* 10章 主成分分析………………………………………………………………………129
10.1 主成分分析的概念…………………………………………………………………….129
10.2 对象数据的准备………………………………………………………………………..132
10.3 执行主成分分析………………………………………………………………………..135
* 11章 对应分析…………………………………………………………………………..141
11.1 对应分析…………………………………………………………………………………….141
11.2 多重对应分析…………………………………………………………………………….144
* 12章 关联规则分析………………………………………………………………….149
12.1 关联规则及其评价指标…………………………………………………………….149
12.2 关联规则分析的实例………………………………………………………………..151
12.3 关联规则分析的应用实例…………………………………………………………159
第III部分 数据挖掘实战 165
* 13章 对各种预测方法的评估………………………………………………..167
13.1 关于预测方法的评估………………………………………………………………..167
13.2 类别预测的判别方法的比较…………………………………………………….168
13.2.1 Logistic回归分析…………………………………………………………………..168
13.2.2 决策树分析…………………………………………………………………………….173
13.2.3 支持向量机…………………………………………………………………………….175
13.3 数值预测方法的比较………………………………………………………………..176
13.3.1 多元回归分析…………………………………………………………………………176
13.3.2 决策树分析…………………………………………………………………………….178
13.3.3 支持向量机…………………………………………………………………………….180
* 14章 用股价数据生成综合指数……………………………………………181
14.1 获取股价数据…………………………………………………………………………….181
14.2 根据股价数据生成综合指数…………………………………………………….183
* 15章 SNS数据的分析…………………………………………………………….189
15.1 微博API…………………………………………………………………………………….189
15.2 通过R获取微博信息……………………………………………………………….192
15.3 分词及词频统计………………………………………………………………………..195
15.4 词云图………………………………………………………………………………………..197
评论
还没有评论。