描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787113257453
第1 章 R 语言简介
1.1 R 语言软件的安装与运行…………………………………………………………………………………….
1
1.1.1 R 语言软件的安装、启动与关闭…………………………………………………………………
1
1.1.2 R 语言程辑包的安装和使用……………………………………………………………………….
4
1.2 R 语言的数据结构……………………………………………………………………………………………….
6
1.2.1 R 语言对象和类型…………………………………………………………………………………….
6
1.2.2 向量…………………………………………………………………………………………………………
7
1.2.3 数组和矩阵……………………………………………………………………………………………..
12
1.2.4 列表……………………………………………………………………………………………………….
17
1.2.5 数据框……………………………………………………………………………………………………
20
第2 章
数据的读取与保存
2.1 数据的读取……………………………………………………………………………………………………….
24
2.1.1 读取内置数据集和文本文件……………………………………………………………………..
24
2.1.2 读取Excel 数据和CSV 格式的数据…………………………………………………………..
30
2.1.3 读取R 语言格式数据和网页数据………………………………………………………………
33
2.1.4 读取其他格式的数据……………………………………………………………………………….
34
2.2 数据保存…………………………………………………………………………………………………………..
36
2.2.1 写出数据………………………………………………………………………………………………..
36
2.2.2 使用函数cat()
…………………………………………………………………………………………
37
2.2.3 保存为R 语言格式文件……………………………………………………………………………
38
2.2.4 保存为其他类型文件……………………………………………………………………………….
39
第3 章
数据预处理
3.1 缺失值处理……………………………………………………………………………………………………….
40
3.1.1 缺失值判断……………………………………………………………………………………………..
40
3.1.2 缺失模型判断………………………………………………………………………………………….
44
3.1.3 常用处理方法………………………………………………………………………………………….
48
3.2 数据整理…………………………………………………………………………………………………………..
53
3.2.1 数据合并………………………………………………………………………………………………..
53
3.2.2 选取子集………………………………………………………………………………………………..
56
3.2.3 数据转换………………………………………………………………………………………………..
59
第4 章
数据的探索性分析
4.1 基本绘图函数……………………………………………………………………………………………………
66
4.2 探索单个变量……………………………………………………………………………………………………
74
4.2.1 单组数据的图形描述……………………………………………………………………………….
74
4.2.2 单组数据的描述性分析……………………………………………………………………………
79
4.3 探索多个变量……………………………………………………………………………………………………
81
4.3.1 两组数据的图形描述……………………………………………………………………………….
81
4.3.2 多组数据的图形描述……………………………………………………………………………….
85
4.3.3 多组数据的描述性统计……………………………………………………………………………
88
4.4 其他图像探索……………………………………………………………………………………………………
90
第5 章
回归分析
5.1 一元线性回归……………………………………………………………………………………………………
94
5.1.1 模型简介………………………………………………………………………………………………..
94
5.1.2 函数介绍………………………………………………………………………………………………..
96
5.1.3 综合案例:iris 数据集的一元回归建模……………………………………………………..
97
5.2 多元线性回归……………………………………………………………………………………………………
99
5.2.1 模型简介………………………………………………………………………………………………..
99
5.2.2 综合案例:iris 数据集的多元回归建模……………………………………………………
100
5.3 变量的选择……………………………………………………………………………………………………..
105
5.3.1 逐步回归方法简介及函数介绍………………………………………………………………..
105
5.3.2 综合案例:swiss 数据集的逐步回归建模…………………………………………………
106
5.3.3 岭回归的方法简介及函数介绍………………………………………………………………..
109
5.3.4 综合案例:longley 数据集的岭回归探索………………………………………………….
110
5.3.5 lasso 回归方法简介及函数介绍……………………………………………………………….
114
5.3.6 综合案例:longley 数据集的lasso 回归建模…………………………………………….
115
5.4 Logistic 回归……………………………………………………………………………………………………
117
5.4.1 模型简介………………………………………………………………………………………………
117
5.4.2 函数介绍………………………………………………………………………………………………
119
5.4.3 综合案例:iris 数据集的逻辑回归建模……………………………………………………
120
第6 章
方差分析
6.1 单因素方差分析………………………………………………………………………………………………
124
6.1.1 模型介绍………………………………………………………………………………………………
124
6.1.2 函数介绍………………………………………………………………………………………………
126
6.1.3 综合案例:不同治疗方法下胆固醇降低效果的差异性分析………………………. 127
6.2 双因素方差分析………………………………………………………………………………………………
130
6.2.1 模型介绍………………………………………………………………………………………………
130
6.2.2 综合案例:不同剂量下老鼠妊娠重量的差异性分析…………………………………. 132
6.3 协方差分析……………………………………………………………………………………………………..
136
6.3.1 模型简介………………………………………………………………………………………………
136
6.3.2 函数介绍………………………………………………………………………………………………
136
6.3.3 综合案例:hotdog 数据集的协方差分析…………………………………………………..
137
第7 章
主成分分析和因子分析
7.1 降维的基本方法:主成分分析………………………………………………………………………….
139
7.1.1 理论基础:原始变量的线性组合…………………………………………………………….
139
7.1.2 模型介绍………………………………………………………………………………………………
141
7.1.3 函数介绍………………………………………………………………………………………………
143
7.1.4 综合案例:longley 数据集的变量降维及回归…………………………………………..
144
7.1.5 综合案例:longley 数据集的变量降维及回归(主成分回归)………………….. 148
7.2 推广发展:因子分析……………………………………………………………………………………….
150
7.2.1 理论基础:多个变量综合为少数因子………………………………………………………
150
7.2.2 模型介绍………………………………………………………………………………………………
151
7.2.3 函数介绍………………………………………………………………………………………………
153
7.2.4 综合案例:能力和智商测试的因子分析探索……………………………………………
154
第8 章
判别分析
8.1 距离判别法……………………………………………………………………………………………………..
160
8.1.1 理论基础:离谁近,就属于谁………………………………………………………………..
160
8.1.2 函数介绍………………………………………………………………………………………………
162
8.1.3 综合案例:基于距离判别的iris 数据集分类…………………………………………….
164
8.2 Bayes 判别法…………………………………………………………………………………………………..
168
8.2.1 理论基础:先验概率与错判损失…………………………………………………………….
168
8.2.2 函数介绍………………………………………………………………………………………………
170
8.2.3 综合案例:基于iris 数据集的Bayes 判别分析…………………………………………
171
8.3 Fisher 判别法…………………………………………………………………………………………………..
171
8.3.1 理论基础:投影…………………………………………………………………………………….
171
8.3.2 函数介绍………………………………………………………………………………………………
173
8.3.3 综合案例:基于Fisher 判别的iris 数据集分类…………………………………………
174
第9 章
常规聚类分析
9.1 深入了解聚类分析…………………………………………………………………………………………..
178
9.1.1 差异与分类……………………………………………………………………………………………
178
9.1.2 主流的聚类算法…………………………………………………………………………………….
179
9.2 动态聚类…………………………………………………………………………………………………………
180
9.2.1 聚类的基本过程…………………………………………………………………………………….
180
9.2.2 函数介绍………………………………………………………………………………………………
183
9.2.3 综合案例:基于随机生成序列的动态聚类……………………………………………….
184
9.3 层次聚类…………………………………………………………………………………………………………
194
9.3.1 聚类的基本过程…………………………………………………………………………………….
194
9.3.2 函数介绍………………………………………………………………………………………………
197
9.3.3 综合案例:基于UScitiesD 数据集的层次聚类………………………………………….
199
9.4 密度聚类…………………………………………………………………………………………………………
202
9.4.1 聚类的基本过程…………………………………………………………………………………….
202
9.4.2 函数介绍………………………………………………………………………………………………
202
9.4.3 综合案例:基于随机生成序列的密度聚类……………………………………………….
203
9.5 EM 聚类………………………………………………………………………………………………………….
204
9.5.1 聚类的基本过程…………………………………………………………………………………….
205
9.5.2 函数介绍………………………………………………………………………………………………
205
9.5.3 综合案例:基于iris 数据集的EM 聚类……………………………………………………
206
第10 章
关联规则
10.1 简单关联规则………………………………………………………………………………………………..
210
10.1.1 基本概念与表示形式……………………………………………………………………………
210
10.1.2 评价简单关联规则的有效性和实用性…………………………………………………….
211
10.2 序列关联规则………………………………………………………………………………………………..
212
10.2.1 差异与基本概念…………………………………………………………………………………..
212
10.2.2 生成序列关联规则……………………………………………………………………………….
213
10.3 Apriori 算法…………………………………………………………………………………………………..
214
10.3.1 算法介绍:挖掘频繁项集……………………………………………………………………..
214
10.3.2 函数介绍…………………………………………………………………………………………….
215
10.3.3 综合案例:基于Titanic 数据集的关联规则挖掘……………………………………..
216
10.4 Eclat 算法……………………………………………………………………………………………………..
224
10.4.1 算法介绍:自底向上的搜索………………………………………………………………….
224
10.4.2 函数介绍…………………………………………………………………………………………….
224
10.4.3 综合案例:基于美国人口调查数据的关联规则挖掘……………………………….. 225
10.5 SPADE 算法…………………………………………………………………………………………………..
230
10.5.1 算法介绍:基于序列格的搜索和连接…………………………………………………….
231
10.5.2 函数介绍…………………………………………………………………………………………….
232
10.5.3 综合案例:基于zaki 数据集的序列关联规则挖掘…………………………………..
233
第11 章
神经网络
11.1 深入了解人工神经网络…………………………………………………………………………………..
239
11.1.1 生物神经元………………………………………………………………………………………….
240
11.1.2 人工神经元模型…………………………………………………………………………………..
241
11.1.3 人工神经网络种类……………………………………………………………………………….
244
11.1.4 建立模型的一般步骤…………………………………………………………………………….
247
11.2 B-P 反向传播网络………………………………………………………………………………………….
248
11.2.1 B-P 反向传播网络模型…………………………………………………………………………
248
11.2.2 算法介绍……………………………………………………………………………………………..
249
11.2.3 函数介绍……………………………………………………………………………………………..
250
11.3 综合案例:基于Boston 数据的波士顿郊区房价预测建模…………………………………. 252
随着互联网技术的蓬勃发展,物联网、车联网和云计算等技术的日益成熟,人
们的生活环境逐渐由一个数字化的网络体系覆盖。近年来,大数据、机器学习、人
工智能等词汇不断出现在大众的视野中,而“数据挖掘”作为实现上述目标的核心
利器,不容置疑地成为了数据分析者必须掌握的“关键技术”。
然而,直接接触或学习这项“关键技术”都是较为困难的,因为其本身涵盖了
数学、统计学、算法编程等不同专业领域的知识,如何克服这种困难,如何在一本
书中既讲清必要的理论知识,又能够使读者能够快速上手操作并在操作中学习更多
的知识,成为一名数据分析达人,这是本书要解决的。
本书作者借助于多年的知识积累和实务工作经验,将数据分析和挖掘的各种“干
货”浓缩于本书中,其中囊括了大量精美的图表与案例分析,行文深入浅出、图文
并茂,将枯燥生硬的理论知识与案例分析相结合,便于读者更快地吸收知识并学以
致用。本书抛开深奥的理论化条文,除了必备的基础理论知识介绍外,绝不贪多求
全,特别强调实务操作、快速上手,绝不囿于示意与演示,更注重实战展示——从
R 语言软件的安装、数据的获取、数据的预处理、数据的探索性分析到回归分析等
数据分析的方法,再到常规聚类等典型的数据挖掘工具和方法,随着本书内容的一
步步深入,读者将真正体会到数据挖掘的精髓和乐趣所在。
本书特色
1.内容体系由浅入深、详略得当,行文安排适用于不同基础的读者
本书内容涵盖了软件安装、数据获取、数据预处理、数据的探索性分析等基础
内容以帮助基础较为薄弱的初学者尽快入门,而后介绍了数据分析的一些强有力工
具,如回归分析、方差分析、主成分分析、因子分析和判别分析等数据分析的方法,
最后将所有知识综合起来形成真正的数据挖掘知识体系。本书对基础部分的细节进
行详细介绍,对较为高深的理论知识和算法进行了简单的介绍,这种由浅入深、详
略得当的行文安排适用于基础不尽相同的读者。
2.内容切实可用,辅以大量实例,便于读者更快地掌握核心技术
本书注重实战操作,在基础部分进行详细讲解,如软件安装和数据处理等,均
给出了实打实的教程,而在数据分析和挖掘技术的相关章节介绍中均采用了实例分
Foreword
2 R
语言数据分析与挖掘实战手册
析,案例中的数据方便易得、真实可靠,在案例分析中按照数据挖掘的基本步骤进
行,对分析结果进行详细解读,便于读者更好地理解和掌握每一章的核心技术。
3.将分析结果进行可视化展示,激发读者的阅读兴趣
本书采用较多的可视化展示,从算法介绍到实例分析,尽量采用图片的形式进
行解读,以帮助读者从繁琐的文字描述中“解脱”出来,尤其是实例分析部分,将
能够进行可视化展示的部分转化成图片形式,并配以简明扼要的文字解说,以便读
者更加深刻地理解每一章的内容。需要强调的是,在行业应用中,数据挖掘的结果
大多以图片的形式汇总为可视化报告,因此本书的初衷就是建立与行业应用的更多
联系。
二维码下载包
为了便于读者习,我们把全书源代码以及书中图片的彩色版放入二维码下载包
中,供读者下载使用。
本书读者对象
数据分析师
统计专业的本科生
经管类专业的研究生
R 语言的编程爱好者
因受作者水平和篇幅所限,本书难免存有疏漏和不当之处,敬请指正。
评论
还没有评论。