描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111757214
R语言是源代码开放、功能强大的数据分析软件,它在数据清洗与探索、数据分析与建模、数据可视化、机器学习、深度学习等方面具有优秀的表现,广泛应用于数学、统计学、数据科学、计算机科学、人工智能、云计算、生物医学、工业统计等方向,发展前景十分广阔。本书结合作者多年的科研与教学经验,将数据科学基础理论与其应用相结合,内容编排由点到面、由易到难,并通过实际操作演示讲授理论知识,帮助读者快速掌握利用R语言进行数据分析和数据挖掘的技能。
本书是一本数据科学的入门与提升教程,全书共5篇,按照由浅入深、循序渐进的方式介绍R语言的基本语法与实际应用,并结合现实数据进行实战操作。内容涵盖R语言的安装与运行、数据对象的创建与编程、R语言初级与高级绘图、数据的管理与清洗、统计分析与数据降维、无监督与有监督学习、利用R Markdown创建动态报告和制作幻灯片等。本书为读者提供了相关案例的源码(获取方式见封底)。
本书适合对数据可视化、统计建模、数据分析、数据挖掘感兴趣的研究人员和工程技术人员阅读,也可作为高等院校数学、统计学、数据科学、计算机科学、人工智能、云计算、大数据分析、生物医学、工业统计等方向本科生或研究生的参考教程。
前言
第一篇 R语言入门
第1章 R语言简介/
1.1R语言的下载与运行/
1.2RStudio安装与设置/
1.3R语言包/
1.4数据类型与运算符/
1.5运行R语言代码/
1.6本章小结/
第2章 R语言数据对象/
2.1向量/
2.1.1数值型/
2.1.2逻辑型/
2.1.3缺失值/
2.1.4字符型/
2.1.5因子型/
2.1.6类型转换/
2.2矩阵与高维数组/
2.2.1矩阵/
2.2.2高维数组/
2.3数据框/
2.3.1生成数据框/
2.3.2数据框操作/
2.4列表/
2.4.1生成列表/
2.4.2列表操作/
2.5时间数据/
2.5.1基础包处理时间数据/
2.5.2lubridate包处理时间数据/
2.6本章小结/
第3章 程序编写与函数/
3.1条件判断语句/
3.1.1if语句/
3.1.2ifelse语句/
3.2循环语句/
3.2.1for循环/
3.2.2while循环/
3.2.3repeat循环/
3.3内置函数/
3.3.1常用的数学函数/
3.3.2常用的字符串处理函数/
3.3.3常用的统计函数/
3.4自定义函数/
3.4.1函数语法/
3.4.2函数编写/
3.4.3函数调试/
3.5本章小结/
第二篇 R语言数据整理实战
第4章 数据读写与管理/
4.1数据导入与保存/
4.2从文件中导入数据/
4.2.1导入带有分隔符的数据/
4.2.2导入Excel表格数据/
4.2.3导入SPSS数据/
4.2.4导入SAS数据/
4.2.5导入MATLAB数据/
4.2.6导入Stata数据/
4.2.7使用RStudio菜单导入数据/
4.3网络爬虫爬取数据/
4.3.1从网页中获取链接和表格/
4.3.2从网页中获取文本/
4.3.3从网页中获取图片/
4.4图像数据管理/
4.4.1读取图像/
4.4.2图像操作/
4.5数据并行计算/
4.5.1apply()函数的使用/
4.5.2lapply()函数的使用/
4.5.3sapply()和vapply()函数的使用/
4.5.4tapply()和mapply()函数的使用/
4.6本章小结/
第5章 数据清洗与操作/
5.1处理缺失值/
5.1.1发现缺失值/
5.1.2缺失值分布可视化/
5.1.3缺失值填补/
5.2dplyr数据操作/
5.2.1管道操作/
5.2.2数据选择/
5.2.3数据过滤/
5.2.4数据修改/
5.2.5数据排序/
5.2.6数据分组/
5.2.7数据融合/
5.3长宽数据转换/
5.3.1tidyr包长宽数据转换/
5.3.2reshape2包长宽数据转换/
5.4文本处理/
5.4.1正则表达式/
5.4.2stringr包文本操作/
5.4.3中文文本预处理/
5.5本章小结/目录
第三篇 R语言数据可视化实战
第6章 R语言基础绘图/
6.1图形的基础设置/
6.1.1图形的形状和线条/
6.1.2图形的坐标系/
6.1.3图形的颜色/
6.1.4图形的文本/
6.2基础图形可视化/
6.2.1散点图与线图/
6.2.2直方图与条形图/
6.2.3箱线图与平滑散点图/
6.2.4三维图形/
6.3子图可视化/
6.3.1图形窗口设计/
6.3.2绘制子图/
6.4本章小结/
第7章 ggplot2数据可视化/
7.1ggplot2简介/
7.1.1图形语法/
7.1.2qplot快速绘图/
7.2使用图层构建图形/
7.2.1几何对象/
7.2.2theme函数/
7.2.3统计变换/
7.2.4位置调整/
7.2.5形状和大小/
7.3ggplot2可视化进阶/
7.3.1主题/
7.3.2颜色/
7.3.3分面/
7.3.4坐标系/
7.3.5可视化地图/
7.4ggplot2数据可视化案例/
7.5本章小结/
第8章 R语言高级绘图/
8.1plotly可交互图形可视化/
8.1.1可交互统计图/
8.1.2可交互图形添加控件/
8.1.3制作可交互动画/
8.2ggplot2拓展包可视化/
8.2.1cowplot包可视化/
8.2.2ggfortify包可视化/
8.2.3ComplexUpset包可视化/
8.3特殊图形可视化/
8.3.1圆环条形图/
8.3.2弧形图/
8.4本章小结/
第四篇 R语言数据建模实战
第9章 基础统计分析/
9.1概率分布与抽样/
9.1.1随机数生成/
9.1.2概率分布/
9.1.3数据抽样/
9.2数据描述性统计/
9.2.1数据的变量类型/
9.2.2数据描述汇总/
9.2.3频数和列联表/
9.3数据相关性分析/
9.3.1Pearson相关性系数/
9.3.2Spearman秩相关性系数/
9.3.3Kendall相关性系数/
9.4假设检验/
9.4.1数据分布检验/
9.4.2t检验/
9.5方差分析/
9.5.1单因素方差分析/
9.5.2双因素方差分析/
9.5.3多变量方差分析/
9.6本章小结/
第10章 回归分析/
10.1一元线性回归/
10.1.1一元线性回归模型/
10.1.2一元线性回归实例/
10.2一元非线性回归/
10.2.1多项式回归/
10.2.2非线性最小二乘回归/
10.2.3样条模型/
10.3多元线性回归/
10.3.1回归模型的建立/
10.3.2回归诊断/
10.3.3异常值分析/
10.3.4改进回归模型/
10.4逐步回归/
10.4.1直接逐步回归/
10.4.2剔除异常值逐步回归/
10.5逻辑回归/
10.5.1用逻辑回归进行数据分类/
10.5.2逐步逻辑回归分析/
10.6本章小结/
第11章 特征提取与降维/
11.1主成分分析/
11.1.1判断主成分的个数/
11.1.2提取主成分得分/
11.1.3主成分得分系数/
11.1.4核主成分分析/
11.2因子分析/
11.2.1确定因子个数/
11.2.2提取公共因子/
11.3多维尺度分析/
11.3.1MDS数据降维/
11.3.2计算样本的空间位置/
11.4tSNE降维/
11.4.1tSNE数据降维案例/
11.4.2调整tSNE算法的困惑度/
11.5本章小结/
第五篇 R语言数据挖掘实战
第12章 无监督学习/
12.1聚类分析/
12.1.1选择合适的聚类数目/
12.1.2K均值与K中值聚类/
12.1.3层次聚类/
12.1.4密度聚类/
12.1.5模糊聚类/
12.2离群点检测/
12.2.1LOF离群点检测/
12.2.
党的十九届四中全会指出:“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制。”这是我国首次将数据列为新的生产要素,体现了互联网大数据时代的新特征。如何快速地收集、整理海量数据,并从中发现、提取有用信息,是数据科学所面临的重要课题。R语言是源代码开放、功能强大的数据分析软件,它在数据清洗与探索、数据分析与建模、数据可视化、机器学习、深度学习等方面具有优秀的表现,广泛应用于数学、统计学、数据科学、计算机科学、人工智能、云计算、生物医学、工业统计等方向,发展前景十分广阔。本书结合作者多年的科研与教学经验,将数据科学基础理论与其应用相结合,内容编排由点到面、由易到难,并通过实际操作演示讲授理论知识,帮助读者快速掌握利用R语言进行数据分析和数据挖掘的技能。
本书内容
R语言入门知识:第1~3章为R语言入门知识部分,主要介绍R语言的数据对象和程序编写,内容包括R语言和RStudio的安装与运行、R语言的数据对象、控制语句、内置函数、编写函数、程序调试等。
数据管理与预处理:第4~5章为R语言数据管理与预处理部分,主要介绍如何获取、清洗和管理数据,内容包括外部数据的读取和保存、利用爬虫获取数据、图像数据的读取与操作、利用apply()函数族对数据进行并行计算、缺失值处理、数据管道操作、长宽数据变换,以及对文本数据的预处理等。
基础绘图与语法绘图:第6~7章主要介绍如何使用graphics进行基础绘图,使用ggplot2包进行基于图形语法的绘图,它是数据可视化的重点内容,包括ggplot2包的几何对象生成、统计变换、分面和颜色设置、坐标系变换、绘制地图等方法,以及综合利用ggplot2包的可视化功能进行案例分析。
R语言高级绘图:第8章为R语言数据可视化的进阶内容,内容包括plotly包可交互图像可视化、ggplot2拓展包可视化,以及可交互图等特殊统计图形的可视化等。
统计分析与数据建模:第9~10章为数据的统计建模部分,主要介绍常见统计分析方法的R语言实现,内容包括概率和分布、描述性统计、相关性分析、假设检验、方差分析、一元线性和非线性回归、多元线性回归、逐步回归、逻辑回归等。
特征提取与数据降维:第11章从实战出发,结合真实的数据集,介绍在数据分析时如何进行特征提取和数据降维处理,内容包括主成分分析、因子分析、多维尺度分析,以及tSNE等数据降维方法的R语言实现。
无监督与有监督学习:第12~13章主要介绍如何使用无监督和有监督学习对数据进行聚类、分类等,内容包括K均值聚类、模糊聚类、LOF和COF离群点检测、关联规则分析、决策树与随机森林分类、支持向量机分类等。
创建报告与幻灯片:第14章为R语言的拓展提升内容,主要介绍如何利用R Markdown输出动态数据分析报告、利用R Markdown制作幻灯片等,以便于R语言程序及分析结果的移植和分享。
本书特色
内容全面,重点突出:本书包括R语言的安装与运行、数据对象的创建与编程、初级与高级绘图、数据管理与清洗、统计分析、特征提取与数据降维、聚类分析、离群点检测、关联分析、有监督分类、自动创建数据分析报告等,基本覆盖了数据整理、数据可视化、数据建模和数据挖掘方面的大部分内容,并做到了重点难点突出。
内容简单,“小白”能懂:本书采用入门、初级、中级、高级、拓展的知识结构,内容由浅入深、循序渐进,符合认知规律,遵循数据处理流程,便于没有任何数据科学基础、很少接触计算机语言的读者学习使用,为一本“小白”也能看懂的书。
内容新颖,注重时效:本书采用主流的R语言包,关注前沿热点,紧跟时代潮流,使用当前热门的真实数据,案例的选取具有代表性、时代性。
问题驱动,强调实战:本书在内容安排上按照问题的背景与动机、原理与方法、实例分析以及计算机实现的顺序来编写,注重基础知识的讲解,理论介绍言简意赅,突出实战操作,使读者可以实现“照葫芦画瓢”“拿来即可用”的方式学习。
案例丰富,注解详细:本书选用了大量真实案例,每章均配有相应的示例代码和详细注释,并配有操作流程提示,便于读者自己动手练习。
章首导读,思路清晰:本书每章都有本章导读,并配有知识技能的思维导图,内容结构一目了然,便于读者从整体上理解所学内容。
在线答疑,贴心服务:本书提供在线服务QQ群(群号:689669836),方便作者和读者零距离交流,在群里相互帮助,共同解决学习中遇到的问题。
学习资源
配套资源:本书所有内容和案例均配有操作代码与数据文件,读者可下载后自己动手练习(下载方式见封底)。
拓展资源:本书提供的源码文件中还包含书中未列的其他相关代码,这些代码可用于方法的对比分析,便于读者拓展和提高。
作者
评论
还没有评论。