描述
开 本: 大16开纸 张: 胶版纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787111532675
MATLAB官方(MathWorks)资深大数据挖掘专家撰写,MathWorks官方及多位专家鼎力推荐。从技术、方法、案例、*佳实践4个维度循序渐进地讲解了大数据挖掘技术。
本书是大数据挖掘领域的扛鼎之作,由全球科学计算领域的领导者MathWorks(MATLAB公司)官方的资深数据挖掘专家和科学计算专家撰写,MathWorks中国区总裁等多位专家联袂推荐。
它从技术、方法、案例和*实践等4个维度对如何系统、深入掌握大数据挖掘提供了详尽的讲解。
技术:不仅讲解了大数据挖掘的原理、过程、工具,还讲解了大数据的准备、处理、与探索;
方法:既深入地讲解了关联规则方法、回归方法、分类方法、聚类方法、预测方法、诊断方法等6大类数据挖掘主体方法,又重点讲解了时间序列方法和智能优化方法等两种重要的数据挖掘方法;
案例:详细地再现了来自银行、证券、机械、矿业、生命科学和社会科学等6大领域的经典案例,不仅有案例的实现过程,而且还有案例原理和预备知识的的讲解;
*实践:首先总结了数据挖掘中确定挖掘、应用技术的艺术以及如何平衡的艺术,然后总结了数据挖掘的项目管理和团队管理的艺术。
篇 基础篇
第1章 绪论
1.1 大数据与数据挖掘
1.1.1 何为大数据
1.1.2 大数据的价值
1.1.3 大数据与数据挖掘的关系
1.2 数据挖掘的概念和原理
1.2.1 什么是数据挖掘
1.2.2 数据挖掘的原理
1.3 数据挖掘的内容
1.3.1 关联
1.3.2 回归
1.3.3 分类
1.3.4 聚类
1.3.5 预测
1.3.6 诊断
1.4 数据挖掘的应用领域
1.4.1 零售业
1.4.2 银行业
1.4.3 证券业
1.4.4 能源业
1.4.5 医疗行业
1.4.6 通信行业
1.4.7 汽车行业
1.4.8 公共事业
1.5 大数据挖掘的要点
1.6 小结
参考文献
第2章 数据挖掘的过程及工具
2.1 数据挖掘过程概述
2.2 挖掘目标的定义
2.3 数据的准备
2.4 数据的探索
2.5 模型的建立
2.6 模型的评估
2.7 模型的部署
2.8 工具的比较与选择
2.9 小结
参考文献
第3章 MATLAB数据挖掘快速入门
3.1 MATLAB快速入门
3.1.1 MATLAB概要
3.1.2 MATLAB的功能
3.1.3 快速入门案例
3.1.4 入门后的提高
3.2 MATLAB常用技巧
3.2.1 常用标点的功能
3.2.2 常用操作指令
3.2.3 指令编辑操作键
3.2.4 MATLAB数据类型
3.3 MATLAB开发模式
3.3.1 命令行模式
3.3.2 脚本模式
3.3.3 面向对象模式
3.3.4 三种模式的配合
3.4 MATLAB数据挖掘引例
3.5 MATLAB集成数据挖掘工具
3.5.1 分类学习机简介
3.5.2 交互探索算法的方式
3.5.3 MATLAB分类学习机应用实例
3.6 小结
第二篇 技术篇
第4章 数据的准备
4.1 数据的收集
4.1.1 认识数据
4.1.2 数据挖掘的数据源
4.1.3 数据抽样
4.1.4 金融行业的数据源
4.1.5 从雅虎获取交易数据
4.1.6 从大智慧获取财务数据
4.1.7 从Wind获取高质量数据
4.2 数据质量分析
4.2.1 数据质量分析的必要性
4.2.2 数据质量分析的目地
4.2.3 数据质量分析的内容
4.2.4 数据质量分析方法
4.2.5 数据质量分析的结果及应用
4.3 数据预处理
4.3.1 为什么需要数据预处理
4.3.2 数据预处理的方法
4.3.3 数据清洗
4.3.4 数据集成
4.3.5 数据归约
4.3.6 数据变换
4.4 小结
参考文献
第5章 数据的探索
5.1 衍生变量
5.1.1 衍生变量的定义
5.1.2 变量衍生的原则和方法
5.1.3 常用的股票衍生变量
5.1.4 评价型衍生变量
5.1.5 衍生变量数据收集与集成
5.2 数据的统计
5.2.1 基本描述性统计
5.2.2 分布描述性统计
5.3 数据可视化
5.3.1 基本可视化方法
5.3.2 数据分布形状可视化
5.3.3 数据关联情况可视化
5.3.4 数据分组可视化
5.4 样本选择
5.4.1 样本选择的方法
5.4.2 样本选择应用实例
5.5 数据降维
5.5.1 主成分分析(PCA)基本原理
5.5.2 PCA应用案例:企业综合实力排序
5.5.3 相关系数降维
5.6 小结
参考文献
第6章 关联规则方法
6.1 关联规则概要
6.1.1 关联规则提出背景
6.1.2 关联规则的基本概念
6.1.3 关联规则的分类
6.1.4 关联规则挖掘常用算法
6.2 Apriori算法
6.2.1 Apriori算法基本思想
6.2.2 Apriori算法步骤
6.2.3 Apriori算法实例
6.2.4 Apriori算法程序实现
6.2.5 算法的优缺点
6.3 FP-Growth算法
6.3.1 FP-Growt算法步骤
6.3.2 FP-Growt算法实例
6.3.3 FP-Growt算法优缺点
6.4 应用实例:行业关联选股法
6.5 小结
参考文献
第7章 数据回归方法
7.1 一元回归
7.1.1 一元线性回归
7.1.2 一元非线性回归
7.1.3 一元多项式回归
7.2 多元回归
7.2.1 多元线性回归
7.2.2 多元多项式回归
7.3 逐步归回
7.3.1 逐步回归基本思想
7.3.2 逐步回归步骤
7.3.3 逐步回归的MATLAB方法
7.4 Logistic回归
7.4.1 Logistic模型
7.4.2 Logistic回归实例
7.5 应用实例:多因子选股模型的实现
7.5.1 多因子模型基本思想
7.5.2 多因子模型的实现
7.6 小结
参考文献
第8章 分类方法
8.1 分类方法概要
8.1.1 分类的概念
8.1.2 分类的原理
8.1.3 常用的分类方法
8.2 K-近邻(KNN)
8.2.1 K-近邻原理
8.2.2 K-近邻实例
8.2.3 K-近邻特点
8.3 贝叶斯分类
8.3.1 贝叶斯分类原理
8.3.2 朴素贝叶斯分类原理
8.3.3 朴素贝叶斯分类实例
8.3.4 朴素贝叶斯特点
8.4 神经网络
8.4.1 神经网络原理
8.4.2 神经网络实例
8.4.3 神经网络特点
8.5 逻辑斯蒂(Logistic)
8.5.1 逻辑斯蒂原理
8.5.2 逻辑斯蒂实例
8.5.3 逻辑斯蒂特点
8.6 判别分析
8.6.1 判别分析原理
8.6.2 判别分析实例
8.6.3 判别分析特点
8.7 支持向量机(SVM)
8.7.1 SVM基本思想
8.7.2 理论基础
8.7.3 支持向量机实例
8.7.4 支持向量机特点
8.8 决策树
8.8.1 决策树的基本概念
8.8.2 决策树的构建步骤
8.8.3决策树实例
8.8.4 决策树特点
8.9 分类的评判
8.9.1 正确率
8.9.2 ROC曲线
8.10 应用实例:分类选股法
8.10.1 案例背景
8.10.2 实现方法
8.11 延伸阅读:其他分类方法
8.12 小结
参考文献
第9章 聚类方法
9.1 聚类方法概要
9.1.1 聚类的概念
9.1.2 类的度量方法
9.1.3 聚类方法的应用场景
9.1.4 聚类方法分类
9.2 K-means方法
9.2.1 K-means原理和步骤
9.2.2 K-means实例1:自主编程
9.2.3 K-means实例2:集成函数
9.2.4 K-means特点
9.3 层次聚类
9.3.1 层次聚类原理和步骤
9.3.2 层次聚类实例
9.3.3 层次聚特点
9.4 神经网络聚类
9.4.1 神经网络聚类原理和步骤
9.4.2 神经网络聚类实例
9.4.3 神经网络聚类特点
9.5 模糊C-均值(FCM)方法
9.5.1 FCM原理和步骤
8.5.2 FCM应用实例
9.5.3 FCM算法特点
9.6 高斯混合聚类方法
9.6.1 高斯混合聚类原理和步骤
9.6.2 高斯聚类实例
9.6.3 高斯聚类特点
9.7 类别数的确定方法
9.7.1 原理
9.7.2 实例
9.8 应用实例:股票聚类分池
9.8.1 聚类目标和数据描述
9.8.2 实现过程
9.8.3 结果及分析
9.9 延伸阅读
9.9.1 目前聚类分析研究的主要内容
9.9.2 SOM智能聚类算法
9.10 小结
参考文献
第10章 预测方法
10.1 预测方法概要
10.1.1 预测的概念
10.1.2 预测的基本原理
10.1.3 预测的准确度评价及影响因素
10.1.4 常用的预测方法
10.2 灰色预测
10.2.1 灰色预测原理
10.2.2 灰色预测的实例
10.3 马尔科夫预测
10.3.1 马尔科夫预测原理
10.3.2 马尔科夫过程的特性
10.3.3 马尔科夫预测实例
10.4 应用实例:大盘走势预测
10.4.1 数据的选取及模型的建立
10.4.2 预测过程
10.4.3 预测结果与分析
10.5 小结
参考文献
第11章 诊断方法
11.1 离群点诊断概要
11.1.1 离群点诊断的定义
11.1.2 离群点诊断的作用
11.1.3 离群点诊断方法分类
11.2 基于统计的离群点诊断
11.2.1 理论基础
11.2.2 应用实例
11.2.3 优点与缺点
11.3 基于距离的离群点诊断
11.3.1 理论基础
11.3.2 应用实例
11.3.3 优点与缺点
11.4 基于密度的离群点挖掘
11.4.1 理论基础
11.4.2 应用实例
11.4.3 优点与缺点
11.5 基于聚类的离群点挖掘
11.5.1 理论基础
11.5.2 应用实例
11.5.3 优点与缺点
11.6 应用实例:离群点诊断股票买卖择时
11.7 延伸阅读:新兴的离群点挖掘方法
11.7.1 基于关联的离群点挖掘
11.7.2 基于粗糙集的离群点挖掘
11.7.3 基于人工神经网络的离群点挖掘
11.8 小结
参考文献
第12章 时间序列方法
12.1 时间序列基本概念
12.1.1 时间序列的定义
12.1.2 时间序列的组成因素
12.1.3 时间序列的分类
12.1.4 时间序列分析方法
12.2 平稳时间序列分析方法
12.2.1 移动平均法
12.2.2 指数平滑法
12.3 季节指数预测法
12.3.1 季节性水平模型
12.3.2 季节性趋势模型
12.4 时间序列模型
12.4.1 ARMA模型
12.4.2 ARIMA模型
12.4.3 ARCH模型
12.4.4 GARCH模型
12.5 应用实例:基于时间序列的股票预测
12.6 小结
参考文献
第13章 智能优化方法
13.1 智能优化方法概要
13.1.1 智能优化方法的概念
13.1.2 常用的智能优化方法
13.2 遗传算法
13.2.1 遗传算法的原理
13.2.2 遗传算法的步骤
13.2.3 遗传算法实例
13.2.4 遗传算法的特点
13.3 模拟退火算法
13.3.1 模拟退火算法的原理
13.3.2 模拟退火算法步骤
13.3.3 模拟退火算法实例
13.3.4 模拟退火算法的特点
13.4 延伸阅读:其它智能方法
13.4.1 粒子群算法
13.4.2 蚁群算法
13.5 小结
参考文献
第三篇 项目篇
第14章 数据挖掘在银行信用评分中的应用
14.1 概述
14.1.1 信用评分的概念
14.1.2 信用评分的意义
14.1.3 个人信用评分的影响因素
14.1.4 信用评分的方法
14.2 DM法信用评分实施过程
14.2.1 数据的准备
14.2.2 数据预处理
14.2.3 logistics模型
14.2.4 神经网络模型
14.3 AHP信用评分方法
14.3.1 AHP法简介
14.3.2 AHP法信用评分实例
14.4 延伸阅读:企业信用评级
14.5 小结
第15章 数据挖掘在量化选股中的应用
15.1 量化选股概述
15.1.1 量化选股定义
15.1.2 量化选股实现过程
15.1.3 量化选股的分类
15.2 数据的处理及探索
15.2.1 获取股票日交易数据
15.2.2 计算指标
15.2.3 数据标准化
15.2.4 变量筛选
15.3 模型的建立及评估
15.3.1 股票预测的基本思想
15.3.2 模型的训练及评价
15.4 组合投资的优化
15.4.1 组合投资的理论基础
15.4.2 组合投资的实现
15.5 量化选股的实施
15.6 小结
参考文献
第16章 数据挖掘在工业故障诊断中的应用
16.1 故障诊断概述
16.1.1 故障诊断的概念
16.1.2 故障诊断的方法
16.1.3 数据挖掘技术的故障诊断原理
16.2 DM设备故障诊断实例
16.2.1 加载数据
16.2.2 探索数据
16.2.3 设置训练样本的测试样本
16.2.4 决策树方法训练模型
16.2.5 集成决策树方法训练模型
16.3 小结
第17章 数据挖掘技术在矿业工程中的应用
17.1 概述
17.1.1 矿业工程的内容
17.1.2 矿业工程的数据及特征
17.1.3 数据挖掘技术在矿业工程中的作用
17.2 矿业工程数据挖掘实例:提纯预测
17.2.1 数据的集成
17.2.2 采用插值方式处理缺失值
17.2.3 设置建模数据及验证方式
17.2.4 多元线性回归模型
17.3 小结
参考文献
第18章 数据挖掘技术在生命科学中的应用
18.1 概述
18.1.1 生命科学的研究内容
18.1.2 生命科学中大数据的特征
18.1.3 数据挖掘技术在生命科学中的作用
18.2 生命科学数据挖掘实例:基因表达模式挖掘
18.2.1 加载数据
18.2.2 数据初探
18.2.3 数据清洗
18.2.4 层次聚类
18.2.5 K-means聚类
18.3 小结
参考文献
第19章 数据挖掘在社会科学研究中的应用
19.1 概述
19.1.1 社会学研究的内容
19.1.2 社会学研究的方法
19.1.3 数据挖掘在社会科学研究中的应用情况
19.2 社会科学挖掘实例:人类行为研究
19.2.1 加载数据
19.2.2 数据可视化
19.2.3 神经网络
19.2.4 混淆矩阵评价分类器
19.2.5 ROC法评价分类器
19.2.6 变量优选
19.2.7 用优选的变量训练网络
19.3 小结
第四篇 理念篇
第20章 数据挖掘的艺术
20.1 确定数据挖掘目标的艺术
20.1.1 数据挖掘中的商业意识
20.1.2 商业意识到数据挖掘目标
20.1.3 商业意识的培养
20.2 应用技术的艺术
20.2.1 技术服务于业务的艺术
20.2.2 算法选择的艺术
20.2.3 与机器配合的艺术
20.3 数据挖掘中平衡的艺术
20.3.1 客观与主观的平衡
20.3.2 数据量的平衡
20.4 理性对待大数据时代
20.4.1 发展大数据应避免的误区
20.4.2 正确认识大数据的价值
20.4.3 正面大数据应用面临的挑战
20.5 小结
参考文献
第21章 数据挖掘的项目管理和团队管理
21.1 数据挖掘项目实施之道
21.1.1 确定可行的目标
21.1.2 遵守数据挖掘流程
21.1.3 项目的质量控制
21.1.4 项目效率
21.1.5 成本控制
21.1.6 数据挖掘过程改进
21.2 数据挖掘团队的组建
21.2.1 数据挖掘项目团队的构成
21.2.2 团队负责人
21.3 数据挖掘团队的管理
21.3.1 团队管理的目标与策略
21.3.2 规范化的管理
21.4 优秀数据挖掘人才的修炼
21.4.1 专业知识与技术
21.4.2 快速获取知识的技能
21.4.3 提高表达能力
21.4.4 提高管理能力
21.4.5 培养对数据挖掘的热情
21.5 小结
目 录(二级目录)
篇 基础篇
第1章 绪论
1.1 大数据与数据挖掘
1.2 数据挖掘的概念和原理
1.3 数据挖掘的内容
1.4 数据挖掘的应用领域
1.5 大数据挖掘的要点
1.6 小结
参考文献
第2章 数据挖掘的过程及工具
2.1 数据挖掘过程概述
2.2 挖掘目标的定义
2.3 数据的准备
2.4 数据的探索
2.5 模型的建立
2.6 模型的评估
2.7 模型的部署
2.8 工具的比较与选择
2.9 小结
参考文献
第3章 MATLAB数据挖掘快速入门
3.1 MATLAB快速入门
3.2 MATLAB常用技巧
3.3 MATLAB开发模式
3.4 MATLAB数据挖掘引例
3.5 MATLAB集成数据挖掘工具
3.6 小结
第二篇 技术篇
第4章 数据的准备
4.1 数据的收集
4.2 数据质量分析
4.3 数据预处理
4.4 小结
参考文献
第5章 数据的探索
5.1 衍生变量
5.2 数据的统计
5.3 数据可视化
5.4 样本选择
5.5 数据降维
5.6 小结
参考文献
第6章 关联规则方法
6.1 关联规则概要
6.2 Apriori算法
6.3 FP-Growth算法
6.4 应用实例:行业关联选股法
6.5 小结
参考文献
第7章 数据回归方法
7.1 一元回归
7.2 多元回归
7.3 逐步归回
7.4 Logistic回归
7.5 应用实例:多因子选股模型的实现
7.6 小结
参考文献
第8章 分类方法
8.1 分类方法概要
8.2 K-近邻(KNN)
8.3 贝叶斯分类
8.4 神经网络
8.5 逻辑斯蒂(Logistic)
8.6 判别分析
8.7 支持向量机(SVM)
8.8 决策树
8.9 分类的评判
8.10 应用实例:分类选股法
8.11 延伸阅读:其他分类方法
8.12 小结
参考文献
第9章 聚类方法
9.1 聚类方法概要
9.2 K-means方法
9.3 层次聚类
9.4 神经网络聚类
9.5 模糊C-均值(FCM)方法
9.6 高斯混合聚类方法
9.7 类别数的确定方法
9.8 应用实例:股票聚类分池
9.9 延伸阅读
9.10 小结
参考文献
第10章 预测方法
10.1 预测方法概要
10.2 灰色预测
10.3 马尔科夫预测
10.4 应用实例:大盘走势预测
10.5 小结
参考文献
第11章 诊断方法
11.1 离群点诊断概要
11.2 基于统计的离群点诊断
11.3 基于距离的离群点诊断
11.4 基于密度的离群点挖掘
11.5 基于聚类的离群点挖掘
11.6 应用实例:离群点诊断股票买卖择时
11.7 延伸阅读:新兴的离群点挖掘方法
11.8 小结
参考文献
第12章 时间序列方法
12.1 时间序列基本概念
12.2 平稳时间序列分析方法
12.3 季节指数预测法
12.4 时间序列模型
12.5 应用实例:基于时间序列的股票预测
12.6 小结
参考文献
第13章 智能优化方法
13.1 智能优化方法概要
13.2 遗传算法
13.3 模拟退火算法
13.4 延伸阅读:其它智能方法
13.5 小结
参考文献
第三篇 项目篇
第14章 数据挖掘在银行信用评分中的应用
14.1 概述
14.2 DM法信用评分实施过程
14.3 AHP信用评分方法
14.4 延伸阅读:企业信用评级
14.5 小结
第15章 数据挖掘在量化选股中的应用
15.1 量化选股概述
15.2 数据的处理及探索
15.3 模型的建立及评估
15.4 组合投资的优化
15.5 量化选股的实施
15.6 小结
参考文献
第16章 数据挖掘在工业故障诊断中的应用
16.1 故障诊断概述
16.2 DM设备故障诊断实例
16.3 小结
第17章 数据挖掘技术在矿业工程中的应用
17.1 概述
17.2 矿业工程数据挖掘实例:提纯预测
17.3 小结
参考文献
第18章 数据挖掘技术在生命科学中的应用
18.1 概述
18.2 生命科学数据挖掘实例:基因表达模式挖掘
18.3 小结
参考文献
第19章 数据挖掘在社会科学研究中的应用
19.1 概述
19.2 社会科学挖掘实例:人类行为研究
19.3 小结
第四篇 理念篇
第20章 数据挖掘的艺术
20.1 确定数据挖掘目标的艺术
20.2 应用技术的艺术
20.3 数据挖掘中平衡的艺术
20.4 理性对待大数据时代
20.5 小结
参考文献
第21章 数据挖掘的项目管理和团队管理
21.1 数据挖掘项目实施之道
21.2 数据挖掘团队的组建
21.3 数据挖掘团队的管理
21.4 优秀数据挖掘人才的修炼
21.5 小结
序 言
欣闻三位好友新书《大数据挖掘:系统方法与实例分析》即将出版,荣幸能为该书撰写序言。非常兴奋终于见到不再仅仅是概念介绍而是实实在在介绍如何利用大数据的书籍了。所以非常愿意为本书作序,希望让更多的读者能够更具体的了解大数据,了解大数据的价值,并利用好大数据挖掘技术来让大数据更好地服务我们的生产和生活,从而提升整个社会价值体系。
大数据是近几年兴起的概念,虽然有被过分炒作之嫌,但我觉得是有客观原因的。因为随着信息技术的发展,各行业都已经有足够的数据积累,而且有的行业已经体验到了数据的巨大能量。国内直接体验到大数据价值的当属BAT(百度、阿里、腾讯),在传统行业,大数据也已经开始应用。比如,银行利用大数据进行风险管理;电力公司利用大数据进行负载预测,从而分时定价,并可以根据预测结果优化电能的储蓄和调配;矿业公司利用大数据进行精细加工,提高产品竞争力。总之,大数据已对各行业产生了十分明显的影响,无论是银行、证券、通讯、铁路、航空,还是军事、政治、工业、商业,基于大数据的决策已经成为现代社会各行业运行的基础。但纵然这样,各行业对大数据的利用还处于初期阶段,然各行业已经存储了海量的数据,如何更有效地利用这些数据已成为各行业一个大课题!
这本书出版的太及时了!正当人们急切地希望知道如何利用大数据的时候,来了本实实在在的介绍如何利用大数据、如何挖掘大数据价值的真经——《大数据挖掘:系统方法与实例分析》。
浏览一下本书的目录,顿时振奋起来!概念、技术、项目、经验四位一体,层层递进,太符合我们的阅读习惯了:概念篇让大家知道大数据的基本概念、分类和挖掘流程,这是基础,所以首先介绍;技术篇系统地介绍了整个大数据挖掘理论体系里的具体技术,包括数据预处理和六大类核心算法,即关联、回归、分类、聚类、预测、诊断,每类算法中又详细讲解了常用算法的原理、实现步骤、应用实例,并且每个实例都有一个MATLAB实现实例,对于当代的读者来说,这些实例太有价值了,可以直接借鉴、研读、修改、提升。技术学习的同时也可以深化对概念的理解,从而与概念篇的内容相得益彰;项目篇相当于大数据挖掘技术在各行业的具体应用,技术与应用融会贯通,既可启发读者在各行业如何应用大数据又可让读者知道如何去使用这些技术,并且这些项目本身都是各行业的经典,可以直接加以借鉴、拓展和推广;理念篇起到一个画龙点睛的作用,介绍的都是需要时间和项目磨砺的经验和心得,让人心旷神怡,让读者在共鸣中感知大数据的价值和应用技术的艺术性。全书读完,甚是畅快!
我本人所就职的九次方也从事大数据相关工作,我们公司已与不少地方政府联合成立合资公司并建立各地的大数据中心,这些中心负责存储各地政府、企业的重要数据,并对这些数据进行运营,从而实现数据的商业价值,随着《国务院关于印发促进大数据发展行动纲要的通知》的出台,各级政府开始非常重视大数据这项工作,同时也说明我们的大数据资源已经日益丰富。对于如何利用这些数据的课题,本书正好也给我本人提供了思路,让我知道各行业应该如何挖掘这些大数据,让我坚信大数据未来的发展潜力,也给了我信心继续在大数据这个领域扬帆远航!
此时,突然想起一首古诗,拙改几字,以作为本序的总结:
好书知时节,此时乃出版。随势入眼帘,传知细无声!
张 杰
九次方大数据执行副总裁
2015年12月于深圳
前 言
为什么要写这本书
大数据是当前热的概念之一,在“互联网 ”的背景下,大数据的开放、挖掘和应用已成为趋势。大数据已经成为国家科技竞争的前沿,以及产业竞争力和商业模式创新的源泉。联合国“数据脉动”计划、美国“大数据”战略、英国“数据权”运动、韩国大数据中心战略等先后开启了大数据创新战略的大幕。国务院发布《关于促进大数据发展的行动纲要》,重点强调政府数据的互联互通、共享和开放,并明确提出了具体的时间表。大数据作为目前全球科技创新主要的战场,有望迎来百花齐放的繁荣盛景。
一花独放不是春,百花齐放春满园,大数据生态系统也生机勃勃。继贵阳大数据交易所成立以来,多个城市相继成立自己的大数据中心,各种数据存储中心和数据评估中心也如雨后春芽。然,还有相当多的朋友并不了解什么是大数据。虽然市面上已经有些书籍介绍了大数据的概念,但并没有介绍如何去应用大数据,并且很多书都是国外的译著,由于文化的差异,很多读者反馈这些书过于啰嗦,看了半天也不知道到底讲什么内容。
现在大家都知道大数据有用,但究竟如何去应用大数据却很少有书介绍。大数据的落脚点还是要在于应用,如果不能从大数据中挖掘到有利于社会发展的知识,大数据也就没有意义了。数据挖掘技术是从数据中挖掘有用知识的一门系统性的技术,刚好解决了数据利用的问题,所以数据挖掘与大数据便很自然地结合在一起了,所以也就有了本书的构想。
本书特色
纵观全书,可发现本书的特点鲜明,主要表现在:
(1)方法务实,学以致用。本书介绍的方法都是数据挖掘中的主流方法,都经过实践的检验,具有较强的实践性。对于每种方法,本书基本都给出了完整、详细的源代码,这对于读者来说,具有非常大的参考价值,很多程序可供读者直接套用并加以学习。
(2)知识系统,易于理解。本书的知识体系应该是当前数据挖掘书籍中全、完善的,从基本概念与技术,到项目实践,到理念的整体架构,使得概念、技术、实践、经验四位一体,自然形成整套大数据挖掘的整体体系。而对于具体的技术,也是脉络清晰、循序渐进,不仅包含详细的数据挖掘流程、数据准备方法、数据探索方法,还包含六大类数据挖掘主体方法、时序数据挖掘方法、智能优化方法。正因为有完整的知识体系,读者读起来才有很好的完整感,从而更利于理解数据挖掘的知识体系,这对于学习是非常有帮助的。
(3)结构合理,易于学习。在讲解方法时,由浅入深,循序渐进,让初学者知道入门的切入点,让专业人员又有值得借鉴的干货。这让读者在学习数据挖掘时有一个循序渐进的过程,使读者在短时间内成为一位数据挖掘高手。
(4)案例实用,易于借鉴。本书选择的案例都是来自不同行业的经典案例,并且带有数据和程序,所以很容易让读者对案例产生共鸣,同时可以利用案例的数据,进行模仿式的学习,所带的程序也能提高读者的学习效率,也可以直接借鉴这些案例,并应用到自己的商业项目中。
(5)理论与实践相得益彰。对于本书的每个方法,除了理论的讲解,都配有一个典型的应用案例,读者可以通过案例加深对理论的理解,同时理论也让案例的应用更有信服力。技术的介绍都是以实现实例为目地,同时提供大量技术实现的源程序,方便读者学习,注重实践和应用,秉承笔者务实、切近读者的写作风格。
(6)内容独特,趣味横生,文字简洁,易于阅读。很多方法和内容是同类书籍所没有的,这无疑增强了本书的新颖性和趣味性。另外,在本书编写过程中,在保证描述精准的前提下,我们摒弃那些刻板、索然无味的文字,让文字也有活力,更易于阅读。
如何阅读本书
全书内容分四个部分,故成四篇。
部分(基础篇)主要介绍一些基本概念和知识,包括大数据和数据挖掘的概念,数据挖掘的实现过程、主要内容等基础知识。
第二部分(技术篇)是数据挖掘技术的主体部分,系统介绍了数据挖掘的主流技术,这个部分又分三个层次:
(1)数据挖掘前期的一些技术,包括数据的准备(收集数据、数据质量分析、数据预处理等)和数据的探索(衍生变量、数据可视化、样本选择、数据降维等)。
(2)数据挖掘的六大类核心方法,包括关联规则、回归、分类、聚类、预测和诊断。对于每类方法,则详细介绍了其包含的典型算法,包括基本思想、应用场景、算法步骤、MATLAB实现程序、应用案例。
(3)数据挖掘中特殊的实用技术,包含2章内容,一是关于时序数据挖掘的时间序列技术,二是关于优化的智能优化方法。这个层次也是数据技术体系中不可或缺的技术。时序数据是数据挖掘中的一类特殊数据,所以针对该类特殊的数据类型,又介绍了时间序列方法。另外,数据挖掘离不开优化,所以又以一章智能优化方法介绍了两个比较常用的优化方法——遗传算法和模拟退火算法。
第三部分是实践篇,主要介绍数据挖掘技术在各行业的典型应用实例。所介绍的项目分别来自银行、证券、机械、矿业、生命科学和社会科学等行业和学科,已基本覆盖数据挖掘技术应用的主流行业,通过这些项目的研学,读者也可以了解各行业数据挖掘技术的应用领域和应用情况,培养对行业的敏感度。
第四部分是理念篇,是数据挖掘应用思想和经验的整合。本篇包含第20和21两章,第20章侧重数据挖掘项目实施过程中各种技术应用的经验和对各方面问题的权衡和拿捏,体现了技术应用中艺术性的一面;第21章侧重数据挖掘项目实施过程中的项目管理和团队管理,以及对团队中的个体如何成长的经验介绍。
其中,前三篇为本书的重点内容,建议重点研读,第四篇偏经验,适合结合项目实践反复阅读、体会。
读者对象
(1) 从事大数据挖掘的专业人士;
(2) 统计、数据挖掘、机器学习等学科的教师和学生;
(3) 从事数据挖掘、数据分析、数据管理工作的专业人士;
?(4) 需要用到数据挖掘技术的各领域的科研工作者;
?(5) 希望学习MATLAB的工程师或科研工作者,因为本书的代码都是用MATLAB编写的,所以对于希望学习MATLAB的读者来说,也是一本很好的参考书;
?(6) 其他对大数据挖掘感兴趣的人员。
致读者
专业人士
对于从事大数据挖掘的专业人士来说,大家可以关注整个数据挖掘知识体系和数据挖掘的流程,因为本书的数据挖掘知识体系应该是当前数据挖掘书籍中体系全、完善的,另外数据挖掘流程也介绍得很详细,具有很强的操作性。此外,书中的算法案例和项目案例,也算是本书的特色,值得借鉴。
致教师
本书系统地介绍了大数据挖掘的理论、技术、项目、工具和理念,可以作为统计、计算机、经管、数学、信科等专业本科或研究生的教材。书中的内容虽然系统,但也相对独立,教师可以根据课程的学时安排和专业方向的侧重,选择合适的内容进行课堂教学,其他内容则可以作为参考章节。授课部分,一般会包含篇、第二篇的章节,而如果课时较多,则可以增加其他章节中的一些项目案例的学习。
在进行课程备课的过程中,如果您需要书中的一些电子资料作为课件或授课支撑材料,可以直接给笔者发邮件([email protected])说明您需要的材料和用途,笔者会根据具体情况,为您提供力所能及的帮助。
致学生
作为21世纪的大学生,无论是什么专业背景,都有必要学习大数据挖掘。在21世纪和未来,很多信息都以数据形式存在,学习并掌握数据挖掘技术,有助于我们从更深层次了解这个社会,也更有助于我们每人从事的工作。所以,无论现在是学习什么专业,都建议要好好读一下这本书或同类的书籍。相信,您一定会因为曾学习过大数据挖掘而倍感欣慰!
配套资源
(一)配套程序和数据
为了方便读者的学习,本书将提供书中使用的程序和数据的下载,下载地址为:
如遇到下载问题, 也可以直接发邮件与作者联系:
(二)配套教学课件
为了方便教师授课,我们也开发了本书配套的教学课件,如有需要,也可以与作者联系。
勘误和支持
由于时间仓促,加之作者水平有限,所以错误和疏漏之处在所难免。在此,诚恳地期待得到广大读者的批评指正。如果您有什么建议也可以直接将你的建议发送至以上邮箱,期待能够得到你们的真挚反馈。在技术之路上如能与大家互勉共进,我们也倍感荣幸!对于书中出现的问题,将在论坛的勘误部分进行修正, 勘误地址为:
致谢
感谢MathWorks官方文档,在写作期间提供给我全面、深入、准确的参考材料,强大的官方文档支持也是其他资料所无法企及的, 同时感谢MATLAB中文论坛为本书提供的交流讨论专区。
感谢机械工业出版社华章公司的首席策划杨福川和编辑高婧雅,在近三年的时间中始终支持我们的写作,你们的鼓励和帮助引导我们顺利完成全部书稿。
特别感谢好友张杰在百忙之中指导本书的编写并为本书写序!在本书的编写过程中,中科院金属所的王恺博士,MathWorks的陈建平、董淑成、陈小挺等好友和同事对本书书稿进行了校对并给出修改建议,在此向他们表示感谢!
作者
2015年10月
“大数据方法 大数据人才=核心竞争力”,
本书系统地诠释了这个公式里蕴含的概念、技术、项目以及人才培养。基于MATLAB的Data Analytics的应用正在全球呈现爆炸式的发展趋势,而本书的内容正是这一趋势迫切需要的知识。书中的实例是以MATLAB作为工具来呈现,可快速转化为实实在在的竞争力,甚好!
——曹新康 MathWorks(全球科学计算领导者)中国区总裁
2013年维克托的《大数据时代》风靡全国,此后关于大数据的各种声音一直络绎不绝,但在思维的高度上,无出其右者。还好有卓兄等人在工具的研发和使用上的不懈努力,推动大数据思维深入运用到各个子行业。MATLAB是量化对冲行业内出色的写策略的工具,卓兄的书由浅入深,实用性强,上一本《量化投资:数据挖掘技术与实践(MATLAB版)》备受量化对冲行业朋友的青睐,也是我案头的常备书目之一。本书的一些内容已经在对冲基金的筛选里面运用,比如书中介绍的神经网络,就可以用于判断不同对冲基金之间可能雷同的策略,终实现事前的风控。从FOF/MOM的角度来讲,本书为筛选优秀的对冲基金提供了良好的视角和工具。
——董鹏飞 国金创新总经理
本书深入浅出地对大数据挖掘的理论和方法进行了系统性的阐述,并且通过多个案例给出了具有实用性的指导,在人工智能和数据挖掘技术火热的当下,不失为一本极佳的工具参考书。
——丁鹏博士 中国量化投资学会理事长
工业数据具有传感器多样、采集频率高和数据量庞大的特点,如何发挥工业数据的价值是工业互联网时代前沿的课题。本书所呈现的数据挖掘和智能计算方法,对基于工业大数据的KPI参数预测、设备故障预警和生产过程优化具有很强的指导意义。
——周永良博士 GE Digital软件解决方案架构师
本书通俗易懂,贴近实用,融合了作者多年的研究成果,方法务实、知识系统、方便借鉴,且配有系统的源代码,适用于各类数据挖掘项目。本书的作者于我亦师亦友,卓学长的另外两本书我都读过,收获很大,每次与之交流都让我获益匪浅,在此表达对学长的敬意,同时更期盼通过此书和广大读者一道继续努力,共同提高。
——赵晔 清华大学自动化系研究生
评论
还没有评论。