描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111654711
零基础学机器学习与量化策略、详解多个行业中的大数据分析技术,全面揭秘机器学习在商业中的应用实战,详细金融数据风控、股票量化交易、商品智能推荐、用户情感分析等大数据分析技术
大数据分析与机器学习技术已成为各行各业实现数字化变革的关键驱动力。本书以功能强大且较易上手的Python语言为编程环境,全面讲解了大数据分析与机器学习技术的商业应用实战。
全书共16章,讲解了线性回归模型、逻辑回归模型、决策树模型、朴素贝叶斯模型、K近邻算法模型、随机森林模型、AdaBoost与GBDT模型、XGBoost与LightGBM模型、PCA(主成分分析)模型、聚类与分群模型(KMeans与DBSCAN算法)、协同过滤算法模型、Apriori关联分析模型、神经网络模型等十余种机器学习模型的原理和代码实现,每种模型都配有一到两个典型案例,涵盖金融、营销、医疗、社会科学、企业办公与管理等多个领域。
本书适合具备一定数学知识和编程基础、希望快速在工作中应用大数据分析与机器学习技术的读者阅读,也适合Python编程爱好者或对大数据分析与机器学习技术感兴趣的读者参考。
前言
如何获取学习资源
第1章 Python与数据科学
1.1 大数据分析与机器学习概述13
1.1.1 大数据分析与机器学习的应用领域13
1.1.2 机器学习的基本概念14
1.1.3 Python在数据科学中的作用16
1.2 Python编程环境部署与基本操作16
1.2.1 Python的安装16
1.2.2 Pycharm的安装与设置18
1.2.3 Jupyter Notebook的使用22
1.3 Python基础知识概要28
第2章 数据分析利器:NumPy、pandas与Matplotlib库
2.1 NumPy库基础29
2.1.1 NumPy库与数组29
2.1.2 数组与列表的区别30
2.1.3 创建数组的几种方式31
2.2 pandas库基础33
2.2.1 二维数据表格DataFrame的创建33
2.2.2 Excel工作簿等文件的读取和写入38
2.2.3 数据的选取与处理41
2.2.4 数据表拼接47
2.3 Matplotlib库基础51
2.3.1 基本图表绘制51
2.3.2 数据可视化常用技巧56
2.4 案例实战:股票数据读取与K线图绘制61
2.4.1 初步尝试:股票数据读取与可视化62
2.4.2 进阶实战:股票K线图绘制65
第3章 线性回归模型
3.1 一元线性回归73
3.1.1 一元线性回归的数学原理73
3.1.2 一元线性回归的代码实现75
3.1.3 案例实战:不同行业工龄与薪水的线性回归模型77
3.2 线性回归模型评估83
3.2.1 模型评估的编程实现83
3.2.2 模型评估的数学原理84
3.3 多元线性回归87
3.3.1 多元线性回归的数学原理和代码实现87
3.3.2 案例实战:客户价值预测模型88
第4章 逻辑回归模型
4.1 逻辑回归模型的算法原理92
4.1.1 逻辑回归模型的数学原理92
4.1.2 逻辑回归模型的代码实现94
4.1.3 逻辑回归模型的深入理解95
4.2 案例实战:客户流失预警模型98
4.2.1 案例背景98
4.2.2 数据读取与变量划分98
4.2.3 模型的搭建与使用99
4.3 模型评估方法:ROC曲线与KS曲线104
4.3.1 ROC曲线的基本原理105
4.3.2 案例实战:用ROC曲线评估客户流失预警模型108
4.3.3 KS曲线的基本原理111
4.3.4 案例实战:用KS曲线评估客户流失预警模型112
第5章 决策树模型
5.1 决策树模型的基本原理115
5.1.1 决策树模型简介115
5.1.2 决策树模型的建树依据116
5.1.3 决策树模型的代码实现119
5.2 案例实战:员工离职预测模型123
5.2.1 模型搭建123
5.2.2 模型预测及评估126
5.2.3 决策树模型可视化呈现及决策树要点理解131
5.3 参数调优:K折交叉验证与GridSearch网格搜索138
5.3.1 K折交叉验证138
5.3.2 GridSearch网格搜索139
第6章 朴素贝叶斯模型
6.1 朴素贝叶斯模型的算法原理145
6.1.1 一维特征变量下的贝叶斯模型145
6.1.2 二维特征变量下的贝叶斯模型146
6.1.3 n维特征变量下的贝叶斯模型147
6.1.4 朴素贝叶斯模型的简单代码实现147
6.2 案例实战:肿瘤预测模型148
6.2.1 案例背景148
6.2.2 数据读取与划分148
6.2.3 模型的搭建与使用149
第7章 K近邻算法
7.1 K近邻算法的原理和代码实现152
7.1.1 K近邻算法的基本原理152
7.1.2 K近邻算法的计算步骤153
7.1.3 K近邻算法的代码实现155
7.2 案例实战:手写数字识别模型157
7.2.1 案例背景157
7.2.2 手写数字识别的原理157
7.2.3 手写数字识别的代码实现159
7.3 图像识别原理详解162
第8章 随机森林模型
8.1 随机森林模型的原理和代码实现166
8.1.1 集成模型简介166
8.1.2 随机森林模型的基本原理167
8.1.3 随机森林模型的代码实现168
8.2 案例实战:股票涨跌预测模型170
8.2.1 股票基本数据获取170
8.2.2 股票衍生变量生成173
8.2.3 多因子模型搭建181
8.2.4 模型使用与评估184
8.2.5 参数调优186
8.2.6 收益回测曲线绘制188
第9章 AdaBoost与GBDT模型
9.1 AdaBoost算法原理190
9.1.1 AdaBoost算法的核心思想190
9.1.2 AdaBoost算法的数学原理概述191
9.1.3 AdaBoost算法的数学原理举例194
9.1.4 AdaBoost算法的简单代码实现200
9.2 AdaBoost算法案例实战:信用卡精准营销模型201
9.2.1 案例背景201
9.2.2 模型搭建201
9.2.3 模型预测及评估202
9.2.4 模型参数介绍205
9.3 GBDT算法原理206
9.3.1 GBDT算法的核心思想206
9.3.2 GBDT算法的数学原理概述208
9.3.3 GBDT算法的数学原理举例208
9.3.4 GBDT算法的简单代码实现213
9.4 GBDT算法案例实战:产品定价模型214
9.4.1 案例背景214
9.4.2 模型搭建214
9.4.3 模型预测及评估217
9.4.4 模型参数介绍219
第10章 机器学习神器:XGBoost与LightGBM算法
10.1 XGBoost算法原理223
10.1.1 XGBoost算法的核心思想224
10.1.2 XGBoost算法的数学原理概述224
10.1.3 XGBoost算法的简单代码实现225
10.2 XGBoost算法案例实战1:金融反欺诈模型226
10.2.1 案例背景226
10.2.2 模型搭建226
10.2.3 模型预测及评估228
10.2.4 模型参数调优230
10.3 XGBoost算法案例实战2:信用评分卡模型233
10.3.1 案例背景233
10.3.2 多元线性回归模型234
10.3.3 GBDT回归模型235
10.3.4 XGBoost回归模型237
10.4 LightGBM算法原理241
10.4.1 LightGBM
在这个信息爆炸的时代,如何高效处理数据并利用数据推动决策显得尤为重要,这便是人们通常所说的“大数据分析”。与大数据分析相伴而生的机器学习(Machine Learning),有些人可能会感到陌生,然而说到战胜了众多人类围棋高手的智能机器人AlphaGo,想必大多数人都有所耳闻。AlphaGo背后的原理支撑就是机器学习,它通过模拟人类的学习行为,不停地分析海量的围棋数据,发现数据背后的规律,从而在已有条件下做出为理性的决断,这个过程充满了机器美学。
大数据分析和机器学习面对的数据浩如烟海,原始的纸笔演算根本无力应对,幸运的是,飞速发展的信息技术为我们建造了一个“武器库”—从Excel、MATLAB等专业的应用软件,到Java、R、Python等程序设计语言,大大降低了大数据分析和机器学习的实现门槛,推动着这些先进技术在各行各业生根发芽。
Python是大数据分析和机器学习“武器库”中的一把“利刃”,其功能强大且简单易上手。本书就是一本专注于利用Python编程实现大数据分析与机器学习商业应用的实战型教程,讲解了线性回归模型、逻辑回归模型、决策树模型、朴素贝叶斯模型、K近邻算法模型、随机森林模型、AdaBoost与GBDT模型、XGBoost与LightGBM模型、PCA(主成分分析)模型、聚类与分群模型(KMeans与DBSCAN算法)、协同过滤算法模型、Apriori关联分析模型、神经网络模型等十余种机器学习模型,每种模型都配有一到两个典型案例,涵盖了多个行业的应用场景,如金融领域的大数据风控、量化金融交易,产品营销领域的产品智能定价与智能推荐、用户评论情感分析、客户精准营销与流失预警,医疗领域的疾病预测与关联规则分析,社会科学领域的收入预测、人脸识别,企业办公与管理领域的手写文字识别、员工离职预测等。
有的读者可能会在感慨机器学习之强大的同时发出疑问:机器学习这么厉害,我能学会吗?其实机器学习并不复杂,尤其是Python中的编程实现更加方便,你甚至无须完全了解模型的数学原理,便能用几行代码搭建出一个简单的模型,相信读者在阅读完3~5章之后就能体会到Python的数据分析之美。当然,知其然更要知其所以然,本书还会以简单易懂的方式讲解各个机器学习模型的数学原理,读者只需具备高中数学以上的基础便能理解。
为方便读者学习,本书所有案例均提供配套的素材文件、数据文件和源代码文件,并且附赠Python基础知识的电子书和教学视频,具体的获取方法见“如何获取学习资源”中的说明。
由于编者水平有限,本书难免有不足之处,恳请广大读者批评指正,除了扫描封底及勒口中的二维码关注公众号以外,也可加入QQ群930872583与我们交流。
编者
2020年3月
评论
还没有评论。