描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111692775丛书名: 金融商业数据分析与应用系列
编辑推荐
(1)作者背景资深:4位作者都是在金融领域有10~20年数据挖掘和算法建模经验的资深专家,技术功底深厚,业务经验丰富。(2)金融业务驱动:以真实的业务场景和案例为驱动,涵盖金融业务经营的全流程,告别纯理论和不接地气。(3)独创9大模板:针对决策类、识别类、优化分析类3大主题,独创9大模板:客户价值预测、营销响应预测、细分画像、交叉销售、申请反欺诈、违规行为识别、预测、运筹优化、流程挖掘。(4)数据建模闭环:涵盖分析框架、模型算法、模型评估、模型监控、算法工程化等完整的数据建模闭环。
内容简介
内容简介
这是一本贯穿金融业务经营全流程,以业务为驱动的金融数据挖掘与建模著作,涵盖分析框架、模型算法、模型评估、模型监控、算法工程化等整个数据建模的闭环。
本书的4位作者都是在金融领域有有多年工作经验的大数据专家,不仅技术功底深厚、业务经验丰富,而且对金融行业从业者的需求痛点和图书市场的供给情况有深入了解,他们通过精心策划和写作,让本书内容独树一帜:涵盖金融业务经营全流程,全部以业务驱动,包含大量针对具体场景的实战案例。
本书针对决策类、识别类、优化分析类3大主题,独创9大模板:客户价值预测、营销响应预测、细分画像、交叉销售、申请反欺诈、违规行为识别、预测、运筹优化、流程挖掘,详细讲解了每个模板算法原理、评估方法、优化方法和应用案例等,内容上极力做到准确、明晰、直观与实用。
此外,本书还对数据科学项目中比较容易被忽视的内容做了补充,包括模型评估、模型监控、算法工程化,能指导读者构建易读、高效、健壮的数据科学工程。
本书坚持理论与实践相结合,通过图形、示例、公式帮助读者快速掌握算法与优化理论的同时,还打造了一套可轻松适配各种分析场景与需求的工具模板,力图帮助读者从理论快速跨越到实践。
这是一本贯穿金融业务经营全流程,以业务为驱动的金融数据挖掘与建模著作,涵盖分析框架、模型算法、模型评估、模型监控、算法工程化等整个数据建模的闭环。
本书的4位作者都是在金融领域有有多年工作经验的大数据专家,不仅技术功底深厚、业务经验丰富,而且对金融行业从业者的需求痛点和图书市场的供给情况有深入了解,他们通过精心策划和写作,让本书内容独树一帜:涵盖金融业务经营全流程,全部以业务驱动,包含大量针对具体场景的实战案例。
本书针对决策类、识别类、优化分析类3大主题,独创9大模板:客户价值预测、营销响应预测、细分画像、交叉销售、申请反欺诈、违规行为识别、预测、运筹优化、流程挖掘,详细讲解了每个模板算法原理、评估方法、优化方法和应用案例等,内容上极力做到准确、明晰、直观与实用。
此外,本书还对数据科学项目中比较容易被忽视的内容做了补充,包括模型评估、模型监控、算法工程化,能指导读者构建易读、高效、健壮的数据科学工程。
本书坚持理论与实践相结合,通过图形、示例、公式帮助读者快速掌握算法与优化理论的同时,还打造了一套可轻松适配各种分析场景与需求的工具模板,力图帮助读者从理论快速跨越到实践。
目 录
前言
第1章 金融建模综述1
1.1 企业中数据分析的层级1
1.2 操作层面的数据分析对象与成果4
1.3 数据挖掘方法分类介绍4
1.3.1 预测性—有监督学习5
1.3.2 描述性—无监督学习10
1.4 数据挖掘方法论12
1.5 数据挖掘建模框架的3个原则14
1.6 利用SAS EM创建数据挖掘项目16
1.6.1 创建数据挖掘项目16
1.6.2 给项目添加逻辑库和数据集20
1.6.3 SAS EM项目的系统文档介绍26
第2章 决策类模型28
2.1 客户价值预测28
2.1.1 线性回归模型概述28
2.1.2 Python案例:线性回归建模33
2.1.3 多元线性回归的变量筛选40
2.1.4 Python案例:多元线性回归变量筛选43
2.1.5 模型假设检验44
2.1.6 残差分析48
2.1.7 强影响点分析49
2.1.8 Python案例:线性回归调优实战50
2.1.9 线性回归的完整流程小结59
2.1.10 正则化61
2.1.11 Python案例:岭回归与Lasso回归实战65
2.2 营销响应预测70
2.2.1 使用逻辑回归预测用户响应率70
2.2.2 比较逻辑回归与线性回归70
2.2.3 图解逻辑回归71
2.2.4 逻辑回归算法概述73
2.2.5 分类模型的评估75
2.2.6 分类变量的处理79
2.2.7 Python案例:逻辑回归建模实战80
2.2.8 SAS EM案例:贷款违约预测实战88
2.2.9 逻辑回归建模小结104
2.3 细分画像104
2.3.1 主成分分析105
2.3.2 因子分析116
2.3.3 变量聚类127
2.3.4 样本聚类1—层次聚类130
2.3.5 样本聚类2—K-Means聚类136
2.4 交叉销售165
2.4.1 关联规则165
2.4.2 序列模式185
第3章 识别类模型195
3.1 申请反欺诈195
3.1.1 决策树195
3.1.2 组合算法228
3.1.3 近邻域法253
3.1.4 朴素贝叶斯257
3.1.5 支持向量机263
3.1.6 神经网络276
3.2 违规行为识别294
3.2.1 孤立森林296
3.2.2 局部异常因子304
第4章 优化分析类模型308
4.1 预测技术308
4.1.1 效应分解法309
4.1.2 基于动力模型的ARIMA317
4.1.3 基于深度学习的LSTM333
4.2 运筹优化341
4.2.1 线性规划342
4.2.2 整数规划344
4.2.3 非线性规划347
4.3 流程挖掘348
4.3.1 业务流程挖掘的总体理念348
4.3.2 流程发现352
4.3.3 流程监控353
4.3.4 流程遵循354
4.3.5 Python案例:利用pm4py实现流程挖掘355
第5章 模型评估与模型监控363
5.1 模型评估363
5.1.1 混淆矩阵363
5.1.2 ROC曲线363
5.1.3 KS统计量365
5.1.4 洛伦兹曲线与基尼系数366
5.2 模型监控368
5.2.1 前端监控—业务指标368
5.2.2 前端监控—评分分布稳定性368
5.2.3 前端监控—特征分布稳定性370
5.2.4 后端监控—评分正确性371
5.2.5 后端监控—变量有效性372
第6章 算法工程化374
6.1 构建合理的项目工程结构374
6.1.1 为什么要构建合理的项目工程结构374
6.1.2 什么是一个数据科学项目应有的结构375
6.2 如何编写规范的数据工程代码378
6.2.1 代码可读性379
6.2.2 数据处理性能381
附录 SAS EM节点说明386
第1章 金融建模综述1
1.1 企业中数据分析的层级1
1.2 操作层面的数据分析对象与成果4
1.3 数据挖掘方法分类介绍4
1.3.1 预测性—有监督学习5
1.3.2 描述性—无监督学习10
1.4 数据挖掘方法论12
1.5 数据挖掘建模框架的3个原则14
1.6 利用SAS EM创建数据挖掘项目16
1.6.1 创建数据挖掘项目16
1.6.2 给项目添加逻辑库和数据集20
1.6.3 SAS EM项目的系统文档介绍26
第2章 决策类模型28
2.1 客户价值预测28
2.1.1 线性回归模型概述28
2.1.2 Python案例:线性回归建模33
2.1.3 多元线性回归的变量筛选40
2.1.4 Python案例:多元线性回归变量筛选43
2.1.5 模型假设检验44
2.1.6 残差分析48
2.1.7 强影响点分析49
2.1.8 Python案例:线性回归调优实战50
2.1.9 线性回归的完整流程小结59
2.1.10 正则化61
2.1.11 Python案例:岭回归与Lasso回归实战65
2.2 营销响应预测70
2.2.1 使用逻辑回归预测用户响应率70
2.2.2 比较逻辑回归与线性回归70
2.2.3 图解逻辑回归71
2.2.4 逻辑回归算法概述73
2.2.5 分类模型的评估75
2.2.6 分类变量的处理79
2.2.7 Python案例:逻辑回归建模实战80
2.2.8 SAS EM案例:贷款违约预测实战88
2.2.9 逻辑回归建模小结104
2.3 细分画像104
2.3.1 主成分分析105
2.3.2 因子分析116
2.3.3 变量聚类127
2.3.4 样本聚类1—层次聚类130
2.3.5 样本聚类2—K-Means聚类136
2.4 交叉销售165
2.4.1 关联规则165
2.4.2 序列模式185
第3章 识别类模型195
3.1 申请反欺诈195
3.1.1 决策树195
3.1.2 组合算法228
3.1.3 近邻域法253
3.1.4 朴素贝叶斯257
3.1.5 支持向量机263
3.1.6 神经网络276
3.2 违规行为识别294
3.2.1 孤立森林296
3.2.2 局部异常因子304
第4章 优化分析类模型308
4.1 预测技术308
4.1.1 效应分解法309
4.1.2 基于动力模型的ARIMA317
4.1.3 基于深度学习的LSTM333
4.2 运筹优化341
4.2.1 线性规划342
4.2.2 整数规划344
4.2.3 非线性规划347
4.3 流程挖掘348
4.3.1 业务流程挖掘的总体理念348
4.3.2 流程发现352
4.3.3 流程监控353
4.3.4 流程遵循354
4.3.5 Python案例:利用pm4py实现流程挖掘355
第5章 模型评估与模型监控363
5.1 模型评估363
5.1.1 混淆矩阵363
5.1.2 ROC曲线363
5.1.3 KS统计量365
5.1.4 洛伦兹曲线与基尼系数366
5.2 模型监控368
5.2.1 前端监控—业务指标368
5.2.2 前端监控—评分分布稳定性368
5.2.3 前端监控—特征分布稳定性370
5.2.4 后端监控—评分正确性371
5.2.5 后端监控—变量有效性372
第6章 算法工程化374
6.1 构建合理的项目工程结构374
6.1.1 为什么要构建合理的项目工程结构374
6.1.2 什么是一个数据科学项目应有的结构375
6.2 如何编写规范的数据工程代码378
6.2.1 代码可读性379
6.2.2 数据处理性能381
附录 SAS EM节点说明386
前 言
为何写作本书
“工欲善其事,必先利其器。”
首先,当你考虑如何将数据应用到经营管理当中,如何从数据角度诊断业务发展中存在的问题,如何用数据指导业务发展,以及如何进行数据资产变现时,你会发现必须有一套数据加工工具以及可应用的工作流程作为支撑。当前市面上的数据分析工具十分丰富,有支持分布式计算的,有提供操作界面的,有免费开源的,有提供自动建模功能的,甚至兼而有之的。SAS EM与Python是其中十分优秀和流行的工具。SAS EM功能强大,操作简便,自动化程度高;而Python应用范围广,框架丰富,使用灵活,编写效率高。二者在分析过程中可以互相印证,在实际应用中可以互为补充。
其次,当前市面上有很多的数据建模分析书籍,绝大多数图书的目录组织方式无外乎两种类型:一种是工具型,以介绍建模分析软件、语言、框架为主;另一种是算法型,以介绍模型算法、调参、优化等为主。而以案例为主的建模分析图书较少,且其中往往以算法为主干,配合行业典型案例进行讲解。这样的材料组织方式有助于开阔眼界,但容易
“博而不专”,无法让读者将案例融入具体行业。对于具体行业的新手来说,一本以案例为主的金融垂直领域的算法手册会更有帮助。
后,数据建模分析的目的是服务业务。纵向来看,其纵贯业务经营的全流程,这需要我们使用一系列模型来支持获客营销、客户画像、价值预测、交叉销售、风险控制、运筹优化、客户维系等工作;横向来看,建模分析师要对接业务前端需求与后台的应用部署,这就要求建模分析师不仅要懂业务、懂数据、懂模型,还要了解数据治理体系、工程化实现等,这对工作流程中的协同有重要作用。从这个角度看,市场上也需要能涵盖分析框架、算法案例、工程化实现的图书。
鉴于以上原因,笔者认为需要写一本专注于金融垂直领域、支持业务全流程需求、以业务引领的建模分析手册,为广大从业者的工作和学习提供便利。本书以Python和SAS EM为工具,致力于为熟悉金融业务的你打造一套工具模板,使你可以轻松地根据需求展开分析工作,并能对当前工作的上下游流程加深理解,以便更好地开展协同工作。
本书主要内容
本书主要内容如下。
(1)金融数据挖掘的九大分析模板
本书从业务需求角度出发,探讨统计建模、机器学习模型在金融领域的应用,包括客户价值预测、营销响应预测、细分画像、交叉销售、申请反欺诈、违规行为识别、预测技术、运筹优化、流程挖掘等九大分析模板,形成模板化的工作流。同时,对模型算法做了重点讲解,方便读者理解模型本身,并在实际工作中应用。
(2)实践案例
本书主要涉及SAS EM以及Python建模分析实践,一方面介绍如何结合案例背景形成分析思路,以及在面对特定问题时调优模型,另一方面介绍工具的基本使用,使不熟悉SAS EM和Python的读者能够快速上手。
(3)算法工程化
本书为编程新手构建良好的工程代码结构和编写优雅的工程代码提供建议。
读者对象
本书主要面向金融行业的广大业务分析师、咨询师、数据建模师、算法工程师,同样适合有志于从事金融行业的在校学生和数据建模分析爱好者阅读。数据建模分析在金融行业的应用历史悠久,相关研究十分深入,因此对于从事电商、通信、传统贸易、制造等行业的从业者来说本书也有重要的借鉴价值。
内容特色
本书更多地从业务应用场景来组织内容,意在更加贴近业务,而非单纯罗列算法。经过与业内专家的反复探讨,本书提取了在行业应用中价值、常用的9类场景,力图提供不同场景中构建数据应用的实践。本书涉及的算法不局限于传统统计分析,也结合了金融业务的需求,解构了机器学习、深度学习的前沿方法,并提供了丰富的示例代码,以方便读者借鉴。
如何阅读本书
本书的定位是“手册”,这意味着你可以根据需求单独查阅相关章节的内容。不过,笔者仍然建议你通读全书,不仅因为本书涉及的算法存在一定的前后关联性,而且因为这可以让你在大脑中构建一套商业分析工作的全流程。如果你拥有充足的时间并希望建立完整的数据建模分析体系,笔者建议你合理分配时间,反复阅读本书。
遍,快速通读,形成印象。这一步其实非常重要,当你能够在大脑中构建本书的一个大致的体系框架时,你已经理解了金融建模分析的工作内容和要求,并能在本书中快速定位所需的解决方案。你可以在这一步跳过算法公式和程序代码。
第二遍,选择性地精读相关章节。具体选择哪部分取决于你工作中遇到的实际问题,只有结合实践才能更好地理解并发散思维。精读意味着需要耗费时间研究业务问题的特点、数据特征和模型细节,一方面好能结合实际数据进行扩展,另一方面在某些重点、难点上需要阅读大量相关参考资料进行佐证。虽然本书不是纯粹的编程技术书,但代码仍然非常重要,并且使用了多个数据建模分析框架。尤其对于新手来说,一定不要只是“跑”代码,而是要“敲”代码。
第三遍,通读全书,并关注其中的一些细节,例如数学公式、参数调优等。这有助于你加深对模型的理解,并更好地运用模型。需要注意的是,自然语言永远
“工欲善其事,必先利其器。”
首先,当你考虑如何将数据应用到经营管理当中,如何从数据角度诊断业务发展中存在的问题,如何用数据指导业务发展,以及如何进行数据资产变现时,你会发现必须有一套数据加工工具以及可应用的工作流程作为支撑。当前市面上的数据分析工具十分丰富,有支持分布式计算的,有提供操作界面的,有免费开源的,有提供自动建模功能的,甚至兼而有之的。SAS EM与Python是其中十分优秀和流行的工具。SAS EM功能强大,操作简便,自动化程度高;而Python应用范围广,框架丰富,使用灵活,编写效率高。二者在分析过程中可以互相印证,在实际应用中可以互为补充。
其次,当前市面上有很多的数据建模分析书籍,绝大多数图书的目录组织方式无外乎两种类型:一种是工具型,以介绍建模分析软件、语言、框架为主;另一种是算法型,以介绍模型算法、调参、优化等为主。而以案例为主的建模分析图书较少,且其中往往以算法为主干,配合行业典型案例进行讲解。这样的材料组织方式有助于开阔眼界,但容易
“博而不专”,无法让读者将案例融入具体行业。对于具体行业的新手来说,一本以案例为主的金融垂直领域的算法手册会更有帮助。
后,数据建模分析的目的是服务业务。纵向来看,其纵贯业务经营的全流程,这需要我们使用一系列模型来支持获客营销、客户画像、价值预测、交叉销售、风险控制、运筹优化、客户维系等工作;横向来看,建模分析师要对接业务前端需求与后台的应用部署,这就要求建模分析师不仅要懂业务、懂数据、懂模型,还要了解数据治理体系、工程化实现等,这对工作流程中的协同有重要作用。从这个角度看,市场上也需要能涵盖分析框架、算法案例、工程化实现的图书。
鉴于以上原因,笔者认为需要写一本专注于金融垂直领域、支持业务全流程需求、以业务引领的建模分析手册,为广大从业者的工作和学习提供便利。本书以Python和SAS EM为工具,致力于为熟悉金融业务的你打造一套工具模板,使你可以轻松地根据需求展开分析工作,并能对当前工作的上下游流程加深理解,以便更好地开展协同工作。
本书主要内容
本书主要内容如下。
(1)金融数据挖掘的九大分析模板
本书从业务需求角度出发,探讨统计建模、机器学习模型在金融领域的应用,包括客户价值预测、营销响应预测、细分画像、交叉销售、申请反欺诈、违规行为识别、预测技术、运筹优化、流程挖掘等九大分析模板,形成模板化的工作流。同时,对模型算法做了重点讲解,方便读者理解模型本身,并在实际工作中应用。
(2)实践案例
本书主要涉及SAS EM以及Python建模分析实践,一方面介绍如何结合案例背景形成分析思路,以及在面对特定问题时调优模型,另一方面介绍工具的基本使用,使不熟悉SAS EM和Python的读者能够快速上手。
(3)算法工程化
本书为编程新手构建良好的工程代码结构和编写优雅的工程代码提供建议。
读者对象
本书主要面向金融行业的广大业务分析师、咨询师、数据建模师、算法工程师,同样适合有志于从事金融行业的在校学生和数据建模分析爱好者阅读。数据建模分析在金融行业的应用历史悠久,相关研究十分深入,因此对于从事电商、通信、传统贸易、制造等行业的从业者来说本书也有重要的借鉴价值。
内容特色
本书更多地从业务应用场景来组织内容,意在更加贴近业务,而非单纯罗列算法。经过与业内专家的反复探讨,本书提取了在行业应用中价值、常用的9类场景,力图提供不同场景中构建数据应用的实践。本书涉及的算法不局限于传统统计分析,也结合了金融业务的需求,解构了机器学习、深度学习的前沿方法,并提供了丰富的示例代码,以方便读者借鉴。
如何阅读本书
本书的定位是“手册”,这意味着你可以根据需求单独查阅相关章节的内容。不过,笔者仍然建议你通读全书,不仅因为本书涉及的算法存在一定的前后关联性,而且因为这可以让你在大脑中构建一套商业分析工作的全流程。如果你拥有充足的时间并希望建立完整的数据建模分析体系,笔者建议你合理分配时间,反复阅读本书。
遍,快速通读,形成印象。这一步其实非常重要,当你能够在大脑中构建本书的一个大致的体系框架时,你已经理解了金融建模分析的工作内容和要求,并能在本书中快速定位所需的解决方案。你可以在这一步跳过算法公式和程序代码。
第二遍,选择性地精读相关章节。具体选择哪部分取决于你工作中遇到的实际问题,只有结合实践才能更好地理解并发散思维。精读意味着需要耗费时间研究业务问题的特点、数据特征和模型细节,一方面好能结合实际数据进行扩展,另一方面在某些重点、难点上需要阅读大量相关参考资料进行佐证。虽然本书不是纯粹的编程技术书,但代码仍然非常重要,并且使用了多个数据建模分析框架。尤其对于新手来说,一定不要只是“跑”代码,而是要“敲”代码。
第三遍,通读全书,并关注其中的一些细节,例如数学公式、参数调优等。这有助于你加深对模型的理解,并更好地运用模型。需要注意的是,自然语言永远
评论
还没有评论。