描述
开 本: 16开纸 张: 胶版纸包 装: 平装国际标准书号ISBN: 9787115407450丛书名: 新信息时代商业经济与管理译丛
编辑推荐
几年前,大数据不过是一个口号。今天,在每一个企业里,大数据已经在事实上存在,但只有少数企业能走进这个新的信息世界,并获得丰厚收益。分析科学,是一种深入洞察客户思维、理解复杂的客户行为动态,进而影响企业商业模式的方法手段。《大数据分析:数据科学应用场景与实践精髓》是一本讨论大数据理论及应用的专著,始于理论界的前沿观点讨论,然后转向这些理论研究在日常商业活动中的实践应用。
有人说,数据就是“新石油”,是一种价值巨大的新资源,而且取之不尽、用之不竭。这样评价数据的价值前景,一点也不为过。正如1级分析专家巴特·贝森斯(Bart Baesens)所说,数据是每个人都拥有的资源,石油则不是,这是两者的极大差别。在很多商业应用领域,如风险管理、欺诈侦测、客户关系管理、潜在客户获取等,大数据分析都提供了有价值的探索,很多企业获得了巨大的收益。阅读《大数据分析:数据科学应用场景与实践精髓》一书,迈出从数据库资源中提取有价值信息的第1步!
本书以实践者的视角,向读者展示如何利用大数据技术的全新发现和新理念,建立支撑商业活动的分析战略。鉴于分析科学相关的基础数学理论已经相当成熟,本书侧重于案例研究和行动方案,而非聚焦算法模型的技术细节。对于那些希望获知全新技术动向、尝试拓展数据分析应用领域的分析专家来说,这种务实的聚焦应用的思路,能给他们更多的启迪,真正地发挥数据资源的效用。
数据的增长速度如火箭飞天,数据分析的各种应用也同步快速增长,学习如何从大数据中获取商业价值,已成为企业打造竞争力的常备条件。巴特?贝森斯(Bart Baesens)把自己多年的经验都写进了本书中,这是一本面向行动的参考书,旨在帮助企业利用全新的分析技术,维持和提升竞争力。
有人说,数据就是“新石油”,是一种价值巨大的新资源,而且取之不尽、用之不竭。这样评价数据的价值前景,一点也不为过。正如1级分析专家巴特·贝森斯(Bart Baesens)所说,数据是每个人都拥有的资源,石油则不是,这是两者的极大差别。在很多商业应用领域,如风险管理、欺诈侦测、客户关系管理、潜在客户获取等,大数据分析都提供了有价值的探索,很多企业获得了巨大的收益。阅读《大数据分析:数据科学应用场景与实践精髓》一书,迈出从数据库资源中提取有价值信息的第1步!
本书以实践者的视角,向读者展示如何利用大数据技术的全新发现和新理念,建立支撑商业活动的分析战略。鉴于分析科学相关的基础数学理论已经相当成熟,本书侧重于案例研究和行动方案,而非聚焦算法模型的技术细节。对于那些希望获知全新技术动向、尝试拓展数据分析应用领域的分析专家来说,这种务实的聚焦应用的思路,能给他们更多的启迪,真正地发挥数据资源的效用。
数据的增长速度如火箭飞天,数据分析的各种应用也同步快速增长,学习如何从大数据中获取商业价值,已成为企业打造竞争力的常备条件。巴特?贝森斯(Bart Baesens)把自己多年的经验都写进了本书中,这是一本面向行动的参考书,旨在帮助企业利用全新的分析技术,维持和提升竞争力。
内容简介
《大数据分析 数据科学应用场景与实践精髓》是一本讨论大数据理论及应用实践的专著,从讨论理论界的前沿观点开始,之后转向讨论这些理论在日常商业活动中的实践应用。
《大数据分析 数据科学应用场景与实践精髓》首先介绍了大数据分析的业务应用场景、分析建模过程和主要任务,以及模型商用的关键点;接着讲述了数据收集、抽样和预处理的实施要点;之后系统性地讨论了各种模型技术及其应用,包括预测分析、描述分析、生存分析、社交网络分析等。在完成了这些理论知识和模型技术方法铺垫之后,就进入到实践应用部分,包括把分析活动转化为生产力的关键事项,以及各种应用实例。
《大数据分析 数据科学应用场景与实践精髓》帮助读者系统地梳理了各类模型方法的技术要点和应用要点,包括线性回归、Logistic回归、决策树、聚类、关联规则、序列规则、神经网络、支持向量机、套袋算法、Boosting算法、*森林算法、生存分析等;本书还介绍了大量的应用实例,如信用风险建模、欺诈检测、营销响应提升模型、客户流失预测、自动推荐、网页分析、社交媒体分析,以及业务流程分析等。因此,对于从事大数据分析相关工作的人士来说,本书是一本难得的实务指南;对于高等院校相关专业的师生来说,本书是一本非常好的课外阅读材料,特别是书中关于如何把分析变成生产力的章节部分,相信一定能给他们很多的启发和思考。
《大数据分析 数据科学应用场景与实践精髓》首先介绍了大数据分析的业务应用场景、分析建模过程和主要任务,以及模型商用的关键点;接着讲述了数据收集、抽样和预处理的实施要点;之后系统性地讨论了各种模型技术及其应用,包括预测分析、描述分析、生存分析、社交网络分析等。在完成了这些理论知识和模型技术方法铺垫之后,就进入到实践应用部分,包括把分析活动转化为生产力的关键事项,以及各种应用实例。
《大数据分析 数据科学应用场景与实践精髓》帮助读者系统地梳理了各类模型方法的技术要点和应用要点,包括线性回归、Logistic回归、决策树、聚类、关联规则、序列规则、神经网络、支持向量机、套袋算法、Boosting算法、*森林算法、生存分析等;本书还介绍了大量的应用实例,如信用风险建模、欺诈检测、营销响应提升模型、客户流失预测、自动推荐、网页分析、社交媒体分析,以及业务流程分析等。因此,对于从事大数据分析相关工作的人士来说,本书是一本难得的实务指南;对于高等院校相关专业的师生来说,本书是一本非常好的课外阅读材料,特别是书中关于如何把分析变成生产力的章节部分,相信一定能给他们很多的启发和思考。
目 录
目录
1 第1章 大数据及其分析
1.1 大数据的业务应用场景
1.2 基本的专业术语
1.3 分析过程模型
1.4 分析建模活动中的任务及角色
1.5 分析技术
1.6 分析模型的要求
1.7 本章参考文献
13 第2章 数据采集、抽样和预处理
2.1 数据源的类型
2.2 数据抽样
2.3 数据类型
2.4 数据可视化及探索性统计分析
2.5 缺失值的处理
2.6 异常值检测及处理
2.7 数据标准化
2.8 粗分类(Categorization)处理
2.9 WOE值的计算
2.10 变量的选择
2.11 细分
2.12 本章参考文献
35 第3章 预测分析
3.1 定义目标变量
3.2 线性回归
3.3 Logistic回归
3.4 决策树
3.5 神经网络
3.6 支持向量机
3.7 集成算法
3.7.1 套袋算法(Bagging)
3.7.2 Boosting方法
3.7.3 随机森林
3.8 多类分类技术
3.8.1 多类Logistic回归
3.8.2 多类决策树
3.8.3 多类神经网络
3.8.4 多类支持向量机
3.9 预测模型的评估
3.9.1 数据集的分割
3.9.2 分类模型的性能评估
3.9.3 回归模型的性能评估
3.10 本章参考文献
89 第4章 描述性分析
4.1 关联规则
4.1.1 基本概念及假设
4.1.2 支持度和置信度
4.1.3 关联规则的挖掘
4.1.4 提升度的度量
4.1.5 关联规则的后处理
4.1.6 关联规则的扩展
4.1.7 关联规则的应用
4.2 序列规则
4.3 细分技术
4.3.1 分层聚类
4.3.2 K-Means聚类
4.3.3 自组织映射图(SOM)
4.3.4 聚类解决方案的应用及解释
4.4 本章参考文献
107 第5章 生存分析
5.1 生存分析的基本概念和函数
5.2 卡普兰·梅尔分析
5.3 参数法生存分析
5.4 比例风险回归模型
5.5 生存分析模型的扩展
5.6 生存分析模型的评估
5.7 本章参考文献
123 第6章 社交网络分析
6.1 社交网络的定义
6.2 社交网络的度量
6.3 社交网络学习
6.4 关系近邻分类器
6.5 概率关系近邻分类器
6.6 关系逻辑回归
6.7 共同模式推断
6.8 自中心网络(EGO NETS)
6.9 偶图/二分图
6.10 本章参考文献
137 第7章 从分析到生产力
7.1 模型的后验测试
7.1.1 分类模型的后验测试
7.1.2 回归模型的后验测试
7.1.3 聚类模型的后验测试
7.1.4 设计后验测试方案
7.2 参照管理
7.3 数据质量
7.4 软件工具
7.5 隐私保护
7.6 模型设计相关文档
7.7 公司治理
7.8 本章参考文献
167 第8章 实践与案例
8.1 信用风险建模
8.2 欺诈检测
8.3 净响应提升建模
8.4 流失预测
8.4.1 流失预测模型
8.4.2 流失预测流程
8.5 推荐系统
8.5.1 协同过滤推荐
8.5.2 基于内容的推荐
8.5.3 基于人口统计信息的推荐
8.5.4 基于知识的推荐
8.5.5 组合推荐
8.5.6 推荐系统的评价
8.5.7 案例介绍
8.6 网页分析
8.6.1 网页数据收集
8.6.2 Web KPI指标
8.6.3 从Web KPI到行动洞察力
8.6.4 导航分析
8.6.5 搜索引擎营销分析
8.6.6 A/B测试和多变量测试
8.7 社会化媒体分析
8.7.1 社交网站:B2B广告工具
8.7.2 情感分析
8.7.3 网络分析
8.8 业务流程分析
8.8.1 流程智能
8.8.2 流程挖掘和分析
8.8.3 形成闭环:全流程的整合数据分析
8.9 本章参考文献
231 译者后记
1 第1章 大数据及其分析
1.1 大数据的业务应用场景
1.2 基本的专业术语
1.3 分析过程模型
1.4 分析建模活动中的任务及角色
1.5 分析技术
1.6 分析模型的要求
1.7 本章参考文献
13 第2章 数据采集、抽样和预处理
2.1 数据源的类型
2.2 数据抽样
2.3 数据类型
2.4 数据可视化及探索性统计分析
2.5 缺失值的处理
2.6 异常值检测及处理
2.7 数据标准化
2.8 粗分类(Categorization)处理
2.9 WOE值的计算
2.10 变量的选择
2.11 细分
2.12 本章参考文献
35 第3章 预测分析
3.1 定义目标变量
3.2 线性回归
3.3 Logistic回归
3.4 决策树
3.5 神经网络
3.6 支持向量机
3.7 集成算法
3.7.1 套袋算法(Bagging)
3.7.2 Boosting方法
3.7.3 随机森林
3.8 多类分类技术
3.8.1 多类Logistic回归
3.8.2 多类决策树
3.8.3 多类神经网络
3.8.4 多类支持向量机
3.9 预测模型的评估
3.9.1 数据集的分割
3.9.2 分类模型的性能评估
3.9.3 回归模型的性能评估
3.10 本章参考文献
89 第4章 描述性分析
4.1 关联规则
4.1.1 基本概念及假设
4.1.2 支持度和置信度
4.1.3 关联规则的挖掘
4.1.4 提升度的度量
4.1.5 关联规则的后处理
4.1.6 关联规则的扩展
4.1.7 关联规则的应用
4.2 序列规则
4.3 细分技术
4.3.1 分层聚类
4.3.2 K-Means聚类
4.3.3 自组织映射图(SOM)
4.3.4 聚类解决方案的应用及解释
4.4 本章参考文献
107 第5章 生存分析
5.1 生存分析的基本概念和函数
5.2 卡普兰·梅尔分析
5.3 参数法生存分析
5.4 比例风险回归模型
5.5 生存分析模型的扩展
5.6 生存分析模型的评估
5.7 本章参考文献
123 第6章 社交网络分析
6.1 社交网络的定义
6.2 社交网络的度量
6.3 社交网络学习
6.4 关系近邻分类器
6.5 概率关系近邻分类器
6.6 关系逻辑回归
6.7 共同模式推断
6.8 自中心网络(EGO NETS)
6.9 偶图/二分图
6.10 本章参考文献
137 第7章 从分析到生产力
7.1 模型的后验测试
7.1.1 分类模型的后验测试
7.1.2 回归模型的后验测试
7.1.3 聚类模型的后验测试
7.1.4 设计后验测试方案
7.2 参照管理
7.3 数据质量
7.4 软件工具
7.5 隐私保护
7.6 模型设计相关文档
7.7 公司治理
7.8 本章参考文献
167 第8章 实践与案例
8.1 信用风险建模
8.2 欺诈检测
8.3 净响应提升建模
8.4 流失预测
8.4.1 流失预测模型
8.4.2 流失预测流程
8.5 推荐系统
8.5.1 协同过滤推荐
8.5.2 基于内容的推荐
8.5.3 基于人口统计信息的推荐
8.5.4 基于知识的推荐
8.5.5 组合推荐
8.5.6 推荐系统的评价
8.5.7 案例介绍
8.6 网页分析
8.6.1 网页数据收集
8.6.2 Web KPI指标
8.6.3 从Web KPI到行动洞察力
8.6.4 导航分析
8.6.5 搜索引擎营销分析
8.6.6 A/B测试和多变量测试
8.7 社会化媒体分析
8.7.1 社交网站:B2B广告工具
8.7.2 情感分析
8.7.3 网络分析
8.8 业务流程分析
8.8.1 流程智能
8.8.2 流程挖掘和分析
8.8.3 形成闭环:全流程的整合数据分析
8.9 本章参考文献
231 译者后记
媒体评论
“仅仅通过持续开发和利用海量数据资源,谷歌、脸谱网、优步、Waze、Zillow之类的互联网公司,就动摇了众多传统行业的业务运营模式。就打造竞争优势而言,将精力和资源集中投入到收集和利用新数据,简单且非常有必要。当今时代,受益于层出不穷的技术创新,我们能以更低的成本、更快的速度,收集、存储和分析任何类型的数据。在这本书中,作者结合数据科学(或者说分析科学),提出了许多独到的研究见解,给出了丰富的商业应用案例,对于那些希望利用相关技术,帮助企业获得可持续战略优势的人士来说,本书非常值得一读!”
——萨宾·艾尔瑞特(Sabine Everaet),可口可乐欧洲公司CIO(首席信息官)
“当今的互联网技术应用领先型公司,如易趣网、亚马逊和脸谱网等,接触了数亿用户,产生了大量的数据,涵盖交易活动及社交活动的方方面面。掌握从海量数据中获取知识宝藏的技术,是这些公司赢得客户、提升竞争力的关键。作者依托自身的业务经验和专业知识,介绍了各种数据科学和分析技术的实践应用,对于那些力图把本公司数据资源变为经营决策的动力引擎的企业来说,本书是一本极佳的实践操作指导手册!”
——斯蒂夫·梅兹(Steve Metz),eBay公司高级总监,负责全球客户体验业务
把大数据变成大机会
“我们该从哪里起步?”当需要从战略层面加强数据管理及应用时,越来越多的企业提出了这个问题。说到抓取、整合多个渠道的数据,用于业务经营活动,并量化其价值,似乎是一项不可完成的艰巨任务,《大数据分析:数据科学应用场景与实践精髓》一书正是为此而写。对于那些聚焦大数据分析的商业应用实践的人士而言,本书堪称量身打造。分析专家巴特?贝森斯(Bart Baesens)通过案例研究、企业中的现实应用,以及必要的利用理论和数学公式的方法步骤,深入浅出地答疑解惑。
大数据的应用领域正在不断扩大。本书给出了把大数据分析技术用于客户关系管理、社会化媒体、风险管理以及更多业务领域的方法。洞察过去的行为,有助于预测未来的发展趋势,从而让企业更有效地响应市场变化。事实证明,从刻画和预测复杂的客户行为模式开始,找出符合自身业务经营特点的分析方法,是企业增加价值、实现经营目标的基础。
大数据是一种可快速利用的、成本低廉的资产。分析科学已经渗透到各行各业,渗透到每个企业的各个业务部门,如果不能善用自己的数据资产,企业将会在未来的竞争中走向没落。新信息技术的发展趋势,已经改变了企业识别新商业机会的规
——萨宾·艾尔瑞特(Sabine Everaet),可口可乐欧洲公司CIO(首席信息官)
“当今的互联网技术应用领先型公司,如易趣网、亚马逊和脸谱网等,接触了数亿用户,产生了大量的数据,涵盖交易活动及社交活动的方方面面。掌握从海量数据中获取知识宝藏的技术,是这些公司赢得客户、提升竞争力的关键。作者依托自身的业务经验和专业知识,介绍了各种数据科学和分析技术的实践应用,对于那些力图把本公司数据资源变为经营决策的动力引擎的企业来说,本书是一本极佳的实践操作指导手册!”
——斯蒂夫·梅兹(Steve Metz),eBay公司高级总监,负责全球客户体验业务
把大数据变成大机会
“我们该从哪里起步?”当需要从战略层面加强数据管理及应用时,越来越多的企业提出了这个问题。说到抓取、整合多个渠道的数据,用于业务经营活动,并量化其价值,似乎是一项不可完成的艰巨任务,《大数据分析:数据科学应用场景与实践精髓》一书正是为此而写。对于那些聚焦大数据分析的商业应用实践的人士而言,本书堪称量身打造。分析专家巴特?贝森斯(Bart Baesens)通过案例研究、企业中的现实应用,以及必要的利用理论和数学公式的方法步骤,深入浅出地答疑解惑。
大数据的应用领域正在不断扩大。本书给出了把大数据分析技术用于客户关系管理、社会化媒体、风险管理以及更多业务领域的方法。洞察过去的行为,有助于预测未来的发展趋势,从而让企业更有效地响应市场变化。事实证明,从刻画和预测复杂的客户行为模式开始,找出符合自身业务经营特点的分析方法,是企业增加价值、实现经营目标的基础。
大数据是一种可快速利用的、成本低廉的资产。分析科学已经渗透到各行各业,渗透到每个企业的各个业务部门,如果不能善用自己的数据资产,企业将会在未来的竞争中走向没落。新信息技术的发展趋势,已经改变了企业识别新商业机会的规
书摘插画
评论
还没有评论。