描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787115514103
1.作者*近几年与多家企业合作,开展了多项机器学习数据分析的项目,熟悉机器学习的基本原理,并对 TI One、Spark MLlib、TensorFlow 等主流的机器学习工具的安装、配置以及使用过程中的问题比较熟悉,积累了一些详细的分析案例,可以支撑《机器学习实验案例分析》的内容。 2.通过《机器学习实验案例分析》的学习,学生不仅可以模仿实验指导书重复基于 TI One、、Spark MLlib、TensorFlow 的实际数据分析应用,也很容易与一反三,对新问题设计合理的分析思路。 3.作者是国内早期研究商务智能的学者之一(2001 年起),在国内也是较早开设商务智能等数据分析课程(2003 年起),有一定的影响力。商务智能被评为上海市精品课程,获得 2013年高等教育上海市教学成果奖二等奖。 4.通过精心选择数据和应用问题,并设计项目的实验指导书,突出数据分析过程中常遇到的问题,使得学生根据这些材料不仅能消化理解TI One、Spark MLlib、TensorFlow 等主流机器学习平台的原理,还能针对实际问题设计针对可视化分析、机器学习等分析程序,具有较强的实战性。
机器学习已经广泛地应用于各行各业,深度学习的兴起再次推动了人工智能的热潮。本书结合项目实践,首先讨论了TensorFlow、PySpark、TI-ONE等主流机器学习平台的主要特点;然后结合Tableau介绍了数据可视化在银行客户用卡行为分析的应用。在此基础上,利用上述介绍的这些平台,通过多个项目案例,详细地分析了决策树、随机森林、支持向量机、逻辑回归、贝叶斯网络、卷积神经网络、循环神经网络、对抗生成网络等机器学习算法在金融、商业、汽车、电力等领域的应用。 本书内容深入浅出,提供了详细的 Python 代码,既可以作为从事机器学习、数据挖掘的相关研究人员的参考书,也可以作为高校相关专业机器学习、数据挖掘等课程的实验和实训教材。
第1章 常用机器学习平台. 1
1.1 常用机器学习工具1
1.2 TI-ONE 平台概述3
1.3 PySpark 介绍4
1.4 TI-ONE 机器学习平台主要的组件5
1.4.1 数据源组件 5
1.4.2 机器学习组件 6
1.4.3 输出组件10
1.4.4 模型评估组件 11
第2章 银行信用卡风险的可视化分析. 12
2.1 Tableau 简介13
2.2 用户信用等级影响因素13
2.3 用户消费情况对信用等级的影响.19
2.4 用户拖欠情况对信用等级的影响.24
2.5 欺诈用户特征分析27
第3章 贷款违约行为预测. 31
3.1 建立信用评估模型的必要性31
3.2 数据准备与预处理32
3.2.1 原始数据集 33
3.2.2 基础表数据预处理 36
3.2.3 多表合并40
3.3 模型选择.42
3.3.1 带正则项的Logistic 回归模型 42
3.3.2 朴素贝叶斯模型 42
3.3.3 随机森林模型 42
3.3.4 SVM 模型 43
3.4 TI-ONE 整体流程43
3.4.1 登录TI-ONE 44
3.4.2 输入工作流名称 44
3.4.3 上传数据 45
3.4.4 数据预处理 46
3.4.5 拆分出验证集 50
3.4.6 拆分出测试集 51
3.4.7 模型训练和评估 51
第4章 保险风险预测.61
4.1 背景介绍 61
4.2 数据预处理63
4.2.1 数据加载与预览 63
4.2.2 缺失值处理 64
4.2.3 属性值的合并与连接 65
4.2.4 数据转换 66
4.2.5 数据标准化和归一化 67
4.3 多维分析.67
4.4 基于神经网络模型预测保险风险.70
4.5 使用SVM 预测保险风险.74
第5章 银行客户流失预测 80
5.1 问题描述 80
5.2 数据上传.82
5.3 数据预处理83
5.3.1 非数值特征处理 83
5.3.2 数据离散化处理 83
5.3.3 数据筛选 85
5.3.4 数据格式转化 86
5.3.5 数据分割 87
5.4 数据建模 88
5.5 模型校验评估 91
5.5.1 二分类算法评估 91
5.5.2 ROC 曲线绘制. 92
5.5.3 决策树参数优化 94
5.5.4 k 折交叉验证. 95
5.6 工作流的运行.95
5.7 算法性能比较.98
第6章 基于深度神经网络的股票预测 100
6.1 股票趋势预测的背景和分析思路100
6.2 数据提取.103
6.3 数据预处理103
6.3.1 数据归一化103
6.3.2 加窗处理104
6.3.3 分割数据集106
6.3.4 标签独热编码转化106
6.4 模型训练.106
6.5 算法评估.110
6.6 算法比较.111
第7章 保险产品推荐119
7.1 保险产品推荐的流程.120
7.2 数据提取.121
7.2.1 上传原始文件 121
7.2.2 读取训练集和检验集 122
7.3 数据预处理124
7.3.1 去重和合并数据集124
7.3.2 缺失值处理 125
7.3.3 特征选择 126
7.3.4 类型变量独热编码 127
7.3.5 数值变量规范化 127
7.3.6 生成训练集和检验集 128
7.4 构建保险预测模型129
7.5 模型评估.131
第8章 零售商品销售预测. 133
8.1 问题分析.133
8.2 数据探索.135
8.2.1 上传原始数据 135
8.2.2 数据质量评估 136
8.3 数据预处理139
8.3.1 填补缺失值 139
8.3.2 修正异常值 140
8.3.3 衍生字段 141
8.3.4 类型变量数值化和独热编码化 142
8.3.5 数据导出 143
8.4 建立销售量预测模型.143
8.4.1 线性回归模型 144
8.4.2 Ridge 回归模型. 145
8.4.3 Lasso 回归模型. 145
8.4.4 Elastic Net 回归模型. 146
8.4.5 决策树回归模型 146
8.4.6 梯度提升树回归模型 147
8.4.7 随机森林回归模型 148
8.5 模型评估.148
第9章 汽车备件销售预测. 151
9.1 数据理解.151
9.2 数据分析流程.152
9.2.1 设置数据源 152
9.2.2 数据预处理 155
9.2.3 建模分析与评估 158
9.3 聚类分析.162
第10章 火力发电厂工业蒸汽量预测.166
10.1 确定业务问题.166
10.2 数据理解.166
10.3 工业蒸汽量的预测建模过程167
10.3.1 设置数据源 168
10.3.2 数据预处理 168
10.3.3 建模分析与评估 172
第11章 图片风格转化.179
11.1 CycleGAN 原理.180
11.2 图片风格转化整体流程182
11.2.1 设置数据源 183
11.2.2 数据预处理184
11.2.3 模型训练 186
11.2.4 验证模型参数以及测试集 193
11.2.5 模型测试——转化图片风格194
11.3 运行工作流195
11.4 算法比较.198
11.4.1 CycleGAN 与pix2pix 模型. 198
11.4.2 CycleGAN 与DistanceGAN 模型 198
11.5 使用TensorFlow 实现图片风格转化.199
第12章 人类活动识别.206
12.1 问题分析.206
12.2 数据探索.207
12.3 数据预处理209
12.4 模型构建.210
12.5 模型评估.214
第13章 GRU 算法在基于Session 的推荐系统的应用 221
13.1 问题分析.221
13.2 数据探索与预处理222
13.2.1 数据变换 223
13.2.2 数据过滤 223
13.2.3 数据分割 223
13.2.4 格式转换224
13.3 构建GRU 模型225
13.3.1 GRU 概述 225
13.3.2 构建GRU 推荐模型. 226
13.4 模型评估.229
第14章 人脸老化预测 233
14.1 问题分析与数据集简介233
14.2 图片编码与GAN 设计.234
14.3 模型实现.235
14.4 实验分析.236
第15章 出租车轨迹数据分析 243
15.1 数据获取.244
15.2 数据预处理246
15.3 数据分析.252
15.3.1 出租车区域推荐以及交通管理建议 252
15.3.2 城市规划建议 257
第16章 城市声音分类.261
16.1 数据准备与探索261
16.2 数据特征提取.268
16.3 构建城市声音分类模型271
16.3.1 使用MLP 训练声音分类模型 271
16.3.2 使用LSTM 与GRU 网络训练声音分类模型. 273
16.3.3 使用CNN 训练声音分类模型 274
16.4 声音分类模型评估275
16.4.1 MLP 网络性能评估 275
16.4.2 LSTM 与GRU 网络性能评估. 276
16.4.3 CNN 性能评估 277
后记 数据分析技能培养 279
参考文献. 282
评论
还没有评论。