描述

开本: 128开纸张: 胶版纸包装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121420580

内容简介

全书围绕Alink（阿里在Flink基础上做的开源版本）的展开，以实例为主阐述Alink的使用。 ?以机器学习的知识架构将各个章节串联起来，每个章节配合实例，用户更容易理解和入手尝试。 ?数据会采用读者能免费下载的数据集，在加上Alink本身是开源的、免费的。用户试用起来没有成本。 ?实例实现的源代码，准备放在Alink开源git上，大家容易看到，可以直接下载，代码旁边会有实体书的介绍 ?以机器学习的知识架构将各个章节串联起来，每个章节配合实例，用户更容易理解和入手尝试。 ?数据会采用读者能免费下载的数据集，在加上Alink本身是开源的、免费的。用户试用起来没有成本。 ?实例实现的源代码，准备放在Alink开源git上，大家容易看到，可以直接下载，代码旁边会有实体书的介绍

作者简介

2004年获南开大学数学博士学位；随后在南开大学信息学院从事博士后研究工作；2006年加入微软亚洲研究院，进行符号计算、大规模矩阵计算及机器学习算法研究；2010年加入阿里巴巴，从事大数据相关的统计和机器学习算法研发。著有《重构大数据统计》《机器学习在线》等。

目　　录

第1章　Alink快速上手 1

1.1　Alink是什么 1

1.2　免费下载、安装 1

1.3　Alink的功能 2

1.3.1　丰富的算法库 2

1.3.2　多样的使用体验 3

1.3.3　与SparkML的对比 3

1.4　关于数据和代码 4

1.5　简单示例 5

1.5.1　数据的读/写与显示 5

1.5.2　批式训练和批式预测 7

1.5.3　流式处理和流式预测 9

1.5.4　定义Pipeline，简化操作 10

1.5.5　嵌入预测服务系统 12

第2章　系统概况与核心概念 14

2.1　基本概念 14

2.2　批式任务与流式任务 15

2.3　Alink=A link 18

2.3.1　BatchOperator和StreamOperator 19

2.3.2　link方式是批式算法/流式算法的通用使用方式 20

2.3.3　link的简化 23

2.3.4　组件的主输出与侧输出 23

2.4　Pipeline与PipelineModel 24

2.4.1　概念和定义 24

2.4.2　深入介绍 25

2.5　触发Alink任务的执行 28

2.6　模型信息显示 29

2.7　文件系统与数据库 34

2.8　Schema String 36

第3章　文件系统与数据文件 38

3.1　文件系统简介 38

3.1.1　本地文件系统 39

3.1.2　Hadoop文件系统 41

3.1.3　阿里云OSS文件系统 43

3.2　数据文件的读入与导出 45

3.2.1　CSV格式 47

3.2.2　TSV、LibSVM、Text格式 53

3.2.3　AK格式 56

第4章　数据库与数据表 60

4.1　简介 60

4.1.1　Catalog的基本操作 60

4.1.2　Source和Sink组件 61

4.2　Hive示例 62

4.3　Derby示例 65

4.4　MySQL示例 67

第5章　支持Flink SQL 70

5.1　基本操作 70

5.1.1　注册 70

5.1.2　运行 71

5.1.3　内置函数 74

5.1.4　用户定义函数 74

5.2　简化操作 75

5.2.1　单表操作 76

5.2.2　两表的连接（JOIN）操作 80

5.2.3　两表的集合操作 82

5.3　深入介绍Table Environment 86

5.3.1　注册数据表名 87

5.3.2　撤销数据表名 88

5.3.3　扫描已注册的表 89

第6章　用户定义函数（UDF/UDTF） 90

6.1　用户定义标量函数（UDF） 90

6.1.1　示例数据及问题 91

6.1.2　UDF的定义 91

6.1.3　使用UDF处理批式数据 92

6.1.4　使用UDF处理流式数据 93

6.2　用户定义表值函数（UDTF） 95

6.2.1　示例数据及问题 95

6.2.2　UDTF的定义 96

6.2.3　使用UDTF处理批式数据 96

6.2.4　使用UDTF处理流式数据 99

第7章　基本数据处理 101

7.1　采样 101

7.1.1　取“前”N个数据 102

7.1.2　随机采样 102

7.1.3　加权采样 104

7.1.4　分层采样 105

7.2　数据划分 106

7.3　数值尺度变换 108

7.3.1　标准化 109

7.3.2　MinMaxScale 111

7.3.3　MaxAbsScale 112

7.4　向量的尺度变换 113

7.4.1　StandardScale、MinMaxScale、MaxAbsScale 113

7.4.2　正则化 115

7.5　缺失值填充 116

第8章　线性二分类模型 119

8.1　线性模型的基础知识 119

8.1.1　损失函数 119

8.1.2　经验风险与结构风险 121

8.1.3　线性模型与损失函数 122

8.1.4　逻辑回归与线性支持向量机（Linear SVM） 123

8.2　二分类评估方法 125

8.2.1　基本指标 126

8.2.2　综合指标 128

8.2.3　评估曲线 131

8.3　数据探索 136

8.3.1　基本统计 138

8.3.2　相关性 140

8.4　训练集和测试集 144

8.5　逻辑回归模型 145

8.6　线性SVM模型 147

8.7　模型评估 149

8.8　特征的多项式扩展 153

8.9　因子分解机 157

第9章　朴素贝叶斯模型与决策树模型 160

9.1　朴素贝叶斯模型 160

9.2　决策树模型 162

9.2.1　决策树的分裂指标定义 165

9.2.2　常用的决策树算法 167

9.2.3　指标计算示例 169

9.2.4　分类树与回归树 172

9.2.5　经典的决策树示例 173

9.3　数据探索 176

9.4　使用朴素贝叶斯方法 179

9.5　蘑菇分类的决策树 185

第10章　特征的转化 191

10.1　整体流程 195

10.1.1　特征哑元化 197

10.1.2　特征的重要性 198

10.2　减少模型特征的个数 200

10.3　离散特征转化 202

10.3.1　独热编码 202

10.3.2　特征哈希 204

第11章　构造新特征 207

11.1　数据探索 208

11.2　思路 210

11.2.1　用户和品牌的各种特征 211

11.2.2　二分类模型训练 212

11.3　计算训练集 213

11.3.1　原始数据划分 213

11.3.2　计算特征 214

11.3.3　计算标签 222

11.4　正负样本配比 224

11.5　决策树 226

11.6　集成学习 227

11.6.1　Bootstrap aggregating 228

11.6.2　Boosting 229

11.6.3　随机森林与GBDT 232

11.7　使用随机森林算法 233

11.8　使用GBDT算法 234

第12章　从二分类到多分类 235

12.1　多分类模型评估方法 235

12.1.1　综合指标 237

12.1.2　关于每个标签值的二分类指标 238

12.1.3　Micro、Macro、Weighted计算的指标 239

12.2　数据探索 241

12.3　使用朴素贝叶斯进行多分类 244

12.4　二分类器组合 246

12.5　Softmax算法 249

12.6　多层感知器分类器 253

第13章　常用多分类算法 256

13.1　数据准备 256

13.1.1　读取MNIST数据文件 257

13.1.2　稠密向量与稀疏向量 258

13.1.3　标签值的统计信息 261

13.2　Softmax算法 262

13.3　二分类器组合 264

13.4　多层感知器分类器 265

13.5　决策树与随机森林 267

13.6　K近邻算法 270

第14章　在线学习 273

14.1　整体流程 273

14.2　数据准备 275

14.3　特征工程 277

14.4　特征工程处理数据 279

14.5　在线训练 280

14.6　模型过滤 283

第15章　回归的由来 286

15.1　平均数 287

15.2　向平均数方向的回归 288

15.3　线性回归 289

第16章　常用回归算法 292

16.1　回归模型的评估指标 292

16.2　数据探索 294

16.3　线性回归 297

16.4　决策树与随机森林 300

16.5　GBDT回归 301

第17章　常用聚类算法 303

17.1　聚类评估指标 304

17.1.1　基本评估指标 304

17.1.2　基于标签值的评估指标 306

17.2　K-Means聚类 308

17.2.1　算法简介 308

17.2.2　K-Means实例 309

17.3　高斯混合模型 314

17.3.1　算法介绍 314

17.3.2　GMM实例 316

17.4　二分K-Means聚类 317

17.5　基于经纬度的聚类 320

第18章　批式与流式聚类 324

18.1　稠密向量与稀疏向量 324

18.2　使用聚类模型预测流式数据 326

18.3　流式聚类 329

第19章　主成分分析 331

19.1　主成分的含义 333

19.2　两种计算方式 337

19.3　在聚类方面的应用 339

19.4　在分类方面的应用 343

第20章　超参数搜索 347

20.1　示例一：尝试正则系数 348

20.2　示例二：搜索GBDT超参数 349

20.3　示例三：聚类个数 350

第21章　文本分析 353

21.1　数据探索 353

21.2　分词 355

21.2.1　中文分词 356

21.2.2　Tokenizer和RegexTokenizer 359

21.3　词频统计 363

21.4　单词的区分度 365

21.5　抽取关键词 367

21.5.1　原理简介 367

21.5.2　示例 369

21.6　文本相似度 371

21.6.1　文本成对比较 372

21.6.2　相似的TopN 375

21.7　主题模型 387

21.7.1　LDA模型 388

21.7.2　新闻的主题模型 390

21.7.3　主题与原始分类的对比 392

21.8　组件使用小结 396

第22章　单词向量化 398

22.1　单词向量预训练模型 399

22.1.1　加载模型 399

22.1.2　查找相似的单词 400

22.1.3　单词向量 402

22.2　单词映射为向量 406

第23章　情感分析 412

23.1　使用提供的特征 413

23.1.1　使用朴素贝叶斯方法 416

23.1.2　使用逻辑回归算法 419

23.2　如何提取特征 423

23.3　构造更多特征 426

23.4　模型保存与预测 430

23.4.1　批式/流式预测任务 430

23.4.2　嵌入式预测 431

第24章　构建推荐系统 433

24.1　与推荐相关的组件介绍 434

24.2　常用推荐算法 437

24.2.1　协同过滤 437

24.2.2　交替小二乘法 438

24.3　数据探索 439

24.4　评分预测 444

24.5　根据用户推荐影片 446

24.6　计算相似影片 452

24.7　根据影片推荐用户 454

24.8　计算相似用户 457

抢先评论了 “Alink权威指南：基于Flink的机器学习实例入门（Java）” 取消回复

还没有评论。

Alink权威指南：基于Flink的机器学习实例入门（Java）

作者:杨旭出版社:电子工业出版社出版时间:2021年10月

ISBN: 9787121420580

年中特卖用“SALE15”折扣卷全场书籍85折！可与三本88折，六本78折的优惠叠加计算！全球包邮!

描述

抢先评论了 “Alink权威指南：基于Flink的机器学习实例入门（Java）” 取消回复

评论

Alink权威指南：基于Flink的机器学习实例入门（Java）

作者:杨旭 出版社:电子工业出版社 出版时间:2021年10月

ISBN: 9787121420580

年中特卖用“SALE15”折扣卷全场书籍85折！可与三本88折，六本78折的优惠叠加计算！全球包邮!

描述

抢先评论了 “Alink权威指南：基于Flink的机器学习实例入门（Java）” 取消回复

评论

相关产品

Head First HTML5 Programming（中文版）

码农翻身（好玩有趣的编程知识）

21世纪C语言（影印版）

Python核心编程 第3版

作者:杨旭出版社:电子工业出版社出版时间:2021年10月

Python核心编程第3版