描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121478178
时间序列的分析、预测及异常检测方法。
时间序列的相似性度量方法与聚类算法。
多维时间序列及其在多个场景下的应用。
本书分为8 章,内容包括时间序列分析的基础知识、时间序列预测的常用方法,以及神经网络在时间序列预测中的应用;时间序列异常检测算法的技术与框架,如何识别异常的时间点及多种异常检测方法;时间序列的相似性度量方法、聚类算法;多维时间序列在广告分析和业务运维领域的应用,利用OLAP 技术对多维时间序列进行有效处理,通过根因分析技术获得导致故障的维度和元素;智能运维领域(AIOps)和金融领域的两个应用场景。
第1 章时间序列概述 1
1.1 发展历程 1
1.2 应用现状 3
1.3 时间序列分类4
1.3.1 单维时间序列4
1.3.2 多维时间序列6
1.4 小结 8
第2 章时间序列的信息提取 9
2.1 特征工程的入门知识9
2.1.1 特征工程简介9
2.1.2 数值型特征 12
2.1.3 类别型特征 17
2.1.4 交叉特征 17
2.2 时间序列的预处理 18
2.2.1 时间序列的缺失值 18
2.2.2 时间序列的缩放 20
2.3 时间序列的特征工程24
2.4 时间序列的统计特征28
2.5 时间序列的熵特征 32
2.6 时间序列的降维特征38
2.6.1 分段聚合逼近38
2.6.2 分段线性逼近39
2.6.3 分段常数逼近41
2.6.4 符号逼近 42
2.6.5 最大三角形三桶算法43
2.6.6 用神经网络自动生成特征的算法 44
2.7 时间序列的单调性 53
2.7.1 线性拟合方法54
2.7.2 控制图方法 55
2.7.3 均线方法 60
2.8 小结 63
第3 章时间序列预测 64
3.1 时间序列预测的统计方法 65
3.1.1 自回归差分移动平均模型 65
3.1.2 指数平滑方法72
3.1.3 Prophet 75
3.2 时间序列预测的深度学习方法 83
3.2.1 循环神经网络83
3.2.2 长短期记忆网络 85
3.2.3 Transformer 90
3.2.4 Informer96
3.3 小结·100
第4 章时间序列异常检测 101
4.1 异常类型及检测方法分类 101
4.2 基于概率密度的方法 104
4.2.1 核密度估计原理 104
4.2.2 核密度估计方法 106
4.3 基于重构的方法 111
4.3.1 变分自编码器 111
4.3.2 Donut 115
4.4 基于距离的方法 117
4.4.1 孤立森林 118
4.4.2 RRCF 121
4.5 基于有监督的方法 125
4.6 基于弱监督的方法 127
4.7 小结 129
第5 章时间序列的相似度与聚类 130
5.1 相似度函数 130
5.1.1 经典的相似度函数 131
5.1.2 基于分段聚合逼近的相似度函数 134
5.1.3 基于时间序列平滑的相似度函数 135
5.1.4 基于神经网络的相似度算法 136
5.2 距离函数 137
5.2.1 欧氏距离 138
5.2.2 DTW 算法139
5.2.3 基于相似性的距离 140
5.2.4 基于符号特征的距离 141
5.2.5 基于自相关性的距离 142
5.2.6 基于周期性的距离 143
5.2.7 基于模型的距离 144
5.3 基于特征工程的聚类算法 145
5.4 基于距离和相似度的聚类算法 149
5.5 流式聚类算法 151
5.6 小结 154
第6 章多维时间序列 155
6.1 多维时间序列简介155
6.2 单维时间序列与多维时间序列 156
6.2.1 广告分析领域 156
6.2.2 业务运维领域 157
6.3 单维时间序列监控系统和多维时间序列监控系统的对比 159
6.4 根因分析 160
6.4.1 根因分析的基础概念 160
6.4.2 人工执行根因分析的难度 163
6.4.3 OLAP 技术和方法 164
6.5 基于时间序列异常检测算法的根因分析 165
6.5.1 时间序列异常检测 165
6.5.2 根因分析的列表结构 170
6.5.3 根因分析的树状结构 172
6.6 基于熵的根因分析 173
6.6.1 熵的概念和性质 173
6.6.2 概率之间的距离 174
6.6.3 基于熵的根因分析方法 177
6.7 基于树模型的根因分析 187
6.7.1 特征工程和样本 187
6.7.2 决策树算法 187
6.8 规则学习 188
6.8.1 根因分析的列表结构 188
6.8.2 根因分析的树状结构 189
6.8.3 列表结构与树状结构的对比 191
6.8.4 规则的排序 192
6.9 小结 193
第7 章智能运维的应用场景 194
7.1 智能运维 194
7.1.1 智能运维的主要方向 195
7.1.2 智能运维的实施路径 196
7.2 指标监控 197
7.2.1 硬件监控与软件监控 198
7.2.2 业务监控 198
7.2.3 节假日效应 201
7.2.4 持续异常的情况 205
7.2.5 存在基线的情况 205
7.2.6 寻找基线的方法 206
7.3 容量预估和弹性伸缩 208
7.3.1 容量预估 208
7.3.2 弹性伸缩 209
7.4 告警系统 210
7.4.1 告警系统的定义与评估指标 210
7.4.2 告警关联与收敛 212
7.4.3 基于相似性或聚类算法的告警关联与收敛 214
7.4.4 基于告警属性泛化层次的告警关联与收敛 219
7.4.5 基于根因分析的告警关联与收敛 224
7.5 小结 226
第8 章金融领域的应用场景 228
8.1 量化交易概述 229
8.1.1 数据230
8.1.2 因子 230
8.1.3 回测 231
8.2 因子特征工程 231
8.3 资产定价 234
8.4 资产配置 241
8.5 波动率预测 243
8.6 小结 245
参考文献 246
编写背景
当今时代,数据无处不在,我们在互联网、经济、金融、气象等诸多领域都能见到时间序列数据的身影。有效分析这些随时间变化的数据样本,提炼有价值的信息,不仅有助于企业和机构的决策优化,而且对科学研究和技术创新具有重要意义。近年来,由于数据量的增加、计算能力的提升、学习算法的成熟以及应用场景的多样化,人工智能技术(如机器学习)逐渐普及并取得了显著的成果,越来越多的人开始关注这个充满潜力的研究领域。ChatGPT等大语言模型亦掀起一波新的人工智能热潮。正因如此,我们决定着手编写一本关于时间序列分析与机器学习的图书,希望它能作为广大读者的理论指南和实践参考。我们在腾讯工作期间相识,参与过许多一线机器学习项目,其中不少与时间序列相关,如异常检测、预测、根因定位等。我们在工作之余总结了不少这方面的技术帖子,陆续发表在知乎(数学人生/曲奇)上,访问量颇高。电子工业出版社的张爽老师联系到我们,希望能够将帖子编写成书,并给予了很多意见,在此感谢她的支持。尽管如此,我们仍然低估了编写图书所面临的困难。一方面,机器学习和深度学习技术的发展非常迅速,我们的认知也在提升和更新,担心写作的内容是否已经过时。另一方面,由于日常工作相当繁重,我们很难抽出连续的时间全身心地专注于写作。因此,本书的创作是颇为艰辛的。
国内外已出版了许多关于时间序列分析和机器学习的图书,它们各自都支撑起一个庞大的学科,与诸多经典图书比起来,本书显得颇为拙劣。理想中,著书立说的前提是要构建起一个完整的知识体系,该体系能容纳新老技术。我们希望能够借助自身的经验和专业知识,对这一领域进行系统的梳理和总结。写作本书的过程也促使我们更加深入地理解时间序列分析和机器学习。
内容概要
本书内容由8 章组成。
第1 章“时间序列概述”:介绍时间序列分析的基础知识、发展历程、应用现状、分类及其与其他领域(如自然语言处理、计算机视觉等)的关联。
第2 章“时间序列的信息提取”:介绍特征工程的核心概念及其在时间序列分析中的应用,比如对原始数据进行归一化、缺失值填充等转换;以及如何通过特征工程从时间序列数据中提取有用的特征,例如时间序列的统计特征、熵特征和降维特征等,以及如何判断时间序列的单调性。
第3 章“时间序列预测”:介绍常用的时间序列预测方法,包括自回归模型、移动平均模型、自回归差分移动平均模型、指数平滑方法、Prophet,以及神经网络,例如循环神经网络、长短期记忆网络、Transformer、Informer 等。
第4 章“时间序列异常检测”:介绍时间序列异常检测算法的技术与框架,如何识别异常的时间点,包括基于概率密度的方法(如3-Sigma、核密度估计)、基于重构的方法(如变分自编码器、Donut)、基于距离的方法(如孤立森林、RRCF)、基于有监督的方法和基于弱监督的方法等。
第5 章“时间序列的相似度与聚类”:介绍时间序列的相似性度量方法,如欧氏距离、动态时间规整算法等,用于衡量两个或多个时间序列在形状和模式上的相似程度;聚类算法,如K-Means、DBSCAN等,可以将相似的时间序列分组,以便进一步理解时间序列数据中的结构和模式。
第6 章“多维时间序列”:介绍多维时间序列在广告分析和业务运维领域的应用,包括如何利用OLAP 技术对多维时间序列进行有效处理,以及如何通过根因分析技术获得导致故障的维度和元素,包括基于时间序列异常检测算法的根因分析、基于熵的根因分析、基于树模型的根因分析、规则学习等。
第7 章“智能运维的应用场景”:介绍智能运维领域的应用,包括指标监控、容量预估、弹性伸缩、告警关联、告警收敛和告警系统评估等,以及监控中出现的节假日效应、持续异常等实际情况。
第8 章“金融领域的应用场景”:介绍量化交易的概念、发展历程,如何通过因子挖掘从时间序列数据中提取特征并将其转化为交易策略,以及机器学习在其他金融领域(包括资产定价、资产配置、波动率预测)的应用。
读者定位
本书主要面向以下四类读者群体。
- 机器学习领域的研究人员
针对机器学习领域的研究人员,本书将深入探讨时间序列相关的各种技术。你将了解到如何将这些技术应用于实际问题中,并且能够深入理解这些方法的工作原理和优劣之处。本书中还引用了大量的参考文献,其中不少来自计算机领域顶级会议,适合作为扩展阅读材料。
- 时间序列领域的研究人员
本书为时间序列领域的研究人员提供了一个全面的时间序列分析和预测的框架。你将找到最新的研究成果和趋势,以及深入的理论分析。同时,你将看到如何将时间序列方法应用到各种真实场景中,如金融、运维等领域。
- 工业界从业者
针对工业界的从业者,本书将提供实用的工具和技术,以帮助你更好地处理时间序列数据。你将学习到如何使用不同的模型和算法来预测未来、检测异常、进行聚类等。本书中包含大量的示例和案例研究,可以让你快速地掌握这些技术,并将其应用到你的工作中。
- 未来想从事时间序列研究的高年级本科生和研究生
本书也适合想要进入时间序列研究领域的高年级本科生和研究生。本书从基础概念开始学习,逐渐深入更复杂的主题,内容深入浅出,实例丰富,可以帮助你理解和掌握时间序列分析的基本技能,并激发你对这个领域的学习和研究兴趣。
总的来说,无论你是初学者,还是有经验的专业人士,本书都将为你提供有价值的知识。我们希望本书能够激发你学习时间序列分析和机器学习的热情,引导你探索这个充满挑战和机会的领域。
本书作者在时间序列和机器学习领域深耕多年,经验丰富,曾主导多个相关项目,独立探索应用新方向,并取得显著成绩和效益,获得团队和业内的高度评价。本书将严谨的数学描述和应用实践结合起来,内容完备、充实,实用性强,值得一读。
腾讯前专家研究员、微软前高级研究员 岳亚丁
将时间序列的分析与预测用于大规模的数据生产一直存在诸多困难,作者结合自身的运维经历,将实际应用与传统时间序列分析、现代机器学习技术融入本书,其中的众多创新点让人耳目一新。这是一本注重实践、理论丰富、案例生动的优秀图书,为读者提供了清晰完整的参考内容。
腾讯运维总监、专家工程师 聂鑫
与以往的时间序列分析图书相比,本书更注重实践,以及如何用理论解决实际问题。本书通过案例分析,将复杂的时间序列分析和机器学习技术转化为清晰易懂的解决方案,理论与实践兼备。
上海财经大学信息管理与工程学院副院长,教授 杨超林
本书是一本实战与理论并重的跨界佳作。作者凭借扎实的数学功底及其在企业界的丰富实践经验,将机器学习与时间序列分析巧妙融合。本书以实际应用为核心,结合大量企业案例与实践经验,使读者在掌握复杂理论的同时迅速提升解决实际问题的能力。本书将带领读者领略机器学习在时间序列领域的无限可能,激发新思路,开拓新边界。
华东师范大学计算机科学与技术学院副教授 王祥丰
在数据驱动的时代,理解并分析时间序列数据的能力变得尤为重要。本书不仅深入浅出地介绍了时间序列的基础知识和机器学习的先进技术,还通过实际案例展示了如何在多个领域应用这些技术,是一本不可多得的参考图书。
曲阜师范大学数学科学学院教授 高睿
对于希望在时间序列分析和机器学习领域取得突破的人来说,本书是一份宝贵的学习资料,其中既有深入的理论探讨,又有广泛的应用实例,是将理论研究与实践应用结合的典范。
上海交通大学自然科学研究院、数学科学学院教授 王海涛
这是一本兼具深度和广度的作品,针对如何利用前沿的机器学习技术来分析和预测时间序列数据的问题,为读者提供了一个全面的指南。本书具有丰富的案例和清晰的解释,是领域内不可多得的学习资源。
香港中文大学经济学系副教授 何暐
张戎博士多年来一直从事与机器学习相关的研究与应用工作,涉及安全、运维、推荐系统等多个领域,尤其擅长时间序列与机器学习相结合的工作。本书以简洁易懂的方式介绍了时间序列分析及其在机器学习中的应用。书中既包含严格的数学推导,也包含具体的例子和代码,篇幅合理,是一本非常适合初学者及相关从业人员阅读的优秀图书。
西交利物浦大学金融与精算数学系助理教授 卫然
本书不仅是一部理论著作,更是一本实战指南。对于实践者而言,本书提供了用时间序列分析与机器学习技术解决实际问题的框架和方法。本书可以帮助我更有效地指导学生解决真实世界中的复杂问题,如市场预测、风险管理等。对于希望在学习与工作中运用时间序列数据辅助金融及财务决策的人来说,本书是不可或缺的资料。
南开大学会计系助理教授 王洁璇
评论
还没有评论。