描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111742234
中文版序
译者序
前言
符号表
第一部分 基础知识
第1章 绪论 2
1.1 自然语言处理的概念 2
1.2 自然语言处理任务 3
1.2.1 基础任务 4
1.2.2 信息抽取任务 12
1.2.3 应用 16
1.2.4 小结 18
1.3 机器学习视角下的自然语言
处理任务 18
总结 19
注释 19
习题 19
参考文献 21
第2章 相对频率 35
2.1 概率建模 35
2.1.1 最大似然估计 35
2.1.2 词概率建模 36
2.1.3 模型与概率分布 37
2.2 n元语言模型 41
2.2.1 一元语言模型 41
2.2.2 二元语言模型 43
2.2.3 三元及高阶语言模型 46
2.2.4 生成式模型 48
2.3 朴素贝叶斯文本分类器 49
2.3.1 朴素贝叶斯文本分类 50
2.3.2 文本分类器的评估 52
2.3.3 边缘概率的计算 53
2.3.4 特征 53
总结 54
注释 54
习题 54
参考文献 56
第3章 特征向量 57
3.1 文本在向量空间中的表示 57
3.1.1 聚类 59
3.1.2 k均值聚类 61
3.1.3 分类 62
3.1.4 支持向量机 63
3.1.5 感知机 65
3.2 多分类 66
3.2.1 定义基于输出的特征 67
3.2.2 多分类支持向量机 68
3.2.3 多分类感知机 69
3.3 线性判别式模型 70
3.3.1 判别式模型及其特征 70
3.3.2 线性模型的点积形式 72
3.4 向量空间与模型训练 72
3.4.1 可分性与泛化性 72
3.4.2 处理非线性可分数据 73
总结 74
注释 74
习题 74
参考文献 76
第4章 判别式线性分类器 78
4.1 对数线性模型 78
4.1.1 二分类对数线性模型的训练 79
4.1.2 多分类对数线性模型的训练 83
4.1.3 利用对数线性模型进行分类 85
4.2 基于随机梯度下降法训练支持向量机 85
4.2.1 二分类支持向量机的训练 86
4.2.2 多分类支持向量机的训练 87
4.2.3 感知机训练的目标函数 88
4.3 广义线性模型 88
4.3.1 统一在线训练 89
4.3.2 损失函数 89
4.3.3 正则化 92
4.4 模型融合 92
4.4.1 模型性能比较 92
4.4.2 模型集成 93
4.4.3 半监督学习 95
总结 96
注释 96
习题 97
参考文献 99
第5章 信息论观点 101
5.1 最大熵原理 101
5.1.1 朴素最大熵模型 103
5.1.2 条件熵 104
5.1.3 最大熵模型与训练数据 105
5.2 KL散度与交叉熵 108
5.2.1 交叉熵和最大似然估计 109
5.2.2 模型困惑度 110
5.3 互信息 111
5.3.1 点互信息 112
5.3.2 基于点互信息的文本挖掘 113
5.3.3 基于点互信息的特征选取 115
5.3.4 词的点互信息与向量表示 115
总结 117
注释 117
习题 117
参考文献 120
第6章 隐变量 121
6.1 期望最大算法 121
6.1.1 k均值算法 123
6.1.2 期望最大算法介绍 125
6.2 基于期望最大算法的隐变量模型 127
6.2.1 无监督朴素贝叶斯模型 127
6.2.2 IBM模型1 130
6.2.3 概率潜在语义分析 136
6.2.4 生成模型的相对优势 138
6.3 期望最大算法的理论基础 138
6.3.1 期望最大与KL散度 139
6.3.2 基于数值优化的期
望最大算法推导 140
总结 141
注释 142
习题 142
参考文献 144
第二部分 结构研究
第7章 生成式序列标注任务 146
7.1 序列标注 146
7.2 隐马尔可夫模型 147
7.2.1 隐马尔可夫模型的训练 149
7.2.2 解码 149
7.3 计算边缘概率 153
7.3.1 前向算法 154
7.3.2 后向算法 154
7.3.3 前向-后向算法 156
7.3.4 二阶隐马尔可夫模型的前向-后向算法 156
7.4 基于期望最大算法的无监督隐马尔可夫模型训练 158
总结 164
注释 164
习题 165
参考文献 166
第8章 判别式序列标注任务 168
8.1 局部训练的判别式序列标注模型 168
8.2 标注偏置问题 171
8.3 条件随机场 172
8.3.1 全局特征向量 173
8.3.2 解码 174
8.3.3 边缘概率计算 175
8.3.4 训练 178
8.4 结构化感知机 181
8.5 结构化支持向量机 184
总结 186
注释 186
习题 186
参考文献 188
第9章 序列分割 189
9.1 基于序列标注的序列分割任务 189
9.1.1 面向分词的序列标注特征 190
9.1.2 面向句法组块分析的序列标注特征 192
9.1.3 面向命名实体识别的序列标注特征 192
9.1.4 序列分割输出的评价方式 193
9.2 面向序列分割的判别式模型 193
9.2.1 分词中的词级别特征 194
9.2.2 基于动态规划的精确搜索解码 195
9.2.3 半马尔可夫条件随机场 197
9.2.4 最大间隔模型 202
9.3 结构化感知机与柱搜索 203
9.3.1 放宽特征局部约束 204
9.3.2 柱搜索解码 205
总结 207
注释 207
习题 207
参考文献 208
第10章 树结构预测 210
10.1 生成式成分句法分析 210
10.1.1 概率上下文无关文法 212
10.1.2 CKY解码 213
10.1.3 成分句法解析器的性能评估 215
10.1.4 边缘概率的计算 215
10.2 成分句法分析的特征 218
10.2.1 词汇化概率上下文无关文法 218
10.2.2 判别式成分句法分析模型 221
10.2.3 面向成分句法分析的对数线性模型 222
10.
近年来,深度学习技术使智能系统能够执行越来越复杂的任务,人工智能广受社会关
注。自然语言处理作为人工智能的核心话题之一,主要研究的是自然语言文本的自动理解
与生成。语言会话能力被公认为人工智能性能评估的重要指标,自然语言处理技术的进步,
为语音翻译、自动问答、写作评分、自动审计、股市预测等应用带来了新的突破。
自然语言处理的研究在计算机科学发展的早期便已开始,并经历了三个主要发展阶段,
基于规则的方法、基于统计的方法以及深度学习方法分别在不同阶段占据主导地位。近几
年中,深度学习的发展逐步取代了统计学习方法,研究人员和工程师的工作重点也随之由
语言特征工程转变为参数调优。先进的深度学习算法不仅可以让自然语言处理系统在句法
分析、机器翻译等传统任务上获得更佳的性能,同时也扩展了更多的新型研究领域。
本书基于机器学习视角对自然语言处理技术展开系统性介绍,并深入讨论各项技术所
涉及的数学及算法基础。章节内容遵循由易到难的组织原则,同时也符合自然语言处理技
术的发展过程。在引入数学概念时,本书采用统一的符号表示方法以保证不同章节间的关
联性与可读性。
本书的目标读者为计算机科学、人工智能或相关跨学科专业的高年级本科生及研究生,
自然语言处理工程师也可将本书作为理论参考书。阅读本书时,读者需要具备一定的线性
代数、微积分、概率论及算法基础。完成本书的学习后,读者将对自然语言处理任务及其
数学理论有更全面的了解,从而能够轻松阅读前沿会议与期刊中的论文文献,并根据实际
场景创新性地探索及应用底层技术。
本书亮点
相较于其他自然语言处理教材,本书从机器学习基础技术及算法的发展历程出发,遵
循由易至难、循序渐进的编排原则,而非根据特定任务
(例如情感分类、立场检测、词性标
注和语义角色标注
)分块编排。本书的编排主要考虑到以下两点。首先,自然语言处理任
务所解决的语言学问题各不相同,但不同任务所涉及的前沿算法具有一定的共性,共性算
法的发展可归结为机器学习技术,尤其是深度学习技术的发展。例如,情感分类与新闻分
类任务均可视为分类问题,词性标注与语义角色标注任务均可视为序列标注问题,因此我
们将文本分类、序列标注等抽象问题作为本书的主要研究内容,在合适的场景下讨论其与
特定自然语言处理任务的相关性。其次,自然语言处理研究领域的发展与机器学习技术的
发展密切相关,这为本书章节的组织提供了便利。例如,统计方法在
20世纪
80年代后期
成为主流研究方法,首先被应用于文本分类任务,随后迁移至序列标注及更为复杂的结构
预测任务。在这期间,相同的机器学习原理被应用于不同的自然语言处理问题中,特征工
VIII
程逐步取代语言规则。
21世纪
10年代,深度学习技术兴起,研究者尝试利用相同的表示
学习方法来解决各类问题。例如,基于大规模原始文本预训练的上下文词表示为句法、语
义、文本挖掘等一系列自然语言处理任务带来了显著的性能提升。
新技术在历史研究成果的基础上不断发展,与传统统计学习方法存在着密切联系。特
征、学习目标、优化策略、评估指标等概念在不同技术发展时期一脉相承,并且术语在过
去几十年的文献中基本一致。这使得本书的叙述顺序也符合研究文献的发展顺序。
内容提要。本书试图介绍所有与自然语言处理领域相关的重要内容,从机器学习视角
出发,内容覆盖由统计模型到深度学习模型,由生成式模型到判别式模型,由分类模型到
结构预测模型,由精准推理算法到模糊推理算法,由监督模型到无监督模型等。对于每个
主题,我们力求选择最具代表性的概念与算法,使得阅读及教学过程深入浅出、通俗易懂。
某些任务或模型细节可能在本书中有所忽略,读者可在了解本书内容后阅读相关文献进行
补充。
大纲。全书共
18个章节,可分为三个部分。
.第一部分(基础知识:第
1~6章)讨论自然语言处理建模的基本概念,并介绍文本表
示的基本思想、基础模型及训练算法。
.第二部分(结构研究:第
7~12章)讨论基本技术在序列结构、树结构等自然语言处
理常见结构中的应用。
.第三部分(深度学习:第
13~18章)重点介绍自然语言处理中的深度学习技术,包括
单层感知机模型、多层感知机模型、神经网络分类模型、结构化预测模型以及其他前
沿神经网络模型。
上述三部分内容各包含
6章,分别为:
.第
1章:概述自然语言处理领域,并罗列本书结构。
.第
2章:介绍自然语言处理建模的基本思想,并讨论生成概率模型的基本形式。
.第
3章:介绍特征向量的概念,以及两类判别式线性文本分类器。
.第
4章:介绍用于文本分类的对数线性模型,并将各类线性分类模型归纳为广义感知机。
.第
5章:介绍信息论在自然语言处理中的应用。
.第
6章:介绍隐变量建模的基本方法。
.第
7章:介绍用于序列标注的生成式概率模型。
.第
8章:介绍用于序列标注的判别式模型。
.第
9章:介绍用于序列分割的判别式模型。
.第
10章
评论
还没有评论。