描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111631996
内容简介
【网店勿用!此为申报选题所填信息,网店请调用*终版】
自然语言处理跨越了许多不同的学科,有时很难理解它们各自带来的贡献和挑战。本书探讨了自然语言处理与认知科学之间的关系,每章都由相关领域的专家撰写,内容涵盖语言理解、语言生成、词联想、词义消除歧义、词可预测性、文本生成和作者身份识别。本书适合对自然语言处理及其跨学科特性感兴趣的学生和研究人员。
自然语言处理跨越了许多不同的学科,有时很难理解它们各自带来的贡献和挑战。本书探讨了自然语言处理与认知科学之间的关系,每章都由相关领域的专家撰写,内容涵盖语言理解、语言生成、词联想、词义消除歧义、词可预测性、文本生成和作者身份识别。本书适合对自然语言处理及其跨学科特性感兴趣的学生和研究人员。
目 录
译者序
前言
作者名单
第1章 延迟解释、浅层处理和构式:“尽可能解释”原则的基础 1
1.1 引言 1
1.2 延迟处理 2
1.3 工作记忆 5
1.4 如何识别语块:分词操作 7
1.5 延迟架构 10
1.5.1 分段和存储 11
1.5.2 内聚聚集 12
1.6 结论 15
1.7 参考文献 16
第2章 人类关联规范能否评估机器制造的关联列表 19
2.1 引言 19
2.2 人类语义关联 20
2.2.1 单词关联测试 20
2.2.2 作者的实验 21
2.2.3 人类关联拓扑 22
2.2.4 人类关联具有可比性 24
2.3 算法效率比较 26
2.3.1 语料库 26
2.3.2 LSA源关联列表 27
2.3.3 LDA源列表 28
2.3.4 基于关联比率的列表 28
2.3.5 列表比较 29
2.4 结论 33
2.5 参考文献 34
第3章 文本词如何在人类关联网络中选择相关词 37
3.1 引言 37
3.2 网络 40
3.3 基于文本的激励驱动的网络提取 42
3.3.1 子图提取算法 42
3.3.2 控制流程 43
3.3.3 最短路径提取 44
3.3.4 基于语料库的子图 46
3.4 网络提取流程的测试 46
3.4.1 进行测试的语料库 46
3.4.2 提取子图的评估 46
3.4.3 有向和无向子图提取:对比 48
3.4.4 每个激励产生的结果 49
3.5 对结果和相关工作的简要讨论 54
3.6 参考文献 57
第4章 反向关联任务 59
4.1 引言 59
4.2 计算前向关联 63
4.2.1 步骤 63
4.2.2 结果和评估 65
4.3 计算反向关联 67
4.3.1 问题 67
4.3.2 步骤 67
4.3.3 结果和评估 71
4.4 人类的表现 73
4.4.1 数据集 73
4.4.2 测试流程 75
4.4.3 评估 76
4.5 机器性能 77
4.6 讨论、结果和展望 78
4.6.1 人类的反向关联 78
4.6.2 机器的反向关联 80
4.7 致谢 82
4.8 参考文献 82
第5章 词汇的隐藏结构与功能 85
5.1 引言 86
5.2 方法 86
5.2.1 词典图 86
5.2.2 心理语言学变量 90
5.2.3 数据分析 91
5.3 内核、卫星、核心、MinSet以及词典余下部分的心理语言学属性 93
5.4 讨论 96
5.5 未来工作 99
5.6 参考文献 101
第6章 用于词义消歧的直推式学习博弈 103
6.1 引言 103
6.2 基于图的词义消歧 104
6.3 半监督学习方法 107
6.3.1 基于图的半监督学习 107
6.3.2 博弈论和博弈动态 108
6.4 词义消歧博弈 110
6.4.1 图构造 110
6.4.2 策略空间 111
6.4.3 收益矩阵 111
6.4.4 系统动力学 112
6.5 评估 113
6.5.1 实验设置 113
6.5.2 评估结果 114
6.5.3 对比先进水平算法 116
6.6 结论 117
6.7 参考文献 117
第7章 用心学写:生成连贯文本的问题 121
7.1 问题 121
7.2 次优文本及其相关原因 123
7.2.1 缺乏连贯性或凝聚力 124
7.2.2 错误引用 125
7.2.3 无动机的主题转移 126
7.3 如何解决任务的复杂性 127
7.4 相关研究 128
7.5 关于构建辅助写作过程的工具的假设 130
7.6 方法论 133
7.6.1 句法结构的识别 135
7.6.2 语义种子词的识别 135
7.6.3 单词对齐 137
7.6.4 确定对齐单词的相似性值 137
7.6.5 确定句子之间的相似性 141
7.6.6 基于句子相似性值的聚类 142
7.7 实验结果和评估 142
7.8 展望和总结 145
7.9 参考文献 146
第8章 面向著述属性的基于序贯规则挖掘的文体特征 149
8.1 引言和研究动机 149
8.2 著述属性过程 151
8.3 著述属性的文体特征 152
8.4 针对文体分析的时序数据挖掘 154
8.5 实验设置 155
8.5.1 数据集 156
8.5.2 分类方案 157
8.6 结果和讨论 158
8.7 结论 162
8.8 参考文献 162
第9章 一种并行的、面向认知的基频估计算法 165
9.1 引言 165
9.2 语音信号分割 167
9.2.1 语音和停顿段 168
9.2.2 浊音和清音区 169
9.2.3 稳定和不稳定区间 170
9.3 稳定区间的F0估计 171
9.4 F0传播 173
9.4.1 控制流 174
9.4.2 峰值传播 175
9.5 不稳定的浊音区域 178
9.6 并行化 178
9.7 实验和结果 179
9.8 结论 180
9.9 致谢 181
9.10 参考文献 182
第10章 基于完形填充、脑电图和眼球运动数据对n元语言模型、主题模型和循环神经网络的基准测试 185
10.1 引言 186
10.2 相关工作 187
10.3 方法 188
10.3.1 人类绩效评估 188
10.3.2 语言模型的三种风格 189
10.4 实验设置 192
10.5 结果 193
10.5.1 可预测性结果 193
10.5.2 N400振幅结果 196
10.5.3 单一注视时延结果 198
10.6 讨论和结论 200
10.7 致谢 202
10.8 参考文献 202
术语表 207
前言
作者名单
第1章 延迟解释、浅层处理和构式:“尽可能解释”原则的基础 1
1.1 引言 1
1.2 延迟处理 2
1.3 工作记忆 5
1.4 如何识别语块:分词操作 7
1.5 延迟架构 10
1.5.1 分段和存储 11
1.5.2 内聚聚集 12
1.6 结论 15
1.7 参考文献 16
第2章 人类关联规范能否评估机器制造的关联列表 19
2.1 引言 19
2.2 人类语义关联 20
2.2.1 单词关联测试 20
2.2.2 作者的实验 21
2.2.3 人类关联拓扑 22
2.2.4 人类关联具有可比性 24
2.3 算法效率比较 26
2.3.1 语料库 26
2.3.2 LSA源关联列表 27
2.3.3 LDA源列表 28
2.3.4 基于关联比率的列表 28
2.3.5 列表比较 29
2.4 结论 33
2.5 参考文献 34
第3章 文本词如何在人类关联网络中选择相关词 37
3.1 引言 37
3.2 网络 40
3.3 基于文本的激励驱动的网络提取 42
3.3.1 子图提取算法 42
3.3.2 控制流程 43
3.3.3 最短路径提取 44
3.3.4 基于语料库的子图 46
3.4 网络提取流程的测试 46
3.4.1 进行测试的语料库 46
3.4.2 提取子图的评估 46
3.4.3 有向和无向子图提取:对比 48
3.4.4 每个激励产生的结果 49
3.5 对结果和相关工作的简要讨论 54
3.6 参考文献 57
第4章 反向关联任务 59
4.1 引言 59
4.2 计算前向关联 63
4.2.1 步骤 63
4.2.2 结果和评估 65
4.3 计算反向关联 67
4.3.1 问题 67
4.3.2 步骤 67
4.3.3 结果和评估 71
4.4 人类的表现 73
4.4.1 数据集 73
4.4.2 测试流程 75
4.4.3 评估 76
4.5 机器性能 77
4.6 讨论、结果和展望 78
4.6.1 人类的反向关联 78
4.6.2 机器的反向关联 80
4.7 致谢 82
4.8 参考文献 82
第5章 词汇的隐藏结构与功能 85
5.1 引言 86
5.2 方法 86
5.2.1 词典图 86
5.2.2 心理语言学变量 90
5.2.3 数据分析 91
5.3 内核、卫星、核心、MinSet以及词典余下部分的心理语言学属性 93
5.4 讨论 96
5.5 未来工作 99
5.6 参考文献 101
第6章 用于词义消歧的直推式学习博弈 103
6.1 引言 103
6.2 基于图的词义消歧 104
6.3 半监督学习方法 107
6.3.1 基于图的半监督学习 107
6.3.2 博弈论和博弈动态 108
6.4 词义消歧博弈 110
6.4.1 图构造 110
6.4.2 策略空间 111
6.4.3 收益矩阵 111
6.4.4 系统动力学 112
6.5 评估 113
6.5.1 实验设置 113
6.5.2 评估结果 114
6.5.3 对比先进水平算法 116
6.6 结论 117
6.7 参考文献 117
第7章 用心学写:生成连贯文本的问题 121
7.1 问题 121
7.2 次优文本及其相关原因 123
7.2.1 缺乏连贯性或凝聚力 124
7.2.2 错误引用 125
7.2.3 无动机的主题转移 126
7.3 如何解决任务的复杂性 127
7.4 相关研究 128
7.5 关于构建辅助写作过程的工具的假设 130
7.6 方法论 133
7.6.1 句法结构的识别 135
7.6.2 语义种子词的识别 135
7.6.3 单词对齐 137
7.6.4 确定对齐单词的相似性值 137
7.6.5 确定句子之间的相似性 141
7.6.6 基于句子相似性值的聚类 142
7.7 实验结果和评估 142
7.8 展望和总结 145
7.9 参考文献 146
第8章 面向著述属性的基于序贯规则挖掘的文体特征 149
8.1 引言和研究动机 149
8.2 著述属性过程 151
8.3 著述属性的文体特征 152
8.4 针对文体分析的时序数据挖掘 154
8.5 实验设置 155
8.5.1 数据集 156
8.5.2 分类方案 157
8.6 结果和讨论 158
8.7 结论 162
8.8 参考文献 162
第9章 一种并行的、面向认知的基频估计算法 165
9.1 引言 165
9.2 语音信号分割 167
9.2.1 语音和停顿段 168
9.2.2 浊音和清音区 169
9.2.3 稳定和不稳定区间 170
9.3 稳定区间的F0估计 171
9.4 F0传播 173
9.4.1 控制流 174
9.4.2 峰值传播 175
9.5 不稳定的浊音区域 178
9.6 并行化 178
9.7 实验和结果 179
9.8 结论 180
9.9 致谢 181
9.10 参考文献 182
第10章 基于完形填充、脑电图和眼球运动数据对n元语言模型、主题模型和循环神经网络的基准测试 185
10.1 引言 186
10.2 相关工作 187
10.3 方法 188
10.3.1 人类绩效评估 188
10.3.2 语言模型的三种风格 189
10.4 实验设置 192
10.5 结果 193
10.5.1 可预测性结果 193
10.5.2 N400振幅结果 196
10.5.3 单一注视时延结果 198
10.6 讨论和结论 200
10.7 致谢 202
10.8 参考文献 202
术语表 207
前 言
本书是一本论文专辑,致力于探索自然语言处理和认知科学之间的关系,以及计算机科学对于这两个领域的贡献。根据Poibeau和Vasishth[POI 16]所述,对认知问题的研究兴趣可能较少受到关注。因为在认知科学领域,研究者往往无力应对自然语言处理技术的复杂性;同样,自然语言处理的研究者也没有认识到认知科学对于他们工作的贡献。我们相信,2004年启动的自然语言处理和认知科学国际研讨会(NLPCS)提供了一个强大的平台,支持新的研究课题的多样性,并且能帮助研究者建立共识。与此同时,这个平台还认可跨学科方法的重要性,并将计算机科学家、认知学和语言学的研究者聚集到一起来推动自然语言处理研究。
本书包含10章,都是由自然语言处理和认知科学国际研讨会的研究者完成的。
在第1章,Philippe Blache阐述了理解语言的过程在理论上是非常复杂的,该过程必须实时进行,且需要许多不同来源的信息。他认为对于一个语言输入的整体解释应该建立在基于块的基本单元的分组之上,而这些单元构成了“尽可能解释”原则的支柱,该原则负责推迟理解过程,直到有足够的信息可用。
接下来的两章讨论人类关联问题。在第2章,Korzycki、Gatkowska和Lubaszewski讨论了一个有900个学生参与的自由词关联测试。他们利用三个算法从文本中提取出关联列表,然后将提取的关联列表与人类关联列表做对比。这三个算法分别是Church-Hanks算法、潜在语义分析(LSA)和潜在狄利克雷分配(LDA)。
在第3章,Lubaszewski、Gatkowska和Godny描述了一个过程,用于在实验中建立的人类关联网络中的单词关联。他们认为每个关联都是基于两个释义之间的语义关系,而这种释义之间的关联有自己的方向,并且独立于其他关联的方向。此过程使用图结构来生成语义一致的子图。
在第4章,Rapp探索了人类语言生成是否是由关联控制的,以及话语的下一个实词是否可被视为该实词表示的一种关联,而这种关联已经在说话人的记忆中被激活。他还介绍了反向关联任务的概念,讨论了激励词是否可以通过响应词来预测。他根据反向关联任务搜集了人类数据,并将其与机器生成的结果进行了比较。
在第5章中,Vincent-Lamarre和他的同事研究了在字典中定义所有其余单词所需的单词及其数量。为此,他们在词典组件Wordsmyth上使用了图论分析。其研究结果对于理解符号基础,以及词义的学习和心理表征具有重要意义。他们得出的结论是,语言使用者只有掌握用于理解词的定义的词汇表中的单词,才能够从语言(口头)定义中学习和理解单词的含义。
第6章侧重于词义消歧。Tripodi和Pelillo根据进化博弈论方法来研究词义消歧。要消除歧义的每个单词都表示为玩家,每个意义都表示为策略。该算法已经在具有不同数量标记词的四个数据集上进行了测试。它利用关系和上下文信息来推断目标词的含义。实验结果表明,该方法的性能优于传统方法,并且只需要少量标记点就能胜过有监督系统。
在第7章中,Zock和Tesfaye专注于以四个任务表达的文本生成的挑战性任务:构思、文本结构、表达和修订。他们专注于文本结构,涉及消息的分组(分块)、排序和链接。其目的是研究文本生成的哪些部分可以自动化,以及计算机是否可以基于用户提供的一组输入构建一个或多个主题树。
著述属性是第8章研究的重点。Boukhaled和Ganascia分析了使用虚词的序贯规则和词性(POS)标签作为文本标记的有效性。该有效性不依赖于词袋假设或原始频率。他们的研究表明,虚词和词性n元组(n-gram)的频率优于序贯规则。
第9章讨论了基频检测(F0),它在人类语音感知中起着重要作用。Glavitsch探索了使用人类认知原理进行的F0估计是否能够表现得与最新的F0检测算法一样好或更好。他所提出的运行在时域的算法错误率较小,并且在使用有限的存储和计算资源的情况下,其表现超过了传统的最高水平的基于关联的RAPT方法。在神经认知心理学中,手动收集的完形填充概率(CCP)用于量化眼球运动控制模型中句内上下文单词的可预测性。由于CCP数据都是基于上百个参与者的采样,在所有新的激励上泛化该模型是很难的。
在第10章中,Hofmann、Biemann和Remus提出应用语言模型,这些模型可以通过在线数据库中公开可用数据集的item级别的性能进行基准测试。先前在脑电图(EEG)和眼球运动(EM)数据中从句内上下文中预测单词的神经认知方法依赖于CCP数据。他们的研究表明,当直接计算CCP、EEG和EM数据时,n元语言模型和递归神经网络(RNN)的句法和短程语义过程差不多同样好。这可以帮助将神经认知模型推广到所有可能的新颖单词组合。
参考文献
本书包含10章,都是由自然语言处理和认知科学国际研讨会的研究者完成的。
在第1章,Philippe Blache阐述了理解语言的过程在理论上是非常复杂的,该过程必须实时进行,且需要许多不同来源的信息。他认为对于一个语言输入的整体解释应该建立在基于块的基本单元的分组之上,而这些单元构成了“尽可能解释”原则的支柱,该原则负责推迟理解过程,直到有足够的信息可用。
接下来的两章讨论人类关联问题。在第2章,Korzycki、Gatkowska和Lubaszewski讨论了一个有900个学生参与的自由词关联测试。他们利用三个算法从文本中提取出关联列表,然后将提取的关联列表与人类关联列表做对比。这三个算法分别是Church-Hanks算法、潜在语义分析(LSA)和潜在狄利克雷分配(LDA)。
在第3章,Lubaszewski、Gatkowska和Godny描述了一个过程,用于在实验中建立的人类关联网络中的单词关联。他们认为每个关联都是基于两个释义之间的语义关系,而这种释义之间的关联有自己的方向,并且独立于其他关联的方向。此过程使用图结构来生成语义一致的子图。
在第4章,Rapp探索了人类语言生成是否是由关联控制的,以及话语的下一个实词是否可被视为该实词表示的一种关联,而这种关联已经在说话人的记忆中被激活。他还介绍了反向关联任务的概念,讨论了激励词是否可以通过响应词来预测。他根据反向关联任务搜集了人类数据,并将其与机器生成的结果进行了比较。
在第5章中,Vincent-Lamarre和他的同事研究了在字典中定义所有其余单词所需的单词及其数量。为此,他们在词典组件Wordsmyth上使用了图论分析。其研究结果对于理解符号基础,以及词义的学习和心理表征具有重要意义。他们得出的结论是,语言使用者只有掌握用于理解词的定义的词汇表中的单词,才能够从语言(口头)定义中学习和理解单词的含义。
第6章侧重于词义消歧。Tripodi和Pelillo根据进化博弈论方法来研究词义消歧。要消除歧义的每个单词都表示为玩家,每个意义都表示为策略。该算法已经在具有不同数量标记词的四个数据集上进行了测试。它利用关系和上下文信息来推断目标词的含义。实验结果表明,该方法的性能优于传统方法,并且只需要少量标记点就能胜过有监督系统。
在第7章中,Zock和Tesfaye专注于以四个任务表达的文本生成的挑战性任务:构思、文本结构、表达和修订。他们专注于文本结构,涉及消息的分组(分块)、排序和链接。其目的是研究文本生成的哪些部分可以自动化,以及计算机是否可以基于用户提供的一组输入构建一个或多个主题树。
著述属性是第8章研究的重点。Boukhaled和Ganascia分析了使用虚词的序贯规则和词性(POS)标签作为文本标记的有效性。该有效性不依赖于词袋假设或原始频率。他们的研究表明,虚词和词性n元组(n-gram)的频率优于序贯规则。
第9章讨论了基频检测(F0),它在人类语音感知中起着重要作用。Glavitsch探索了使用人类认知原理进行的F0估计是否能够表现得与最新的F0检测算法一样好或更好。他所提出的运行在时域的算法错误率较小,并且在使用有限的存储和计算资源的情况下,其表现超过了传统的最高水平的基于关联的RAPT方法。在神经认知心理学中,手动收集的完形填充概率(CCP)用于量化眼球运动控制模型中句内上下文单词的可预测性。由于CCP数据都是基于上百个参与者的采样,在所有新的激励上泛化该模型是很难的。
在第10章中,Hofmann、Biemann和Remus提出应用语言模型,这些模型可以通过在线数据库中公开可用数据集的item级别的性能进行基准测试。先前在脑电图(EEG)和眼球运动(EM)数据中从句内上下文中预测单词的神经认知方法依赖于CCP数据。他们的研究表明,当直接计算CCP、EEG和EM数据时,n元语言模型和递归神经网络(RNN)的句法和短程语义过程差不多同样好。这可以帮助将神经认知模型推广到所有可能的新颖单词组合。
参考文献
评论
还没有评论。