描述
开 本: 16开纸 张: 纯质纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787544751421
编辑推荐
《语料库词典学:理论与方法探索》对语料库词典学进行了系统而详细的介绍。一方面,本书从理论上系统阐释了语料库词典学、基于语料库的词典理论研究和基于语料库的词典编纂研究,语料库语言学的引入为词典理论研究和编纂研究打开了一个新的突破口;另一个方面,作者结合自己多年研究实践,详细介绍了如何建设词典语料库以及如何用VB开发词典编纂工具,并进行了专题研究。本书针对性强,内容设计精心体贴,章节编排清晰合理。
内容简介
《语料库词典学:理论与方法探索》从语言研究的词汇转向出发,讨论了语料库词典学的理论基础和未来研究方向。语料库词典学具有跨学科的特征,本书在详细论述技术现状的同时,还讨论了存在的问题及解决方案。此外,作者还专门介绍了如何使用计算机高级语言开发基于语料库的词典编纂系统。本书不仅可资语言学和词典学领域的师生研读,也是自然语言处理、机器翻译等语言工程领域有价值的参考书。
目 录
前 言 2
目 录 4
章 引论 1
1.1 什么是语料库词典学 1
1.1.1 词典学学科地位的日益巩固 2
1.1.1.1 词典学的语言学传统 2
1.1.1.2 词典学的跨学科研究 4
1.1.2 语料库词典学的兴起 8
1.2 语料库词典学的研究对象 10
第二章 基于语料库的词典理论研究 12
2.1基于语料库和语料库驱动 12
2.1.1 基于语料库 12
2.1.2 语料库驱动 14
2.1.3 小结 15
2.2短语学 16
2.2.1定义 16
2.2.2 短语学的研究范围 16
2.2.3短语与搭配 18
2.2.3.1 搭配的多面性 19
2.2.3.2 短语与搭配的关系 20
2.2.4 短语学的发展史 20
2.2.5 短语的识别方法 22
2.2.6 对词典学的启示 23
2.3搭配的统计识别研究 27
2.3.1 标准分Z值测量法 29
2.3.2 互信息MI值测量法 29
2.3.3 统计校验t检验法 30
2.3.4 搭配统计方法存在的问题 31
2.4词义的理解与重现 32
2.4.1语料库词典学的词义研究理论基础 33
2.4.1.1 语言哲学对意义的论述 33
2.4.1.2 语言学家对意义的分类 34
2.4.1.3 词义的组成 36
2.4.2词义的理解 38
2.4.3词典重现词义的手段 40
2.4.4短语驱动词典学 43
第三章 基于语料库的词典编纂研究 51
3.1 词典立目 51
3.1.1 立目的要求 51
3.1.2 立目自动化与挑战 54
3.1.3 立目工具的基本要求 55
3.2 词典释义 57
3.2.1 语料库与单语词典释义 58
3.2.2 语料库与双语词典释义 60
3.3 词典配例 64
3.3.1 语料库配例的优势 64
3.3.2 语料库配例方法 65
3.3.2.1 配例的难点 65
3.3.2.2 提高配例效率的方法 67
3.4 义项选择与频度排序 68
3.4.1 新义项的发掘 68
3.4.1.1 基于索引行的分析方法 68
3.4.1.2 基于SQL的索引行自动筛选 70
3.4.2 义项的频度排序 71
3.4.2.1 平行语料库与频度排序 71
3.4.2.2 基于SQL检索排序存在的问题 73
第四章 词典语料库建设研究 75
4.1 词典语料库的特点 75
4.1.1词典语料库的选材特点 75
4.1.2词典语料库的规模特点 75
4.2 词典语料库建设 76
4.2.1 语料库建设的首要问题:代表性 76
4.2.1.1. 语料结构和组成 76
4.2.1.2 语料库及样本大小 78
4.2.1.3 抽样方法 81
4.2.1.4 样本的规模 86
4.2.2 语料库建设及检索系统开发的必要性 87
4.2.3 词典语料库的建设步骤 88
4.2.3.1 规划 88
4.2.3.2 设计 89
4.2.3.3 选材 91
4.2.3.4 建库 92
4.2.3.5 加工 93
4.2.4 对齐模块的研制 97
4.2.4.1 句子、段落和句段 97
4.2.4.2 自动对齐模块AutoAligner 99
4.2.5 基于语料库的词典编纂平台开发 100
4.2.5.1 设计思想和目的 100
4.2.5.2 系统结构框架 102
4.2.5.3 功能实现 103
4.2.6 个人语料库管理模块 108
4.3 小结 109
第五章 用VB开发词典编纂系统 111
5.1 基本概念 111
5.2 数据库 113
5.2.1 数据库基本概念 113
5.2.2 SQL语法及常用语句 114
5.3 VB开发环境 116
5.4初级词典编纂系统开发 117
5.4.1 基本功能 117
5.4.2 系统运行界面 118
5.4.3 系统使用对象与控件 118
5.4.4 程序设计与代码 119
第六章 专题研究 122
6.1 搭配语义研究 122
6.1.1 搭配与词义 122
6.1.2 语料库与词典搭配研究 125
6.1.3 小结 135
6.2 英汉词汇对等研究 136
6.2.1 等值论及其对双语词典研编的意义 136
6.2.2 完全对等和零对等的语料库考察 137
6.2.2.1完全对等的语料库考察 138
6.2.2.2 零对等的语料库考察 141
6.2.3 小结 144
6.3 基于平行语料库的上下义词对比研究 146
6.3.1 引论 146
6.3.2 英汉语上下义词对比研究的意义 147
6.3.2.1 汉语的词汇层次 147
6.3.2.2 上义词的交际意义 148
6.3.3 上下义词对比研究的方法 149
6.3.3.1 问卷调查的实施方法 149
6.3.3.2 语料库的方法 150
6.3.4 问卷调查的数据和语料库的数据 150
6.3.4.1 问卷调查的数据 150
6.3.4.2 语料库的数据 152
6.3.5 数据分析 154
6.3.5.1 英汉语上下义关系词在中高级层次上具有高度对应性 154
6.3.5.2 上义词的对应空位及其补偿手段 155
6.3.6 余论:研究方法的比较 157
参考文献 164
主要参考词典 173
汉英对照词汇表 174
英汉对照术语表 179
索 引 184
附 录 185
目 录 4
章 引论 1
1.1 什么是语料库词典学 1
1.1.1 词典学学科地位的日益巩固 2
1.1.1.1 词典学的语言学传统 2
1.1.1.2 词典学的跨学科研究 4
1.1.2 语料库词典学的兴起 8
1.2 语料库词典学的研究对象 10
第二章 基于语料库的词典理论研究 12
2.1基于语料库和语料库驱动 12
2.1.1 基于语料库 12
2.1.2 语料库驱动 14
2.1.3 小结 15
2.2短语学 16
2.2.1定义 16
2.2.2 短语学的研究范围 16
2.2.3短语与搭配 18
2.2.3.1 搭配的多面性 19
2.2.3.2 短语与搭配的关系 20
2.2.4 短语学的发展史 20
2.2.5 短语的识别方法 22
2.2.6 对词典学的启示 23
2.3搭配的统计识别研究 27
2.3.1 标准分Z值测量法 29
2.3.2 互信息MI值测量法 29
2.3.3 统计校验t检验法 30
2.3.4 搭配统计方法存在的问题 31
2.4词义的理解与重现 32
2.4.1语料库词典学的词义研究理论基础 33
2.4.1.1 语言哲学对意义的论述 33
2.4.1.2 语言学家对意义的分类 34
2.4.1.3 词义的组成 36
2.4.2词义的理解 38
2.4.3词典重现词义的手段 40
2.4.4短语驱动词典学 43
第三章 基于语料库的词典编纂研究 51
3.1 词典立目 51
3.1.1 立目的要求 51
3.1.2 立目自动化与挑战 54
3.1.3 立目工具的基本要求 55
3.2 词典释义 57
3.2.1 语料库与单语词典释义 58
3.2.2 语料库与双语词典释义 60
3.3 词典配例 64
3.3.1 语料库配例的优势 64
3.3.2 语料库配例方法 65
3.3.2.1 配例的难点 65
3.3.2.2 提高配例效率的方法 67
3.4 义项选择与频度排序 68
3.4.1 新义项的发掘 68
3.4.1.1 基于索引行的分析方法 68
3.4.1.2 基于SQL的索引行自动筛选 70
3.4.2 义项的频度排序 71
3.4.2.1 平行语料库与频度排序 71
3.4.2.2 基于SQL检索排序存在的问题 73
第四章 词典语料库建设研究 75
4.1 词典语料库的特点 75
4.1.1词典语料库的选材特点 75
4.1.2词典语料库的规模特点 75
4.2 词典语料库建设 76
4.2.1 语料库建设的首要问题:代表性 76
4.2.1.1. 语料结构和组成 76
4.2.1.2 语料库及样本大小 78
4.2.1.3 抽样方法 81
4.2.1.4 样本的规模 86
4.2.2 语料库建设及检索系统开发的必要性 87
4.2.3 词典语料库的建设步骤 88
4.2.3.1 规划 88
4.2.3.2 设计 89
4.2.3.3 选材 91
4.2.3.4 建库 92
4.2.3.5 加工 93
4.2.4 对齐模块的研制 97
4.2.4.1 句子、段落和句段 97
4.2.4.2 自动对齐模块AutoAligner 99
4.2.5 基于语料库的词典编纂平台开发 100
4.2.5.1 设计思想和目的 100
4.2.5.2 系统结构框架 102
4.2.5.3 功能实现 103
4.2.6 个人语料库管理模块 108
4.3 小结 109
第五章 用VB开发词典编纂系统 111
5.1 基本概念 111
5.2 数据库 113
5.2.1 数据库基本概念 113
5.2.2 SQL语法及常用语句 114
5.3 VB开发环境 116
5.4初级词典编纂系统开发 117
5.4.1 基本功能 117
5.4.2 系统运行界面 118
5.4.3 系统使用对象与控件 118
5.4.4 程序设计与代码 119
第六章 专题研究 122
6.1 搭配语义研究 122
6.1.1 搭配与词义 122
6.1.2 语料库与词典搭配研究 125
6.1.3 小结 135
6.2 英汉词汇对等研究 136
6.2.1 等值论及其对双语词典研编的意义 136
6.2.2 完全对等和零对等的语料库考察 137
6.2.2.1完全对等的语料库考察 138
6.2.2.2 零对等的语料库考察 141
6.2.3 小结 144
6.3 基于平行语料库的上下义词对比研究 146
6.3.1 引论 146
6.3.2 英汉语上下义词对比研究的意义 147
6.3.2.1 汉语的词汇层次 147
6.3.2.2 上义词的交际意义 148
6.3.3 上下义词对比研究的方法 149
6.3.3.1 问卷调查的实施方法 149
6.3.3.2 语料库的方法 150
6.3.4 问卷调查的数据和语料库的数据 150
6.3.4.1 问卷调查的数据 150
6.3.4.2 语料库的数据 152
6.3.5 数据分析 154
6.3.5.1 英汉语上下义关系词在中高级层次上具有高度对应性 154
6.3.5.2 上义词的对应空位及其补偿手段 155
6.3.6 余论:研究方法的比较 157
参考文献 164
主要参考词典 173
汉英对照词汇表 174
英汉对照术语表 179
索 引 184
附 录 185
前 言
前 言
词典研编与语料库的结合可谓历史悠久,早期词典编纂过程中使用的“卡片”可视为现代“语料”的前身。早在1747年,英语词典编纂的鼻祖约翰逊(Samuel Johnson)就发表了《英语词典规划》(Plan of an English Dictionary),将前人收集资料的好方法作了总结。他所编的英语词典所含引证和说明达15万条以上,可见其所收集的资料库规模已相当可观。《牛津英语词典》(Oxford English Dictionary, OED)于1928年完成,所用的引证有400多万条,卡片1100多万张。《韦氏新国际英语词典》(Webster’s New International Dictionary)第二版的编写参照了100多万条引证,第三版于1961年付印时,新旧引证共达1000多万条。
利用真实语言资料进行研究,也一直是词汇学家和语法学家的传统做法。英语语法大师叶斯柏森(Otto Jesperson)在编写《英语语法大全》时,所使用的卡片数目多达30至40万张。20世纪40年代,美国的语言学家博厄斯(Franz Boas)在研究美洲印第安语言时就使用了语料库的方法,后来的结构主义语言学家更是如此。
今天,语料库被视为现代语言学的3种主要研究方法之一,而在词典研编领域,不仅词典编纂离不开语料库,基于语料库的各项理论研究也正在如火如荼地进行。从国外的词典研编来看,语料库方法已经逐渐成为主流。近年来出版的大型英语词典基本都采用了语料库辅助词典编纂(Corpus-aided Dictionary Compilation,CADIC)的手段。
基于语料库的词典编纂技术研究是语料库词典学的主要研究对象之一,基于语料库的词典学理论研究以及词典语料库建设的研究是语料库词典学的另外两个主要研究领域。
词典学是关于词汇研究的学问,词义的理解和重现是词典学的核心研究内容。
汉语的词义研究从《尔雅》和《说文解字》开始,虽然说汉语的词义研究已经有很长的历史,但是,我国的词汇研究一直发展缓慢,直到上个世纪50年代,词汇研究还主要在“训诂”的范围内进行,真正意义上的汉语词汇(包括词义)研究从改革开放后才开始。改革开放以来,我国出版了一系列的词汇学和词汇语义学著作,这些著作研究了汉语词汇的系统性、词汇的社会性、词的内部形式、词的语义分类、词的搭配、词义和语素义的关系、语义场、义素分析、词汇应用等。虽然可以说汉语的词汇研究进入了新的发展阶段,但除了词汇应用研究之外,在词汇研究的大多数领域,研究方法依然较为传统,基于大规模语料的定量分析方法还没有真正开始。
与词汇研究密切相关的汉语词典编纂也主要依靠内省的方法,这集中表现在释义和义项处理上。
内省法明显的缺点是主观性,因为个人的语感或直觉并不总是正确的,而且当自己的语感与其他人的语感发生冲突的时候,也难以找到一个衡量正误的标准。由于内省法的缺点,国外有学者称这样的词典编纂为“扶手椅上的词典编纂”(armchair lexicography)。
与汉语单语词典相比,我国汉英词典编纂存在的问题更为严重。从目前出版的汉英词典来看,由于落后的编纂方法和对汉语词典的过分依赖,词典的编码功能普遍较低。
语料库语言学为词典编纂提供了全新的方法,基于语料库的方法(corpus-based method)和语料库驱动的方法相互结合(corpus-driven method)使传统的演绎法和归纳法合二为一。语料库与词典研编在国外的成功证明了语料库的技术手段对于词典研编的重要性。语料库方法依靠计算机强大的检索、索引和统计功能,在词义研究方面具有内省和人工检索无法比拟的优势。
词义与语境关系密切,语料库方法通过文本索引重现语境。语料库可以提供大量的释义选项和例证选项供词典编纂人员参考,这些基于大规模真实文本的语料经过词典编纂人员的合理加工后成为词典的现实释义和例证。由于它们来源于真实文本,因此在真实性、科学性和可插入性方面都具有很大的优势,有利于使用者在具体的语境里生成正确的目的语。
短语驱动词典学(phraseology-driven lexicography)的研究表明,由短语构成的小语境是重要的言内语境。语料库词典学的释义和配例等都可以围绕短语展开。
统计功能是语料库的另一个强项,通过统计校验可以使英汉语之间在某一层面上的“联结模式”(association patterns)凸显出来。统计手段还是研究搭配和用法的有效方法,通过互信息值、Z值等可以衡量搭配词的搭配力。同时,统计手段还对义项的排序、常用词的常用度衡量等有不可或缺的作用。
对于汉英双语词典来说,平行语料库具有单语库无法比拟的优势。双语词典解决的是在具体的使用环境中该如何选择目的语进行表达。双语词典的释义其实就是从源语到目的语的翻译。基于平行语料库的英汉词汇对比研究对双语词典具有重要意义。
语料库词典学具有一定的跨学科性质和技术性,它与信息科学、计算语言学等具有互动关系。由于作者水平所限,书中难免有疏漏或浅薄之处,恳请广大同仁指正。
词典研编与语料库的结合可谓历史悠久,早期词典编纂过程中使用的“卡片”可视为现代“语料”的前身。早在1747年,英语词典编纂的鼻祖约翰逊(Samuel Johnson)就发表了《英语词典规划》(Plan of an English Dictionary),将前人收集资料的好方法作了总结。他所编的英语词典所含引证和说明达15万条以上,可见其所收集的资料库规模已相当可观。《牛津英语词典》(Oxford English Dictionary, OED)于1928年完成,所用的引证有400多万条,卡片1100多万张。《韦氏新国际英语词典》(Webster’s New International Dictionary)第二版的编写参照了100多万条引证,第三版于1961年付印时,新旧引证共达1000多万条。
利用真实语言资料进行研究,也一直是词汇学家和语法学家的传统做法。英语语法大师叶斯柏森(Otto Jesperson)在编写《英语语法大全》时,所使用的卡片数目多达30至40万张。20世纪40年代,美国的语言学家博厄斯(Franz Boas)在研究美洲印第安语言时就使用了语料库的方法,后来的结构主义语言学家更是如此。
今天,语料库被视为现代语言学的3种主要研究方法之一,而在词典研编领域,不仅词典编纂离不开语料库,基于语料库的各项理论研究也正在如火如荼地进行。从国外的词典研编来看,语料库方法已经逐渐成为主流。近年来出版的大型英语词典基本都采用了语料库辅助词典编纂(Corpus-aided Dictionary Compilation,CADIC)的手段。
基于语料库的词典编纂技术研究是语料库词典学的主要研究对象之一,基于语料库的词典学理论研究以及词典语料库建设的研究是语料库词典学的另外两个主要研究领域。
词典学是关于词汇研究的学问,词义的理解和重现是词典学的核心研究内容。
汉语的词义研究从《尔雅》和《说文解字》开始,虽然说汉语的词义研究已经有很长的历史,但是,我国的词汇研究一直发展缓慢,直到上个世纪50年代,词汇研究还主要在“训诂”的范围内进行,真正意义上的汉语词汇(包括词义)研究从改革开放后才开始。改革开放以来,我国出版了一系列的词汇学和词汇语义学著作,这些著作研究了汉语词汇的系统性、词汇的社会性、词的内部形式、词的语义分类、词的搭配、词义和语素义的关系、语义场、义素分析、词汇应用等。虽然可以说汉语的词汇研究进入了新的发展阶段,但除了词汇应用研究之外,在词汇研究的大多数领域,研究方法依然较为传统,基于大规模语料的定量分析方法还没有真正开始。
与词汇研究密切相关的汉语词典编纂也主要依靠内省的方法,这集中表现在释义和义项处理上。
内省法明显的缺点是主观性,因为个人的语感或直觉并不总是正确的,而且当自己的语感与其他人的语感发生冲突的时候,也难以找到一个衡量正误的标准。由于内省法的缺点,国外有学者称这样的词典编纂为“扶手椅上的词典编纂”(armchair lexicography)。
与汉语单语词典相比,我国汉英词典编纂存在的问题更为严重。从目前出版的汉英词典来看,由于落后的编纂方法和对汉语词典的过分依赖,词典的编码功能普遍较低。
语料库语言学为词典编纂提供了全新的方法,基于语料库的方法(corpus-based method)和语料库驱动的方法相互结合(corpus-driven method)使传统的演绎法和归纳法合二为一。语料库与词典研编在国外的成功证明了语料库的技术手段对于词典研编的重要性。语料库方法依靠计算机强大的检索、索引和统计功能,在词义研究方面具有内省和人工检索无法比拟的优势。
词义与语境关系密切,语料库方法通过文本索引重现语境。语料库可以提供大量的释义选项和例证选项供词典编纂人员参考,这些基于大规模真实文本的语料经过词典编纂人员的合理加工后成为词典的现实释义和例证。由于它们来源于真实文本,因此在真实性、科学性和可插入性方面都具有很大的优势,有利于使用者在具体的语境里生成正确的目的语。
短语驱动词典学(phraseology-driven lexicography)的研究表明,由短语构成的小语境是重要的言内语境。语料库词典学的释义和配例等都可以围绕短语展开。
统计功能是语料库的另一个强项,通过统计校验可以使英汉语之间在某一层面上的“联结模式”(association patterns)凸显出来。统计手段还是研究搭配和用法的有效方法,通过互信息值、Z值等可以衡量搭配词的搭配力。同时,统计手段还对义项的排序、常用词的常用度衡量等有不可或缺的作用。
对于汉英双语词典来说,平行语料库具有单语库无法比拟的优势。双语词典解决的是在具体的使用环境中该如何选择目的语进行表达。双语词典的释义其实就是从源语到目的语的翻译。基于平行语料库的英汉词汇对比研究对双语词典具有重要意义。
语料库词典学具有一定的跨学科性质和技术性,它与信息科学、计算语言学等具有互动关系。由于作者水平所限,书中难免有疏漏或浅薄之处,恳请广大同仁指正。
在线试读
语料库词典学可以简单定义为基于语料库的词典学理论研究和词典编纂技术的探讨。但对于词典学本身作为一门学科的地位都不甚牢固的今天,语料库词典学是否能作为一个学科来研究似乎更加令人怀疑。词典学通常被视为词汇学的分支,或者说词典学是将词汇学的理论运用于词典编纂的工作,其本身只能视为词汇学理论的应用。有人认为词典学只能算个应用学科,词汇学才是理论学科。据Hartmann(2006:9),国际上词典学的研究专刊只有几种:牛津大学出版社出版的International Journal of Lexicography,北美词典学会(Dictionary Society of North America)出版的“词典学年鉴”(yearbook Dictionaries),M. Niemeyer出版的Lexicographica International Annual,WAT出版的AFRILEX annual Lexikos和上海辞书出版社出版的《辞书研究》等。有影响的词典研究中心也不过数家。大部分词典和工具书也将词典学(lexicography)定义为“词典编写”(dictionary-making)的工艺,而不认为词典学是一个独立的学科。下面是一些权威工具书对词典学(lexicography)的定义:
新牛津英语词典(NODE,1998):词典学指的是词典编纂的实践。(Lexicography is “the practice of compiling dictionaries.”)
美国传统词典(AHD3,1992):词典学指的是词典的编纂或撰写的过程或工作。(Lexicography is “the process or work of writing or compiling a dictionary.”)
柯林斯COBUILD词典电子版(2001):词典学是撰写词典的活动或工作。(Lexicography is the activity or profession of writing dictionaries.)
词典学的地位尚且如此,那么“语料库词典学”还能作为一门学科来进行研究吗?
据作者掌握的资料,目前以“语料库词典学”为题名关键词出版的著作除了Ooi(1998)的《计算机语料库词典学》之外,专门论述语料库词典学的著作在国内外都不多见。但这些都不能否定将语料库词典学作为一门学科来研究的意义。语料库与词典学的结合,不仅使传统词典学在方法论上发生了革命性的变化,语料库词典学关于意义的思考,特别是词义的形成和再现的研究拓展了词典学的理论研究内容。在信息化时代,语料库词典学具有跨学科的性质,它既是当代词典学前景的研究领域,也是计算语言学、自然语言处理等领域的重要研究内容。随着词典学学科地位的日益巩固,以及计算机语料库技术的日臻成熟,语料库词典学必将受到广泛重视。
新牛津英语词典(NODE,1998):词典学指的是词典编纂的实践。(Lexicography is “the practice of compiling dictionaries.”)
美国传统词典(AHD3,1992):词典学指的是词典的编纂或撰写的过程或工作。(Lexicography is “the process or work of writing or compiling a dictionary.”)
柯林斯COBUILD词典电子版(2001):词典学是撰写词典的活动或工作。(Lexicography is the activity or profession of writing dictionaries.)
词典学的地位尚且如此,那么“语料库词典学”还能作为一门学科来进行研究吗?
据作者掌握的资料,目前以“语料库词典学”为题名关键词出版的著作除了Ooi(1998)的《计算机语料库词典学》之外,专门论述语料库词典学的著作在国内外都不多见。但这些都不能否定将语料库词典学作为一门学科来研究的意义。语料库与词典学的结合,不仅使传统词典学在方法论上发生了革命性的变化,语料库词典学关于意义的思考,特别是词义的形成和再现的研究拓展了词典学的理论研究内容。在信息化时代,语料库词典学具有跨学科的性质,它既是当代词典学前景的研究领域,也是计算语言学、自然语言处理等领域的重要研究内容。随着词典学学科地位的日益巩固,以及计算机语料库技术的日臻成熟,语料库词典学必将受到广泛重视。
评论
还没有评论。