描述
开 本: 16开纸 张: 胶版纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787577201993
数字人文是人文研究中的一种新方法,市面同类图书有对文化遗产信息资源分类存储以及数字化融合服务的相关研究,也有针对数字人文的方法论述。但将数字人文方法应用于文化遗产信息资源的处理与分析这一研究领域尚无相关图书,本书侧重于数字人文方法在文化遗产信息资源管理中的应用研究,属于该方向的前沿探究。
本书主要研究内容为开放领域文化遗产信息资源的知识图构建与应用研究,从基础理论、模型构建、方法实现以及实践应用四个方面进行展开,以互联网中的“中国十大传世名画”信息资源为研究对象进行。“中国十大传世名画”中的文化遗产时代分布从东晋至清朝,横贯中国历史一千五百余年,作为分析对象能够全面展现不同时期文化遗产的特点。本书旨在从两方面改进现有的文化遗产信息资源知识管理现状,一是提出一种面向开放领域文化遗产信息资源的知识图谱构建框架,为文化遗产信息资源的开发与利用提供良好的数据基础;二是构建一个具有广泛应用场景的文化遗产信息资源知识组织方法,充分解析文化遗产信息资源,为受众提供更为精确与便捷的文化遗产知识服务,更好的在新媒体环境下进行文化遗产知识的传播。
1概述(1)
1.1数字人文(2)
1.2知识图谱(18)
1.3文化遗产信息资源(25)
2数字人文视角下的文化遗产信息资源特征分析(42)
2.1文化遗产信息资源的特点(43)
2.2数字人文视角在文化遗产信息资源分析中的优势(45)
2.3数字人文视角下的文化遗产信息资源分析框架(48)
2.4数字人文视角下的文化遗产信息资源特征分析实验(49)
3数字人文视角下的文化遗产信息资源知识抽取(69)
3.1基于关键词抽取的文化遗产信息资源命名实体识别(69)
3.2多知识库融合的文化遗产信息资源实体关系抽取(80)
3.3面向文化遗产信息资源特征的知识抽取模型(86)
3.4绘画类文化遗产信息资源知识抽取实验(89)
4数字人文视角下的文化遗产信息资源知识图谱构建(111)
4.1文化遗产信息资源知识图谱构建框架(111)
4.2文化遗产信息资源本体构建——以绘画为例(116)
4.3基于本体与语义的文化遗产知识融合(122)
4.4基于知识融合的文化遗产知识图谱生成(129)
4.5绘画类文化遗产信息资源知识图谱构建实验(133)
5数字人文视角下的文化遗产信息资源知识图谱应用(145)
5.1数字人文视角下的文化遗产信息资源知识图谱应用场景分析(145)
5.2融合知识图谱与深度学习的文化遗产信息资源知识发现(147)
5.3主题—知识图谱关联的文化遗产信息资源知识推荐(164)
5.4湖北省博物馆网站绘画类文化遗产知识标引实验(169)
5.5故宫博物院网站绘画类文化遗产知识发现实验(172)
5.6百科网站绘画类文化遗产知识推荐实验(183)
后记(187)
前言网络中大量信息资源在拓宽受众知识来源的同时,也为知识的高效获取带来了巨大的挑战。文化遗产领域就是一个典型代表,网络的迅速发展为文化遗产信息资源的传播与利用提供了新的平台,极大促进了文化遗产知识的共享与交流。然而文化遗产信息资源却有着专业性强、分类复杂、动态累积、资源散乱等特点,其特有的知识深度增加了受众获取及理解有关知识的难度。因此,如何从海量信息资源中精炼文化遗产知识,构建自动化流程对信息资源中的文化遗产知识进行抽取与组织,建立具有针对性的知识表示体系,创新面向网络环境的文化遗产知识精准服务方法,成为新时代文化遗产知识传播以及发扬和传承中华优秀传统文化所面临的重要问题。基于此,本书从数字人文视角对文化遗产信息资源进行分析,探索其共性特点与个性差异,再选择相适应的数字化方法进行文化遗产知识的发现、融合、重构以及知识图谱构建,并根据信息资源内容和结构特征获取文化遗产知识,利用本体和语义相似性对齐知识,使用知识图谱进行知识表示,弥合信息资源与受众间的知识鸿沟,促进文化遗产知识在新媒体时代的传播与推广。全书共分为5章,每章的主要内容如下。第1章,概述。本章首先阐明了本书的研究背景及意义,在对国内外文化遗产信息资源有关研究进行梳理的基础上,发现了当前研究的不足之处,指出互联网时代面对数量爆炸的信息资源时,需要结合数字人文相关方法建立一套有针对性的方法自动构建知识图谱。利用知识图谱的应用发现和推广文化遗产知识,是现阶段文化遗产信息资源研究亟须探索的内容。在此基础上,本章还探讨了数字人文与知识图谱在文化遗产信息资源知识管理中的重要作用,阐明了文化遗产信息资源知识图谱作为本书研究的支撑技术,也是构建数字化技术与人文信息资源管理协同关系的关键,而知识图谱是解决文化遗产信息资源知识服务问题的支点,具有方法上的可行性与架构上的先进性。本章作为面向开放领域文化遗产信息资源知识图谱构建与应用研究的理论起点,为下一步研究奠定了基础方法与理论依据。第2章,数字人文视角下的文化遗产信息资源特征分析。本章就文化遗产信息资源的特征进行了分析,其目的是从内容、知识以及统计视角分析信息资源特征,以便选择具有针对性的数字化方法进行接下来的知识抽取工作。从分析结果不难发现,文化遗产信息资源呈现出了典型的二元特征,常见的信息资源以文化遗产的基本知识为主要内容,在网络中的呈现具有内容相似、重复度高的特点,通过内容聚类的方法可以较好地捕捉该类型信息资源。而在专业文献及知识库中存在的文化遗产信息资源知识分布相对分散且重复度较低,在聚类中呈现出较为离散的特征。上述两类信息资源可以概括当下开放领域中绝大部分文化遗产信息资源的特征,根据这两类信息资源的特点选择不同类型的数字化方法进行知识的相关研究可以有效地提升知识抽取效率,为知识图谱的构建提供更高效的方法。第3章,数字人文视角下的文化遗产信息资源知识抽取。知识抽取是构建知识图谱的基础,也是知识图谱应用的前提,知识抽取的全面性与质量直接影响后续研究的进行,文化遗产知识体系是一类严谨的知识体系,其对知识质量的需求要大于全面性的需求。本章围绕如何利用数字人文视角下的文化遗产信息资源特征分析结果与远程监督方法从开放领域的非结构化数据中抽取实体,利用信息资源主题关键词从知识库中检索与之有关的知识进行论述。为了尽可能从多个知识来源获取文化遗产知识,本章还提出了基于多知识库的知识对齐方法,扩展了远程监督方法中外部知识库数据来源的范围,为后续知识图谱的构建打下了良好的数据基础。第4章,数字人文视角下的文化遗产信息资源知识图谱构建。本章是数字人文视角下进行文化遗产信息资源知识图谱构建的核心,依据前几章的研究结果,从信息资源中抽取主题关键词后,结合外部知识库进行命名实体识别与知识抽取,得到了文化遗产信息资源知识图谱构建的数据来源。在此之上,本章将知识图谱的构建过程划分成知识抽取、知识对齐、图谱构建与知识可视化。本章从框架上高度完整梳理知识图谱的构建流程,厘清文化遗产知识图谱的构建过程,为知识图谱在文化遗产信息资源中的应用提供了良好的数据支持。第5章,数字人文视角下的文化遗产信息资源知识图谱应用。本章在数字人文视角下对文化遗产信息资源进行知识抽取、知识发现与知识推荐,进行知识图谱在文化遗产信息资源中的应用研究,在知识抽取后进行多视角下的知识分析。在知识标引中,本章使用绘画类文化遗产信息资源知识图谱对湖北省博物馆网站的有关页面进行了知识抽取、命名实体识别、实体链接、关系链接等知识标引研究,取得了较好的标记效果,同时利用知识图谱从整体角度对文化遗产知识进行了深入的分析。对于绘画类文化遗产信息资源知识,本章首先选择深度学习的有关方法,利用前文所述的方法对绘画类文化遗产信息资源进行知识标注后,将得到的标注数据作为训练集,然后使用预训练语言模型获取信息资源的文本特征,将所标注数据与句子级别文本特征相融合,依据长短时记忆网络与注意力机制获取实体关系在句子中的位置特征,*后利用训练数据进行未标注信息资源中的知识发现。该知识发现方法在发现文化遗产信息资源中隐含知识的同时还可以针对两实体间不同的关系进行分辨,即当两实体存在多种关系时,可以选择出*符合当前语境的关联关系。在基于百科网站的知识推荐中,本章基于网络视角对知识图谱进行分析,在文化遗产信息资源之外建立起一套文化遗产知识重要程度的计算方法,再结合需要进行推荐的信息资源中实体的出现频率、位置等内容信息共同计算知识的重要程度,*终得到融合后的文化遗产信息资源知识推荐结果,进行基于文化遗产信息资源语境的知识推荐。三种类型的应用为数字人文视角下文化遗产信息资源知识图谱的应用提供了指引。文化遗产信息资源的有关研究作为弘扬中华传统文化、实现中华民族伟大复兴征程的重要组成部分,仍有诸多问题需要解决。本书系湖北省社科基金一般项目(后期资助项目)“数字人文视角下的文化遗产信息资源知识图谱构建及其应用研究”(项目编号HBSK2022YB376)与湖北省图书馆学会科研项目“智慧图书馆建设背景下的阅读推广服务研究”(课题编号stxh2022B05)的部分研究成果。希望本书能够为读者提供些许帮助。著者2023年5月
1概述
“文运同国运相牵,文脉同国脉相连。”文化是民族生存和发展的重要力量,各类型文化遗产是人类文明的记忆载体,是华夏儿女建立文化自信的重要基础。随着“文博热”到来,各类型媒体上有关文化遗产的报道数量迅速增长,互联网中与文化遗产有关的话题与讨论日渐增多,数字出版与数据库的推广使得与文化遗产有关的研究成果能够以更快的速度与更新颖的形式公布,这些处于数字化新媒体环境下的文化遗产信息资源以快速扩张的态势在受众间广泛传播。但历史文化知识存在理解门槛,大量的文化遗产信息资源需要有历史知识的积淀才能被充分解读。绝大多数受众通常不具备相应的知识储备,如何直观全面地揭示信息资源中蕴含的文化遗产知识,帮助受众理解中华文明的璀璨之处,是推广历史文化遗产知识与弘扬中华传统文化需要面对的问题。
数字人文的发展为人文社科类信息资源中的知识发现和利用提供了新视角与新方法,在鼓励研究人员使用数字化技术对信息资源进行分析的同时,强调保持人文研究中对于事物共同性总结及特殊性分析的能力,从内容角度对数字化技术的应用方向进行引导,通过局部特征的分析进行人文社科类信息资源特征的总结,而后使用数字化技术的统计与计算能力对结果进行分析与完善,依据信息资源结构特征选择能够最大程度揭示其内容的数字化技术方法,提供人文社科类信息资源利用的新路径。
1.1数 字 人 文
数字人文通常意义上被视为数字化技术在人文社科信息资源研究中的深层次应用,从人文视角出发,使用经过筛选的数字化方法进行分析,获取通用方法所无法得到的研究结果。国外学者认为,数字人文可以追溯到20世纪40年代的人文计算领域,其开创性工作被认为是1946年耶稣会学者罗伯托·布萨(Roberto Busa)对中世纪时期哲学以及神学作品《托马斯·阿奎那》文集的索引编制,以及英国教授约瑟芬·迈尔斯(Josephine Miles)在20世纪50年代进行的文体定量研究项目,首先是关于“浪漫主义诗人偏爱的形容词”,其次是关于“1640年、1740年和1840年诗歌的短语形式”。前者将计算机技术应用于传统人文研究对象的分析工作中,后者试图通过量化方式对比不同人文研究对象的特点与异同。这些研究与人文研究的数字化工作相比,最显著的特点在于针对内容使用数字化、信息化的方法进行处理,而不仅仅是将人文作品进行简单的数字化转换与展示。“数字人文”一词最早是由《数字人文指南》(A Companion to Digital Humanities)一书的三位编辑约翰·温斯沃斯(John Unsworth)、苏珊·施莱布曼(Susan Schreibman)和雷·西门子(Ray Siemens)提出的。他们试图阻止人们将该领域称为“纯粹的数字化”,同时也为了区分“当代人文方法研究数字对象”与数字人文学科所使用的“数字技术研究传统人文对象”。人文领域内计算系统的使用和计算介质的研究,更普遍地被称为“计算转向”。
1.1.1“远读”有关理论
学者弗兰科·莫莱蒂(Franco Moretti)2000年在其论文《世界文学猜想》(Conjectures on World Literatures)中提出“远读”(distant reading)这一概念之后,远读成为一种人文学科的新研究方法,在国外的人文研究,尤其是世界文学与比较文学研究中产生了巨大的影响。莫莱蒂认为对世界文学的有关研究由于涉及大量的文本范围和不同语言之间文化习惯的不同,对所有文本进行精读显然不是人类可以胜任的工作。研究人员需要对这样大范围的研究对象进行采样、统计、图绘、分类,进而描述文学史的总体特征,然后再进行文学评论式的解读,很显然上述工作使用计算机完成才更为合理。早期研究中,莫莱蒂在《世界文学猜想》一文中提出的“远读”理论的内容与定量分析无关,并不涉及计算机技术,其主张“少即是多”,即在没有直接阅读文学作品的情况下,利用二手资料对研究对象进行宏观分析。这种考察分析方法是一种牺牲细节的研究方式,至于牺牲的多少则由所采用的具体方式决定。
从表1.1不难看出,莫莱蒂对于“远读”的解释的变化正是“远读”从原有概念发展为数字人文有关概念的变化过程,即从生物进化知识起步,采用空间地理分析、统计分析、可视化等手段,最终使用定量分析方法对文学作品进行分析的过程。
“远读”概念的解释来源时间
本书认为“远读”的概念经历计算机技术的不断发展,已经有了巨大的变化。莫莱蒂所认为的“远读”概念是通过整合资料,使用统计、个人总结等方式对大量文学文本进行概括性的描述,从而揭示这些研究对象的发展、变化规律,侧重于对文本集合已总结特征的汇总与描述。而数字人文学者们所进行的“远读”研究则是在这一思想影响的基础上,直接使用计算机技术读取文本内容进行基于文本的统计分析,从而进行文本特征的分析,其侧重点在于对文本集合内在特征的揭示。“远读”概念的核心在于无论是宏观统计描述还是内在结构揭示,其研究过程都是超越文本内容的微观描述,分析的来源是经过统计分析后的文本,分析手段是各种能够对文本进行总结概括与特征揭示的方法,尽管过程采用自动方法,但对于结果的分析与意义的解读都需要人工操作才能完成。还有学者指出,即便是分析单篇文档所包含的文本特征(如字、词出现频率等),或者分析其内部结构,如针对特定类型内容进行提取,数据量也会大到个人无法处理的程度,因此,“远读”概念对单篇文档也是适用的。
评论
还没有评论。