描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787567583757丛书名: 华东师大新世纪学术基金
目 录
第1章 绪论
1.1 课题背景
1.2 研究意义
1.3 研究目的、对象及内容
1.4 研究特点及思路
1.5 研究结构
1.6 小结
第2章 基础理论
2.1 知识发现概念
2.2 知识发现的方法
2.3 知识发现研究现状
2.4 文本挖掘概述
2.5 小结
第3章 文本知识发现的新思路——主题模型
3.1 文本知识发现面临的挑战
3.2 文本知识发现的新思路——主题模型
3.3 主题模型在文本知识发现中的作用
3.4 主题模型在文本知识发现中的优势
3.5 小结
第4章 面向主题模型的文本知识发现框架
4.1 语义建模
4.2 基本过程
4.3 基本任务
4.4 模型构建
4.5 小结
第5章 面向主题模型的文献知识关联发现
5.1 文献知识发现
5.2 文献知识关联发现模型设计
5.3 知识的语义关联实践
5.4 检索结果聚类的实践应用
5.5 小结
第6章 面向主题模型的新闻文本知识发现
6.1 新闻话题描述模型
6.2 面向主题模型的新闻文本知识发现模型
6.3 新闻文本知识发现实践
6.4 小结
第7章 面向主题模型的UGC文本知识发现
7.1 UGC文本的内涵
7.2 面向主题模型的网络用户评论知识发现
7.3 面向主题模型的UGC文本商业价值发现
7.4 面向主题模型的高质量UGC文本识别
7.5 小结
第8章 结语与展望
8.1 结语
8.2 展望
附 录
附录A 商业领域的知识发现系统
附录B 图书情报领域的知识系统
附录C Web文本挖掘的应用
参考文献
图目录
图1-1 研究思路11
图2-1 知识发现的一般过程17
图2-2 数据概念描述的过程25
图2-3 CNKI知识发现的研究曲线图(1996—2015)32
图2-4 国际知识发现领域年度发文量趋势图(1993—2015)36
图2-5 文本挖掘的过程46
图2-6 文本预处理过程46
图2-7 文本特征项抽取的过程49
图2-8 Web文本挖掘的一般过程56
图3-1 相关语料生成的主题模型65
图3-2 主题模型发展的时间脉络66
图3-3 LDA生成文件的过程67
图3-4 主题模型的基本想法68
图3-5 主题模型的建模效果示例69
图3-6 主题模型的三层结构70
图3-7 LDA模型70
图4-1 检索结果聚类83
图4-2 基于主题模型的文本建模过程84
图4-3 面向主题模型的文本知识发现的一般过程86
图4-4 基于语义内容的知识发现流程90
图4-5 文本集合时序属性及语义属性关系图91
图4-6 主题与文本语义的趋势关系图92
图4-7 面向主题的文本关联关系知识发现流程94
图4-8 面向主题模型的文本知识发现模型95
图5-1 面向主体模型的知识关联识别模型110
图5-2 LDA对文档集的描述114
图5-3 面向主题模型的文献聚类115
图5-4 文本挖掘领域科技论文年度分布曲线(知网数据库)117
图5-5 主题求解后文献的主题词(部分)119
图5-6 主题词集的高关联规则(部分)120
图5-7 词共现的知识关联描述120
图5-8 检索结果关键词的共词分析121
图5-9 实验过程描述122
图5-10 文本聚类的轮廓图125
图6-1 网络新闻应用用户规模和使用率(2012—2016)129
图6-2 中国网民各类互联网应用的使用率(2015—2016)129
图6-3 面向主题模型的新闻文本知识发现模型136
图6-4 新闻文本内容关联发现模型140
图6-5 基于共现关系的文本主题词聚类研究框架142
图6-6 新闻文本话题演化发现模型145
图6-7 新闻文本降维后的描述(部分)147
图6-8 支持度和置信度值可视化效果148
图6-9 主题计算后的文本(部分)152
图6-10 主题词集合齐普夫图153
图7-1 UGC文本挖掘涉及技术161
图7-2 UGC文本知识发现的内容163
图7-3 用户UGC的主题模型矩阵167
图7-4 用户生成内容主题矩阵167
图7-5 评论信息词性标注结果172
图7-6 研究方法流程图176
图7-7 商品特征提取流程177
图7-8 商品属性情感倾向与商品销售排名关系图185/186
表目录
表目录
表2-1 国内知识发现研究的关键词统计(1996—2015)33
表2-2 国内在知识发现领域发文作者情况34
表2-3 国内研究知识发现的机构列表35
表2-4 国际知识发现论文的研究领域分布(1993—2015)37
表2-5 国际知识发现论文的被引次数前十位(1993—2015)38
表2-6 国际知识发现论文的作者国别与地区分布(1993—2015)39
表2-7 国际知识发现论文的研究机构分布(1993—2015)40
表3-1 LDA图模型的参数说明70
表5-1 文本挖掘研究领域学科分布(部分)117
表5-2 聚类数为7时类簇对应的聚类标签125
表5-3 VSM结合Kmeans聚类对应的聚类标签126
表6-1 待挖掘数据的基本信息147
表6-2 主题关联挖掘的结果(部分高关联规则展示)149
表6-3 不同强度关联规则对应的主题知识150
表6-4 深度挖掘的结果(部分)150
表6-5 共词矩阵(部分)154
表6-6 主题词聚类结果155
表6-7 对比实验结果156
表7-1 国内外常用的NLP工具和工具包162
表7-2 获取评论信息171
表7-3 主题模型处理后主题词排序172
表7-4 结合语义的主题标签173
表7-5 名词过滤规则177
表7-6 抽取商品特征词181
表7-7 情感词典权值182
表7-8 程度级别词权重182
表7-9 商品特征词情感极性程度计算结果(部分)183
表7-10 商品自身因素统计值183
表7-11 实验参数设定184
表7-12 实验分析结果184
表7-13 与笔记本销售排名相关的商品特征属性186
表7-14 个UGC的5组主题190
表7-15 个UGC文档的部分主题词的权重190
表7-16 人工标注与用户打分的对比192
表7-17 系统识别出有用的用户评论192
表7-18 高质量用户生成内容包含的高频主题情况193
表B-1 国外知识发现系统对比205
表B-2 架构与功能对比206
表B-3 检索结果输出方式对比206
表B-4 相关性排序原则207
表B-5 元数据类型208
表B-6 知识关联与可视化应用208
表B-7 文献获取方便度比较209
表C-1 国外Web文本挖掘技术的商业应用情况统计表211
表C-2 国外主要Web文本挖掘的工具类212
前 言
随着信息技术的快速发展,人们处在信息环境的变革之中。在数据泛滥的时代,一方面,人们意识到知识对社会和经济发展的作用越来越大;另一方面,人们获取有价值信息的代价也在不断提高。
在这种变化趋势中,知识发现作为一种工具,在知识管理和决策支持中体现了它特有的价值,并发挥着越来越重要的作用。知识发现可以针对特定的问题和需要,从杂乱无章的数据中发现对人们有价值的信息和智慧,借助技术方法解决人们的知识需求,帮助人们在数据中发现新的认知模式。
20世纪末,知识发现作为一个新学科被人们所关注。它的理论意义在于情报分析研究的科学性,并丰富和完善信息研究的内涵。然而,随着信息技术的发展,知识发现技术也面临许多挑战,这需要我们花费更多的精力去研究和发展该学科。
面对复杂的、多变的知识需求,方法作为工具的价值不言而喻。本书将机器学习领域的研究成果引入情报分析,以主题模型作为知识发现方法的主体,借助其语义识别的能力,挖掘社会活动数据之间的联结,为研究复杂的数据关系和处理大量数据提供了一种新的研究思路和框架。文本以解决实际问题为基本出发点,将知识发现应用于不同场景,包括科技文献分析、新闻文本分析、网络用户生成内容分析等。书中内容的阐述、实例的选取、方案的提出,具有广义上的通用性。
本书是在大量实践基础之上完成的。2000年,读硕士时,我在中科院上海有机化学研究所计算机实验室开始从事网络数据库的学习,在信息加工、系统化组织信息资源、提炼知识等方面进行了大量的实践。几年前,我开始研究语义挖掘在情报分析中的应用,以主题模型作为方法,对多种类型数据进行实践,并形成了一系列的研究成果。在这个过程中,我逐步形成了非概论性的、结合交叉学科知识、以应用为主的研究思路。
本书得以问世,得到了多方面的支持和帮助。感谢华东师范大学新世纪学术出版基金的资助;感谢上海图书馆的张帆老师,为本书的实验提供了大量的数据资源;感谢上海图书馆的夏磊老师,为本书的实验环节提供了部分初稿;感谢华东师范大学信息管理系图书与情报2016和2017级硕士的数位同学在数据处理中给予的帮助。
本书提出了基于主题模型的知识发现研究框架,是一种新的尝试和探索,虽然有一定的实践作为基础,但仍需要进一步的检验、补充和完善。随着深度学习的发展,知识发现的研究方法必将进一步深化和扩展,也将会有新的研究思路和框架丰富这一学科研究的内涵。
限于我的学识水平,书中的遗漏和不足在所难免,还望读者不吝赐教。
阮光册
2018年7月
于华东师范大学
评论
还没有评论。