描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302646266丛书名: 计算机学科研究生系列教材
集自然语言处理学术前沿、教学成果与应用实践于一体;
充分反映自然语言处理方向的国际学术前沿进展;
融入北京理工大学团队20余年自然语言处理与应用方向的创新性成果,获得多项省部级科技奖,NLPIR自然语言处理与信息检索共享平台网提供配套的演示程序及代码;
六年多研究型一线教学实践,收录了多个研究小组优秀项目业作为应用案例剖析。
本书集学术前沿、教学成果与应用实践于一体,系统讲述自然语言处理理论与应用。全书分为5篇。基础理论篇包括第1~4章,主要内容为自然语言处理与应用概述、面向自然语言处理的深度学习经典平台与算法、面向自然语言处理的深度学习前沿进展、预训练语言模型;信息处理篇包括第5~9章,主要内容为网络爬虫技术、多格式文档解析与管理、语音文字识别、图像语义表示与字符识别、中文分词与词性标注;语义分析篇包括第10~13章,主要内容为情感分析、新词发现、命名实体识别与关键词提取、知识图谱的大数据自动构建与应用;文本挖掘篇包括第14~18章,主要内容为信息过滤、文本分类、文本聚类、文本校对、自动摘要;应用篇包括第19、20章,主要内容为自然语言处理应用项目和案例。 本书可作为高等学校自然语言处理方向研究生与高年级本科生的专业课教材,也可供自然语言处理方向的科研人员、工程技术人员和爱好者参考。
自然语言处理是一门融语言学、计算机科学、数学于一体的学科,研究人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的目标是让机器在理解语言上像人类一样有智能,最终目标是减小人类交流(自然语言)和计算机理解(机器语言)之间的差距。自然语言处理被誉为 “人工智能皇冠上的明珠”。微软全球副总裁、著名人工智能专家沈向洋在中国计算机大会上明确表示: “得语言者得天下。”自然语言处理已经成为人工智能研究的难点与热点,孕育着改变世界未来的机会。魔多情报(Mordor Intelligence)公司的报告显示,2020年全球自然语言处理市场规模为107.20亿美元,预计到2026年将增长至484.60亿美元,平均年复合增长率为26.84%。随着新冠疫情的全球传播,自然语言处理在医疗健康方面的增长尤为迅速。
近年来,自然语言处理领域已经有不少优秀专著或教材面世,但主要介绍自然语言处理的经典算法与相关技术,结合实际系统与应用实践的不多。我从2016年开始在北京理工大学开设研究生选修课“大数据分析与应用”,2022年开始为北京理工大学人工智能专业大三学生开设必修课“大数据处理技术”,尝试将自然语言处理与大数据、人工智能相结合,采用研究型教学方式,给出自然语言处理的经典任务命题,由学生们分组给出综述报告,要求详细介绍自然语言处理各个技术点的经典算法,并反映出近3年国际学术研究的前沿进展,最后给出直观的演示系统并进行实验验证。课程期末考试需要团队协作完成有一定创新性的自然语言处理项目,由校外产学研各界专家进行独立评审。经过6年的不断探索,课程受到了1000多位修课同学的广泛好评,课程期末平均成绩为94.73分。随着教学实践体系的不断完善,我希望能将20多年自然语言处理研究和6年教学实践的成果分享出来,最终完成了这本自然语言处理与应用密切结合的教材。
本书共分5篇: 基础理论篇主要包括自然语言处理与应用概述、深度学习经典平台与算法、深度学习前沿进展、预训练语言模型;信息处理篇主要包括网络爬虫技术、多格式文档解析与管理、语音文字识别、图像语义表示与字符识别、中文分词与词性标注;语义分析篇包括情感分析、新词发现、命名实体识别与关键词提取、知识图谱的大数据自动构建与应用等;文本挖掘篇包括信息过滤、文本分类、文本聚类、文本校对、自动摘要;应用篇主要介绍一些有特色的自然语言处理应用项目和案例。
本书的特色是集学术前沿、应用实践、教学成果于一体,充分反映大数据、人工智能与自然语言处理方向的国际学术前沿进展,同时融入作者团队20余年自然语言处理与应用方向的创新性成果,相关成果先后获得新疆维吾尔自治区科技进步奖一等奖与二等奖以及钱伟长中文信息处理科学技术奖一等奖。本书吸收了“大数据分析与应用”“大数据处理技术”6年多一线研究型教学实践成果,收录了多个研究小组的优秀项目作为应用案例。作为本书成果的配套网站和相关资料的下载基地,NLPIR(自然语言处理与信息检索)共享平台提供了实际成果演示与各类资源的下载。本书可作为高校自然语言处理方向研究生与高年级本科生的教材,也可供自然语言处理方向的科研人员、工程技术人员和爱好者参考。
本书内容主要涉及作者所在的北京理工大学NLPIR实验室的研究成果,部分章节内容来自实验室近10年发表的学术论文与研究生毕业论文。张华平负责总体策划与任务安排,商建云负责本书的统筹,汤泽阳、雷沛钶、骆曦完成了全部初稿的整理。本书采用了作者指导的研究生张宝华、姜庆鸿、蔡佳豪、刘子宇等的毕业论文及发表的文章,同时采用了北京理工大学“大数据分析与应用”研究生课程、“大数据处理技术”本科课程部分学生的课程作业,均在相应的部分进行了标注。各个章节依次由康铠、王彦浩、杨蔓芝、张晓松、李育霖、张俊辉、马弋洋、张恒瑀、高玉箫、赵青青、杨子研、刘维康、张洪彬、严若豪、谌立凤、李静、蔡佳豪、杜伦、雷沛钶、汤泽阳、黄咏仪等同学进行了精心编辑整理。本书得到基础加强计划技术领域基金(编号: 2021JCJQJJ0059)、北京市自然科学基金(编号: 4212026)、北京理工大学“十四五”规划教材项目的资助。在本书策划和写作过程中,得到了清华大学出版社白立军、杨帆老师的大力支持和帮助,作者在此表示衷心感谢。在本书的写作与相关科研课题的研究工作中,得到了多方面的支持与帮助,作者在此谨向相关文献的作者以及为本书提供帮助的老师、同仁和课题组成员致以诚挚的谢意和崇高的敬意。
限于作者的学识、水平,书中不妥之处在所难免,恳请广大读者批评指正。
张华平
2023年5月
评论
还没有评论。