描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302632726丛书名: 人工智能科学与技术丛书
本书理论联系实践,深入浅出,知识点全面,通过阅读本书,读者不仅可以理解自然语言处理的知识,还能通过实战项目案例更好地将理论融入实际工作中。
本书从自然语言处理基础开始,逐步深入各种自然语言处理的热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。 全书共19章,详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算等内容,同时提供配套完整实战项目,例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。 本书理论联系实践,深入浅出,知识点全面。通过阅读本书,读者不仅可以理解自然语言处理知识,还能通过实战项目案例更好地将理论融入实际工作中。 本书适合自然语言处理的初学者阅读,有一定经验的算法工程师也可从书中获取很多有价值的知识,并通过实战项目更好地理解自然语言处理的核心内容。
第1章自然语言处理技术概述
1.1自然语言处理介绍
1.1.1自然语言处理的定义及其在实际工作中的定位
1.1.2自然语言处理的经典应用场景
1.2自然语言处理的技能要求和职业发展路径
1.2.1大数据部门组织架构和自然语言处理职位所处位置
1.2.2自然语言处理的职位介绍和技能要求
1.2.3自然语言处理的职业生涯规划和发展路径
1.2.4自然语言处理的市场平均薪资水平
第2章中文分词
2.1中文分词原理
2.2规则分词
2.2.1正向最大匹配法
2.2.2逆向最大匹配法
2.2.3双向最大匹配法
2.3机器学习统计分词
2.3.1隐马尔可夫模型分词
2.3.2感知器分词
2.3.3CRF分词
2.4分词工具实战
2.4.1CRF 工具包实战
2.4.2Python的Jieba分词
2.4.3Java的HanLP分词
2.4.4Java的IK分词
2.4.5Java的mmseg4j分词
第3章词性标注
3.1词性标注原理
3.1.1词性介绍
3.1.2HMM词性标注
3.1.3感知器词性标注
3.1.4CRF词性标注
3.2词性标注工具实战
3.2.1Python的Jieba词性标注
3.2.2Java的HanLP词性标注
第4章命名实体识别
4.1命名实体识别原理
4.2基于HMM角色标注的命名实体识别
4.2.1中国人名识别
4.2.2地名识别
4.2.3机构公司名识别
4.3基于线性模型的命名实体识别
4.3.1感知器命名实体识别
4.3.2CRF命名实体识别
第5章依存句法分析
5.1依存句法分析原理
5.2HanLP基于神经网络依存句法分析器
第6章语义角色标注
6.1语义角色标注原理
6.2语义角色标注的设计框架
6.2.1生成语义生成树
6.2.2剪枝
6.2.3角色识别
6.2.4角色分类
第7章文本相似度算法
7.1字符串编辑距离
7.1.1算法原理
7.1.2Java代码实现
7.1.3Python代码实现
7.2余弦相似度
7.2.1算法原理
7.2.2Java代码实现
7.2.3Python代码实现
第8章语义相似度计算
8.1《同义词词林》
8.1.1算法原理
8.1.2代码实战
8.2基于深度学习的语义相似度
8.2.1DSSM
8.2.2CNNDSSM
8.2.3LSTMDSSM
第9章词频逆文档频率
9.1TFIDF算法原理
9.2Java代码实现TFIDF
9.3TFIDF的Python代码实现
第10章条件随机场
10.1算法原理
10.2开源工具实战
第11章新词发现与短语提取
11.1新词发现
11.2短语提取
第12章搜索引擎Solr Cloud和Elasticsearch
12.1全文搜索引擎介绍及原理
12.2Lucene搜索引擎
12.3Solr Cloud
12.3.1Solr Cloud介绍及原理
12.3.2Solr Cloud实战
12.4Elasticsearch
12.4.1Elasticsearch介绍及原理
12.4.2Elasticsearch实战
第13章Word2Vec词向量模型
13.1Word2Vec词向量模型介绍及原理
13.2Word2Vec词向量模型实战
13.2.1Spark分布式实现Word2Vec词向量模型
13.2.2谷歌开源Word2Vec工具
第14章文本分类
14.1文本分类介绍及相关算法
14.2朴素贝叶斯算法
14.2.1算法原理
14.2.2源码实战
14.3支持向量机
14.3.1算法原理
14.3.2源码实战
14.4Python开源快速文本分类器FastText
14.4.1FastText框架核心原理
14.4.2FastText和Word2Vec的区别
14.4.3FastText实战
14.5BERT文本分类
14.5.1BERT模型介绍及原理
14.5.2BERT中文文本分类实战
第15章文本聚类
15.1文本聚类介绍及相关算法
15.2Kmeans文本聚类
15.2.1算法原理
15.2.2源码实战
15.3LDA主题词——潜在狄利克雷分布模型
15.3.1算法原理
15.3.2源码实战
第16章关键词提取和文本摘要
16.1关键词提取
16.1.1关键词提取介绍及相关算法
16.1.2基于Python的关键词提取实战
16.1.3基于Java的关键词提取实战
16.2文本摘要
16.2.1文本摘要介绍及相关算法
16.2.2基于Python的文本摘要实战
16.2.3基于Java的文本摘要实战
第17章自然语言模型
17.1自然语言模型原理与介绍
17.2NGram统计语言模型
17.3LSTM神经网络语言模型
第18章分布式深度学习实战
18.1TensorFlow深度学习框架
18.1.1TensorFlow原理和介绍
18.1.2TensorFlow安装部署
18.2MXNet深度学习框架
18.2.1MXNet原理和介绍
18.2.2MXNet安装部署
18.3神经网络算法
18.3.1多层感知器算法
18.3.2卷积神经网络
18.3.3循环神经网络
18.3.4长短期记忆神经网络
18.3.5端到端神经网络
18.3.6生成对抗网络
18.3.7深度强化学习
18.3.8TensorFlow分布式训练实战
18.3.9分布式TensorFlow on Kubernetes集群实战
第19章自然语言处理项目实战
19.1对话机器人项目实战
19.1.1对话机器人原理与介绍
19.1.2基于TensorFlow的对话机器人
19.1.3基于MXNet的对话机器人
19.1.4基于深度强化学习的机器人
19.1.5基于搜索引擎的对话机器人
19.1.6对话机器人的Web服务工程化
19.2搜索引擎项目实战
19.2.1搜索引擎系统架构设计
19.2.2搜索框架技术选型
19.2.3搜索相关度排序
19.2.4搜索综合排序算法
19.2.5搜索内容意图识别和智能纠错
19.2.6搜索智能联想词
19.2.7搜索输入框默认关键词猜你喜欢
19.2.8相关搜索关键词推荐
19.2.9排序学习与NDCG搜索评价指标
19.2.10个性化搜索猜你喜欢
19.2.11搜索此关键词的用户最终购买算法
19.2.12搜索大数据平台及数据仓库建设
19.3推荐算法系统实战
19.3.1推荐系统架构设计
19.3.2推荐数据仓库集市
19.3.3ETL数据处理
19.3.4协同过滤用户行为挖掘
19.3.5ContentBase文本挖掘算法
19.3.6用户画像兴趣标签提取算法
19.3.7基于用户心理学的模型推荐
19.3.8多策略融合算法
19.3.9准实时在线学习推荐引擎
19.3.10Redis缓存处理
19.3.11分布式搜索
19.3.12推荐二次排序算法
19.3.13在线Web实时推荐引擎服务
19.3.14在线AB测试推荐效果评估
19.3.15离线AB测试推荐效果评估
19.3.16推荐位管理平台
参考资料
新型冠状病毒感染(COVID19)疫情是近百年来在世界上传播速度最快、感染范围最广、防控难度最大的突发公共卫生事件。在这次新冠疫情防控中,人工智能、大数据技术大显身手并得到了广泛应用,成为本次疫情防控中的一大亮点。人工智能技术这几年本来就很火,这次的新冠肺炎疫情更是加速了人工智能技术在各应用场景的工程落地速度,同时也掀起了大家学习人工智能技术的狂潮,很多公司对人工智能岗位的人才需求也因此增加,薪资也水涨船高!
自然语言处理(NLP)目前已成为人工智能领域最热门的技术之一,在公司的项目里有着非常广泛的应用场景。目前
NLP人才非常稀缺,招聘需求比较旺盛,薪资相对较高,在人工智能领域是一个非常好的就业方向。《自然语言处理原理与实战》
共19章,分别为自然语言处理技术概述、中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频逆文档频率(TFIDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2Vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型(language model)、分布式深度学习实战、自然语言处理项目实战(对话机器人项目实战、搜索引擎项目实战、推荐算法系统实战)等内容。
本书第1章主要介绍NLP的入门知识以及它在公司实际工作中的岗位技能要求、薪资水平及职业规划。
第2~6章介绍NLP的基础算法。第7章
介绍最热门的字符串编辑距离、余弦相似度。第8章讲解的语义相似度计算是语义热门技术同时也是语义理解的难点。第9章的词频逆文档频率(TFIDF)在NLP中用得很普遍。第10章介绍了条件随机场最好用的工具是CRF 。第11章讲解的新词发现与短语提取是非常重要的NLP课题。第12章
介绍了最流行的搜索引擎Solr Cloud和Elasticsearch。第13章
介绍了Word2Vec词向量模型的Spark分布式实现和谷歌开源工具,Spark平台及更多机器学习算法可参见我
编写的《分布式机器学习实战》。第14章和第15章
介绍了
文本分类和聚类,其中FastText和BERT模型很受欢迎。第16章
讲解
的关键词提取和文本摘要是重点。
第17章自然语言模型的NLP高级应用场景。第18章分布式深度学习实战
用到流行的TensorFlow及Mxnet框架,同时讲解了各种前沿的神经网络算法,同时也是第19章尤其是对话机器人实战项目的基础。第19章自然语言处理项目实战(对话机器人项目实战、搜索引擎项目实战、推荐算法系统实战)侧重公司级实战及工程落地,方便我们系统地巩固知识并快速融入实际工作中。
陈敬雷
2023年10月
评论
还没有评论。