描述
开 本: 128开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121352454
产品特色
编辑推荐
内容简介
本书是畅销书升级版,向读者提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的成果,并以模块化的方式进行组织。本书着重介绍了机器学习在搜索引擎中的应用,包括中文分词、聚类、分类等核心的机器学习算法,并结合示例加以介绍和分析,使读者可以更好地理解机器学习在搜索引擎中的价值;同时,阐述了大数据给搜索引擎带来的新特性,结合目前大数据分析的主流工具,在搜索引擎中构建知识图谱,以及进行日志反馈学习,可以使得搜索引擎更加智能。本书不仅适合作为互联网行业从业者的技术参考书,也适合作为搜索引擎爱好者的参考读物。
目 录
第1章?引论 1
1.1?搜索引擎的过去 1
1.2?搜索引擎的现在 2
1.3?搜索引擎的未来 4
1.4?大数据与搜索引擎 6
1.4.1?搜索价值提升 6
1.4.2?用户价值提升 7
1.5?大数据与人工智能 7
1.5.1?人工智能的发展 7
1.5.2?人工智能技术 9
1.6 搜索引擎与人工智能 11
1.7?本章小结 13
第2章?搜索引擎原理与技术 14
2.1?基本工作原理 14
2.2?基本模块结构 15
2.2.1?网络爬虫服务 16
2.2.2?索引服务 17
2.2.3?缓存服务 18
2.2.4?搜索服务 19
2.2.5?日志服务 21
2.3?技术概要 22
2.3.1?自然语言处理 22
2.3.2?知识图谱 23
2.3.3?海量数据存储 25
2.3.4?分布式计算 27
2.3.5?搜索排序 28
2.4 开源技术 29
2.4.1 Apache Lucene 29
2.4.2 Apache Nutch 31
2.4.3 Sphinx 32
2.4.4 Elastic Search 34
2.5?本章小结 36
第3章?自然语言处理框架 37
3.1?英文分词 37
3.2?中文分词 39
3.2.1?中文分词概述 39
3.2.2?基于词库的分词技术 40
3.2.3?基于条件随机场模型的中文分词 42
3.2.4?分词粒度 49
3.3?词性标注 50
3.3.1?隐马尔科夫模型概要 51
3.3.2?隐马尔科夫模型与词性标注 52
3.4?语义相似度 60
3.5?依存句法分析 62
3.5.1?依存句法分析概要 62
3.5.2?依存句法分析实现 65
3.6?情感倾向分析 68
3.7?文档关键词提取 70
3.7.1?文档关键词提取概述 70
3.7.2?基于TF-IDF算法 71
3.7.3?基于TextRank算法 73
3.8?文档句子相似度分析 76
3.8.1?句子相似度 77
3.8.2?文档相似度 79
3.9?文档核心句提取 80
3.10?文本的分类与聚类 83
3.10.1?文本分类 84
3.10.2?文本聚类 89
3.11?语种检测 96
3.12?本章小结 98
第4章?构建大数据存储引擎 99
4.1?架构体系 100
4.1.1?结构概要 100
4.1.2?服务器上线 103
4.1.3?服务器下线 103
4.1.4?数据读取 104
4.2?数据存储模型 105
4.3?数据压缩 107
4.4?负载均衡 108
4.5?数据存储逻辑视图 111
4.6?本章小结 114
第5章?构建分布式实时计算 115
5.1?概述 115
5.2?设计架构 117
5.2.1?设计思想 117
5.2.2?基本框架 119
5.3?运行模式 121
5.4?负载均衡 122
5.5?通信设计 123
5.5.1?基本方式 124
5.5.2?分布式远程服务调用 124
5.6?容灾恢复 125
5.7?数据容错原理 126
5.8?数据处理设计示例 128
5.9?本章小结 129
第6章?分布式可扩展爬虫 130
6.1?爬虫体系架构 130
6.1.1?主从分布式结构爬虫 131
6.1.2?对等分布式结构爬虫 131
6.1.2?基于分布式计算平台爬虫 132
6.2?网页解析 133
6.2.1?状态码处理 134
6.2.2?链接去重 134
6.2.3?广告识别 136
6.2.4?网站地图 139
6.2.5?非网页数据获取 140
6.2.6?网页去重 141
6.2.7?链接提取 145
6.2.8?爬虫协议 146
6.3?网页结构化 148
6.3.1?网页的编码信息 148
6.3.2?网页的正文信息 149
6.3.3?网页的关键词信息 153
6.3.4?网页的标题 153
6.3.5?网页的发布时间 155
6.3.6?网页的语言检测 155
6.3.7?其他结构化数据 156
6.4?网页抓取策略 157
6.5?爬虫权限应对 158
6.6?深网抓取 161
6.7?抓取更新策略 162
6.8?本章小结 164
第7章?大数据构建知识图谱 165
7.1?概述 165
7.1.1 开放知识图谱 165
7.1.2 知识图谱与认知智能 167
7.1.3 图数据库:Neo4j 168
7.1.4 资源描述框架:RDF 172
7.2?搜索引擎与知识图谱 174
7.3?可靠数据源选择 176
7.4?实体抽取 177
7.5?关系抽取 178
7.5.1?关系抽取概述 179
7.5.2?隐藏关系抽取 180
7.5.3?结构化确定关系抽取 183
7.5.4?非结构化确定关系抽取 185
7.6?知识图谱检测 190
7.6.1?实体关系修正 190
7.6.2?实体对齐 191
7.6.3?实体歧义分析 193
7.7?知识推理与知识计算 194
7.7.1?知识推理 194
7.7.2?知识计算 195
7.8?知识聚类 198
7.9?智能搜索实现 200
7.9.1?模式匹配 200
7.9.2?知识拆解 201
7.9.3?合并求解 203
7.10?智能搜索扩展 205
7.10.1?常识性智能搜索 205
7.10.2?实时信息智能搜索 206
7.10.3?可交互式智能搜索 207
7.11 知识图谱应用 208
7.11.1 问答系统 208
7.11.2 情报分析 211
7.11.3 智慧医疗 214
7.11.4 推荐系统 215
7.12?本章小结 217
第8章?索引构建机制 218
8.1?倒排索引 218
8.1.1?倒排索引概述 219
8.1.2?索引结构 220
8.1.3?构建过程 222
8.1.4?排序规则 223
8.1.5?索引压缩 224
8.1.6?更新策略 230
8.2?分布式存储 230
8.2.1?存储划分方式 231
8.2.2?存储平衡策略 232
8.3?存储索引 237
8.3.1?二叉搜索树 238
8.3.2?B树 239
8.3.3?B 树 241
8.3.4?B 树与文件索引 242
8.4?字典树索引 244
8.4.1?字典树索引概述 245
8.4.2?字典树索引构建 247
8.4.3?字典树查询优化 249
8.5?本章小结 250
第9章?搜索服务构建 251
9.1?概述 251
9.1.1?体系结构 251
9.1.2?七何分析法 252
9.1.3?搜索语法 253
9.1.4?相关性排序 255
9.1.5?不安全信息过滤 259
9.2?大数据分布式缓存 263
9.2.1?缓存结构设计 263
9.2.2?缓存更新策略 264
9.3?文本纠错算法 265
9.3.1?中文文本纠错 265
9.3.2?英文文本纠错 269
9.4?结果显示算法 270
9.4.1?动态摘要 271
9.4.2?关键词高亮算法 274
9.4.3?网页快照 278
9.5?搜索智能提示 278
9.6?网页排序 282
9.6.1?基于PageRank的网页重要性评价 282
9.6.2?基于HITS算法的网页权威性评价 285
9.6.3?HillTop算法 287
9.6.4?网页作弊评价 288
9.6.5?网页排序调试 291
9.7?个性化搜索 292
9.7.1?个性化搜索示例 292
9.7.2?BP神经网络与个性化搜索 293
9.7.3?地理位置搜索 294
9.8?图片搜索 299
9.8.1?基于内容的图片搜索 299
9.8.2?基于文本的图片搜索 300
9.9?搜索与广告 302
9.9.1?广告投放策略 303
9.9.2?基于User-Based协同过滤的广告投放 303
9.9.3?基于Item-Based协同过滤的广告投放 305
9.9.4?基于混合模式的广告投放 306
9.9.5?广告投放评价 307
9.10?搜索引擎评价 310
9.10.1?搜索引擎评价概述 310
9.10.2?基于准确率、召回率及F值评价 311
9.10.3?归一化折扣累计增益 313
9.11?本章小结 316
第10章?基于用户日志的反馈学习 318
10.1?基于用户搜索词语的分析 318
10.1.1?发现搜索词的价值 319
10.1.2?发现不明意图下的用户行为 320
10.2?基于用户点击日志的分析 321
10.2.1?时间与搜索意图的关系 321
10.2.2?地理位置与搜索意图的关系 322
10.2.3?点击日志与同义词 324
10.2.4?点击日志与词语权重 325
10.2.5?点击日志与新词分类 326
10.2.6?点击日志与知识图谱 328
10.2.7?点击日志与网页重排序 329
10.2.8?点击日志与网页评价 331
10.3?基于用户的特征分析 332
10.3.1?用户跟踪 333
10.3.2?用户群体特征 334
10.3.3?用户个体特征 336
10.4?本章小结 337
致谢 338
1.1?搜索引擎的过去 1
1.2?搜索引擎的现在 2
1.3?搜索引擎的未来 4
1.4?大数据与搜索引擎 6
1.4.1?搜索价值提升 6
1.4.2?用户价值提升 7
1.5?大数据与人工智能 7
1.5.1?人工智能的发展 7
1.5.2?人工智能技术 9
1.6 搜索引擎与人工智能 11
1.7?本章小结 13
第2章?搜索引擎原理与技术 14
2.1?基本工作原理 14
2.2?基本模块结构 15
2.2.1?网络爬虫服务 16
2.2.2?索引服务 17
2.2.3?缓存服务 18
2.2.4?搜索服务 19
2.2.5?日志服务 21
2.3?技术概要 22
2.3.1?自然语言处理 22
2.3.2?知识图谱 23
2.3.3?海量数据存储 25
2.3.4?分布式计算 27
2.3.5?搜索排序 28
2.4 开源技术 29
2.4.1 Apache Lucene 29
2.4.2 Apache Nutch 31
2.4.3 Sphinx 32
2.4.4 Elastic Search 34
2.5?本章小结 36
第3章?自然语言处理框架 37
3.1?英文分词 37
3.2?中文分词 39
3.2.1?中文分词概述 39
3.2.2?基于词库的分词技术 40
3.2.3?基于条件随机场模型的中文分词 42
3.2.4?分词粒度 49
3.3?词性标注 50
3.3.1?隐马尔科夫模型概要 51
3.3.2?隐马尔科夫模型与词性标注 52
3.4?语义相似度 60
3.5?依存句法分析 62
3.5.1?依存句法分析概要 62
3.5.2?依存句法分析实现 65
3.6?情感倾向分析 68
3.7?文档关键词提取 70
3.7.1?文档关键词提取概述 70
3.7.2?基于TF-IDF算法 71
3.7.3?基于TextRank算法 73
3.8?文档句子相似度分析 76
3.8.1?句子相似度 77
3.8.2?文档相似度 79
3.9?文档核心句提取 80
3.10?文本的分类与聚类 83
3.10.1?文本分类 84
3.10.2?文本聚类 89
3.11?语种检测 96
3.12?本章小结 98
第4章?构建大数据存储引擎 99
4.1?架构体系 100
4.1.1?结构概要 100
4.1.2?服务器上线 103
4.1.3?服务器下线 103
4.1.4?数据读取 104
4.2?数据存储模型 105
4.3?数据压缩 107
4.4?负载均衡 108
4.5?数据存储逻辑视图 111
4.6?本章小结 114
第5章?构建分布式实时计算 115
5.1?概述 115
5.2?设计架构 117
5.2.1?设计思想 117
5.2.2?基本框架 119
5.3?运行模式 121
5.4?负载均衡 122
5.5?通信设计 123
5.5.1?基本方式 124
5.5.2?分布式远程服务调用 124
5.6?容灾恢复 125
5.7?数据容错原理 126
5.8?数据处理设计示例 128
5.9?本章小结 129
第6章?分布式可扩展爬虫 130
6.1?爬虫体系架构 130
6.1.1?主从分布式结构爬虫 131
6.1.2?对等分布式结构爬虫 131
6.1.2?基于分布式计算平台爬虫 132
6.2?网页解析 133
6.2.1?状态码处理 134
6.2.2?链接去重 134
6.2.3?广告识别 136
6.2.4?网站地图 139
6.2.5?非网页数据获取 140
6.2.6?网页去重 141
6.2.7?链接提取 145
6.2.8?爬虫协议 146
6.3?网页结构化 148
6.3.1?网页的编码信息 148
6.3.2?网页的正文信息 149
6.3.3?网页的关键词信息 153
6.3.4?网页的标题 153
6.3.5?网页的发布时间 155
6.3.6?网页的语言检测 155
6.3.7?其他结构化数据 156
6.4?网页抓取策略 157
6.5?爬虫权限应对 158
6.6?深网抓取 161
6.7?抓取更新策略 162
6.8?本章小结 164
第7章?大数据构建知识图谱 165
7.1?概述 165
7.1.1 开放知识图谱 165
7.1.2 知识图谱与认知智能 167
7.1.3 图数据库:Neo4j 168
7.1.4 资源描述框架:RDF 172
7.2?搜索引擎与知识图谱 174
7.3?可靠数据源选择 176
7.4?实体抽取 177
7.5?关系抽取 178
7.5.1?关系抽取概述 179
7.5.2?隐藏关系抽取 180
7.5.3?结构化确定关系抽取 183
7.5.4?非结构化确定关系抽取 185
7.6?知识图谱检测 190
7.6.1?实体关系修正 190
7.6.2?实体对齐 191
7.6.3?实体歧义分析 193
7.7?知识推理与知识计算 194
7.7.1?知识推理 194
7.7.2?知识计算 195
7.8?知识聚类 198
7.9?智能搜索实现 200
7.9.1?模式匹配 200
7.9.2?知识拆解 201
7.9.3?合并求解 203
7.10?智能搜索扩展 205
7.10.1?常识性智能搜索 205
7.10.2?实时信息智能搜索 206
7.10.3?可交互式智能搜索 207
7.11 知识图谱应用 208
7.11.1 问答系统 208
7.11.2 情报分析 211
7.11.3 智慧医疗 214
7.11.4 推荐系统 215
7.12?本章小结 217
第8章?索引构建机制 218
8.1?倒排索引 218
8.1.1?倒排索引概述 219
8.1.2?索引结构 220
8.1.3?构建过程 222
8.1.4?排序规则 223
8.1.5?索引压缩 224
8.1.6?更新策略 230
8.2?分布式存储 230
8.2.1?存储划分方式 231
8.2.2?存储平衡策略 232
8.3?存储索引 237
8.3.1?二叉搜索树 238
8.3.2?B树 239
8.3.3?B 树 241
8.3.4?B 树与文件索引 242
8.4?字典树索引 244
8.4.1?字典树索引概述 245
8.4.2?字典树索引构建 247
8.4.3?字典树查询优化 249
8.5?本章小结 250
第9章?搜索服务构建 251
9.1?概述 251
9.1.1?体系结构 251
9.1.2?七何分析法 252
9.1.3?搜索语法 253
9.1.4?相关性排序 255
9.1.5?不安全信息过滤 259
9.2?大数据分布式缓存 263
9.2.1?缓存结构设计 263
9.2.2?缓存更新策略 264
9.3?文本纠错算法 265
9.3.1?中文文本纠错 265
9.3.2?英文文本纠错 269
9.4?结果显示算法 270
9.4.1?动态摘要 271
9.4.2?关键词高亮算法 274
9.4.3?网页快照 278
9.5?搜索智能提示 278
9.6?网页排序 282
9.6.1?基于PageRank的网页重要性评价 282
9.6.2?基于HITS算法的网页权威性评价 285
9.6.3?HillTop算法 287
9.6.4?网页作弊评价 288
9.6.5?网页排序调试 291
9.7?个性化搜索 292
9.7.1?个性化搜索示例 292
9.7.2?BP神经网络与个性化搜索 293
9.7.3?地理位置搜索 294
9.8?图片搜索 299
9.8.1?基于内容的图片搜索 299
9.8.2?基于文本的图片搜索 300
9.9?搜索与广告 302
9.9.1?广告投放策略 303
9.9.2?基于User-Based协同过滤的广告投放 303
9.9.3?基于Item-Based协同过滤的广告投放 305
9.9.4?基于混合模式的广告投放 306
9.9.5?广告投放评价 307
9.10?搜索引擎评价 310
9.10.1?搜索引擎评价概述 310
9.10.2?基于准确率、召回率及F值评价 311
9.10.3?归一化折扣累计增益 313
9.11?本章小结 316
第10章?基于用户日志的反馈学习 318
10.1?基于用户搜索词语的分析 318
10.1.1?发现搜索词的价值 319
10.1.2?发现不明意图下的用户行为 320
10.2?基于用户点击日志的分析 321
10.2.1?时间与搜索意图的关系 321
10.2.2?地理位置与搜索意图的关系 322
10.2.3?点击日志与同义词 324
10.2.4?点击日志与词语权重 325
10.2.5?点击日志与新词分类 326
10.2.6?点击日志与知识图谱 328
10.2.7?点击日志与网页重排序 329
10.2.8?点击日志与网页评价 331
10.3?基于用户的特征分析 332
10.3.1?用户跟踪 333
10.3.2?用户群体特征 334
10.3.3?用户个体特征 336
10.4?本章小结 337
致谢 338
前 言
媒体评论
在线试读
评论
还没有评论。