多种网盘链接检测插件 购买前,请先检测网盘链接是否有效
《自己动手写分布式搜索引擎》_1
《自己动手写分布式搜索引擎》_2
《自己动手写分布式搜索引擎》_3
内容简介:
内容简介
本书介绍了分布式搜索引繁开发的原理与Java实现,主要包括全文检索的原理与实现、分布式算法
与代码实现、 Solrcloud和 Elasticsearch的使用与原理等内容,井着重介绍了一种实现分布式中文搜索引
的方法
本书适合有Java程序设计基础的开发人员或者对分布式搜素引技术感兴趣的从业人员使用
本书封面贴有清华大学出版社防伪标签,无标签者不得销售
版权所有,侵权必究。侵权举报电话:010-6278298913701121933
图书在版编目(CIP)数据
自己动手写分布式搜索引/罗刚,崔智杰編著.一北京:清华大学出版社,2017
ISBN978-7-302-47708-2
1.①自….①罗…②崔….①搜素引一程序设计V.TP391.3
中guo版本图书馆CIP数据核字(2017)第162194号
责任编辑:杨作梅
质任校对:张彦彬
责任印制:Li红英
出版发行:清华大学出版社
网址:htp:/ww.up.com.cn,htip/www.abook.com
地址:北京清华大学学研大厦A座邮编:100084
社总机:010-6270175
邮购:010-62786544
投稿与读者服务:010-62776969, c-serviceratup. tsinghua.edu.cn
质量反馈:010-62772015,zhiliang(@tup.tsinghua.edu.cn
印装者:三河市金元印装有限公司
经销:全guo新华书店
开本:185mmX260mm印张:26.7
字数:650千字
版次:2017年9月第1版
E印数:1~3000
定价:59.00元
产品编号:075226-01
前言
搜索引擎成为人们获取信息不可或缺的工具。大数据技术的发展推动了多机集群的分
布式搜索引擎技术走向成熟。普通的机器就可以搭建分布式搜索引。一些开源的分布式
搜素引系统在数据存储、数据分析等方面的功能越来越强大。本书希望用通俗易懂的语
言,让任何对分布式搜索引擎技术感兴趣的读者都能够有所收获
本书的很多内容来源于搜索引擎、自然语言处理、金融等领域的项目开发和教学实践
在此感谢开源软件的开发者们,他们无私的工作丰富了本书的内容
本书的第1章介绍开发分布式搜索引所需要的基本算法;第2章介绍如何从头开始
自己动手写一个简单的全文检索软件包:第3章介绍 Lucene的基本使用方法及其原理;第
4章介绍使用JSP或者 Struts2开发搜素引擘用户界面,以及用户界面常用的 Taglib:第5
章介绍Sol实现分布式搜索引的解决方案 Solrcloud,以及它对SOL查询的支持;第
6章介绍如何使用基于 Lucene的 Elasticsearch实现分布式搜索引
鉴于 Elasticsearch处于快速发展中
些新版本的具体使用情况可以加入.Q.Q.群.
46040545,进行讨论
本书配套的光盘中提供了相关的源代码,有的来源于猎兔搜索多年的开发经验积累
有的是经典算法实现。其中很多源代码都可以直接用于项目实践
本书适合需要具体实现搜索引擎的程序员使用,对于信息检索等相关领域的研究人
也有一定的参考价值,同时猎兔搜索技术团队已经开发出以本书为基础的专门培训课程和
商业软件。目前的一些分布式搜索引攣软件仍然有很多功能有待完善,作者真诚地希望通
过本书把读者带入分布式搜索引摹开发的大门并认识更多的朋友
感谢早期合著者、合作伙伴、员工、学员的支持,给我们提供了良好的工作基础。在
将来,希望我们的分布式搜索引擎代码和技术能够像雨后春算一样快速生长
本书由罗刚、崔智杰编著,另外参与本书编写的还有张晓斐、石天盈、张继红、张进
威、Liu宇、何淑琴、任通通、高丹丹、徐友峰、孙宽,在此一并表示感谢
编者
目录
第1章搜索引擎
3.2创建和维护索引库
搜素引擎基本模块
3.2,1设计索引库结构
3.2,2创建索引库
778
1.2开发环境
3搜索引繁工作原理
3.2.3向素引库中添加索引文档..40
1.3.1网络爬虫
3.2.4删除素引库中的索引文档.43
2全文素引
3.25更新素引库中的素引文档
1.3.3搜索用户界面
2,6关闭索引库
3.4分布式计算
3.27素引的优化与合并
书56
3.5文本挖掘
3.,2.8灵活索引
1.4算法基础
3.2.9索引文件格式
1.4.1折半查找
3.2.10定制素引存储结构
1.4.2排序
3.2.11写素引集成到爬虫
4.3最小生成树
3.2.12多线程写索引
1.5软件工具
3.2.13分发索引
94681
1.6单元测试
2.14修复索引
1.7本章小结
3.3查找索引库
1.8术语表
3.31查询过程
第2章自己动手写全文检索
3.3.2常用查询
9235
3.3.3基本词查询
2.1构建索引.
3.3.4模糊匹配
2.2生成索引文件
3.3.5布尔查询
2.3读入索引文件
3.3.6短语查询
6671
2.4查询
3.3.7跨度查询
2.5有限状态机
3.3.8 Fieldscorequery
2.5.1运算
3.3.9排序
2.52编辑距离有限状态机
3.3.10使用 Filter筛选搜索结果.81
2.6本章小结
第3章 Lucene的原理与应用
2023
3.3.11使用 Collector t选搜素
3.3.12遍历索引库
3.1 Lucene快速入门
3.3.13关键词高亮是
3.1.1创建素引
88g
3.1.2查询索引库
3.3.15关联内容( Blockjoinquery).92
3.13创建文档素引
3.3,16查询大容量索引
3.1.4查询文档索引
3.4读写并发
己动手写分布式搜索ら
5 Lucene深入介绍.
3.5.1整体结构
3.10.4 Vsencoding.
3.5.2素引原理
3.10.5前缀压缩
3.5,3文档值
3.10.6差分编码
3.10.7静态索引裁剪
3.6查询语法与解析
3.11搜索中文
3.1. Lucene切分原理
3.6.2生成一个查询解析器
3.112 Lucene中的 安alyzer
3.63简单的查询解析器,14
3.113自己写 安alyzer
3.6.4灵活的查询解析器
3.11,4 Lietu中文分词
3.7检索模型
3.11.5字词混合索引
3.7.1向量空间模型
3.12搜索英文
3,7.2DFR
3.12.1英文分词
3.7.3BM25概率模型,.130
3.12.2词性标注
199
3.7.4BM25F概率模型
3.12.3原型化
201
7.5统计语言模型.,138
3.13素引数据库中的文本
3.14优化使用 Lucene
7.7隐含语义索引
3.14.1系统优化
3.14.2查询优化
7.9查询与相关度
3.14.3实现时间加权排序
3.7.10使用 Payload调整相关性,142
3.14.4词性标注
.8查询原理,0
3.14.5个性化搜索
3.8.1布尔匹配
3.15实时搜索
3.8.2短语查询
3.16语义搜索
3.83索引统计
3.16.1发现同义
3.162垂直領域同义词
3.16.3同义词扩
.9分析文本
3.16.4语义标注
3.9.1 安alyzer...
3.17本章小结
2mm
3.18术语表
3.9.3定制 Tokenizer
3.9.4重用 Tokenizer
16第4章搜索引擎用户界面
3.9.5有限状态转换
实现 Lucene搜素
3.9.6索引数值列
4.1,1测试搜索功能
3.9.7检素结果排序
171
4.1.2加载索引
3.9.8处理价格
4.2搜索页面设计
3.10 Lucene中的压缩算法
4.2.1 Struts2实现的搜索界面
10.1变长压縮
2.2用于显示搜索结果的
3.10.2 Gamma
Taglib
0《
4.23实现翻页
4.1.1部署到Wcb服.务.器.2
4.3实现搜素接口
4.12防止_攻.击_
4.3.1编码识别
4.12手机搜索界面.
29
4.3.2布尔搜索
4.13本章小结
4.33指定范围搜索
,241
第5章Sor分布式搜索引
4.3.4搜索结果排序
.3.5素引缓存与更新
5.1Solr简介
4.4实现分类统计视图
2Sol基本用法
4.4.1单值列分类统
52.1Solr服.务.器端的配置与中文
4.4.2侧钻
4.5实现相似文档搜索
5.2.2数据类型
4.6实现AAX搜索联想词
5.2.3解析器
0m
4.6.1估计查询词的文档频率.25
5.2.4把数据放进Solr
4.62搜索联想词总体结构
5.,2.5删除数据
4.6.3服.务.器端处理
5.2.6查询语法
4.6.4浏览器端处理
5.3使用Solr
4.6.5拼音提示
5.3.1Solr客.户.端与搜索界面
4.6.6部署总结
267
5.32Solr素引库的查找
4.7推荐搜索词
5.3.3分类统计
4.71挖掘相关搜素词
5.3.4高亮
4.72使用多线程计算相关
535同义词
322
搜索词
5.3.6嵌入式Solr
4.8查询意图理解
5.3.7 Spring实现的搜索界面323
4.8.1拼音搜素.
271
5.3.8索引分发
4.8.2无结果处理
272
5.3.9Solr搜素优化
4.9集成其他功能
4从 FAST Search移植到 Solr
4.9.1拼写检查
5.5Solr扩展与定制
5.5.1献省查询
4.9.3相关搜素
338
4.9.4再次查找
5.5.3Solr中字词混合索
4.9.5搜索ri志
4.10查询分析
5.5.5搜索结果去重
4.10.1历史搜索词记录
5.5.6定制输入输出
4.10.2ri志信息过速
5.7聚类
5.5.8分布式搜索
4.10.4挖掘ri志信息
5.5.9分布式索引
4.10.5查询词意图分析,290
5.5.10Solr查询分析器
4.11部署网站
5.5,11扩展 Sorj
|
|