作品介绍

搜索引擎:信息检索实践


作者:克罗夫特,刘挺     整理日期:2014-08-09 11:33:43

本书介绍了信息检索(IR)中的关键问题,以及这些问题如何影响搜索引擎的设计与实现,并且用数学模型强化了重要的概念。对于网络搜素引擎这一重要的话题,书中主要涵盖了在网络上广泛使用的搜索技术。
  本书适用于高等院校计算机科学或计算机工程专业的本科生、研究生,对于专业人士而言,本书也不失为一本理想的入门教材。
  目录:
  出版者的话
  译者序
  前言
  第1章搜索引擎和信息检索
  1.1什么是信息检索
  1.2重要问题
  1.3搜索引擎
  1.4搜索工程师
  参考文献和深入阅读
  练习
  第2章搜索引擎的架构
  2.1什么是软件架构
  2.2基本的构件
  2.3组件及其功能
  2.3.1文本采集出版者的话
  译者序
  前言
  第1章搜索引擎和信息检索
  1.1什么是信息检索
  1.2重要问题
  1.3搜索引擎
  1.4搜索工程师
  参考文献和深入阅读
  练习
  第2章搜索引擎的架构
  2.1什么是软件架构
  2.2基本的构件
  2.3组件及其功能
  2.3.1文本采集
  2.3.2文本转换
  2.3.3索引的创建
  2.3.4用户交互
  2.3.5排序
  2.3.6评价
  2.4搜索引擎是如何工作的
  参考文献和深入阅读
  练习
  第3章信息采集和信息源
  3.1确定搜索的内容
  3.2网络信息爬取
  3.2.1抓取网页
  3.2.2网络爬虫
  3.2.3时新性
  3.2.4面向主题的信息采集
  3.2.5深层网络
  3.2.6网站地图
  3.2.7分布式信息采集
  3.3文档和电子邮件的信息采集
  3.4文档信息源
  3.5转换问题
  3.6存储文档
  3.6.1使用数据库系统
  3.6.2随机存取
  3.6.3压缩和大规模文件
  3.6.4更新
  3.6.5BigTable
  3.7重复检测
  3.8去除噪声
  参考文献和深入阅读
  练习
  第4章文本处理
  4.1从词到词项
  4.2文本统计
  4.2.1词表增长
  4.2.2估计数据集和结果集大小
  4.3文档解析
  4.3.1概述
  4.3.2词素切分
  4.3.3停用词去除
  4.3.4词干提取
  4.3.5短语和n元串
  4.4文档结构和标记
  4.5链接分析
  4.5.1锚文本
  4.5.2PageRank
  4.5.3链接质量
  4.6信息抽取
  4.7国际化
  参考文献和深入阅读
  练习
  第5章基于索引的相关排序
  5.1概述
  5.2抽象的相关排序模型
  5.3倒排索引
  5.3.1文档
  5.3.2计数
  5.3.3位置
  5.3.4域与范围
  5.3.5分数
  5.3.6排列
  5.4压缩
  5.4.1熵与歧义
  5.4.2Delta编码
  5.4.3位对齐码
  5.4.4字节对齐码
  5.4.5实际应用中的压缩
  5.4.6展望
  5.4.7跳转和跳转指针
  5.5辅助结构
  5.6索引构建
  5.6.1简单构建
  5.6.2融合
  5.6.3并行与分布式
  5.6.4更新
  5.7查询处理
  5.7.1document-at-a-time评价
  5.7.2term-at-a-time评价
  5.7.3优化技术
  5.7.4结构化查询
  5.7.5分布式的评价
  5.7.6缓存
  参考文献和深入阅读
  练习
  第6章查询与界面
  6.1信息需求与查询
  6.2查询转换与提炼
  6.2.1停用词去除和词干提取
  6.2.2拼写检查和建议
  6.2.3查询扩展
  6.2.4相关反馈
  6.2.5上下文和个性化
  6.3搜索结果显示
  6.3.1搜索结果页面与页面摘要
  6.3.2广告与搜索
  6.3.3结果聚类
  6.4跨语言搜索
  参考文献和深入阅读
  练习
  第7章检索模型
  7.1检索模型概述
  7.1.1布尔检索
  7.1.2向量空间模型
  7.2概率模型
  7.2.1将信息检索作为分类问题
  7.2.2BM25排序算法
  7.3基于排序的语言模型
  7.3.1查询项似然排序
  7.3.2相关性模型和伪相关反馈
  7.4复杂查询和证据整合
  7.4.1推理网络模型
  7.4.2Galago查询语言
  7.5网络搜索
  7.6机器学习和信息检索
  7.6.1排序学习
  7.6.2主题模型和词汇不匹配
  7.7基于应用的模型
  参考文献和深入阅读
  练习
  第8章搜索引擎评价
  8.1搜索引擎评价的意义
  8.2评价语料
  8.3日志
  8.4效果评价
  8.4.1召回率和准确率
  8.4.2平均化和插值
  8.4.3关注排序靠前的文档
  8.4.4使用用户偏好
  8.5效率评价
  8.6训练、测试和统计
  8.6.1显著性检验
  8.6.2设置参数值
  8.6.3在线测试
  8.7基本要点
  参考文献和深入阅读
  练习
  第9章分类和聚类
  9.1分类
  9.1.1朴素贝叶斯
  9.1.2支持向量机
  9.1.3评价
  9.1.4分类器和特征选择
  9.1.5垃圾、情感及在线广告
  9.2聚类
  9.2.1层次聚类和K均值聚类
  9.2.2K近邻聚类
  9.2.3评价
  9.2.4如何选择K
  9.2.5聚类和搜索
  参考文献和深入阅读
  练习
  第10章社会化搜索
  10.1什么是社会化搜索
  10.2用户标签和人工索引
  10.2.1搜索标签
  10.2.2推测缺失的标签
  10.2.3浏览和标签云
  10.3社区内搜索
  10.3.1什么是社区
  10.3.2社区发现
  10.3.3基于社区的问答
  10.3.4协同搜索
  10.4过滤和推荐
  10.4.1文档过滤
  10.4.2协同过滤
  10.5P2P搜索和元搜索
  10.5.1分布式搜索
  10.5.2P2P网络
  参考文献和深入阅读
  练习
  第11章超越词袋
  11.1概述
  11.2基于特征的检索模型
  11.3词项依赖模型
  11.4再谈结构化
  11.4.1XML检索
  11.4.2实体搜索
  11.5问题越长,答案越好
  11.6词语、图片和音乐
  11.7搜索能否适用于所有情况
  参考文献和深入阅读
  练习
  参考文献





上一本:论我国产业结构升级与社会充分就业 下一本:实际应用语文学

作家文集

下载说明
搜索引擎:信息检索实践的作者是克罗夫特,刘挺,全书语言优美,行文流畅,内容丰富生动引人入胜。为表示对作者的支持,建议在阅读电子书的同时,购买纸质书。

更多好书