基于Lucene.NET技术的搜索引擎的开发与实现 摘要 随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前Web搜索引擎(SearchEngine) 技术正成为计算机科学界和信息产业界争相研究、开发的对象。 搜索引擎 (SearchEngine)是指因特网上专门提供查询服务的一类网站,这些 网站通过网络搜索软件 (又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。 本文首先介绍了Web搜索引擎的基本原理、核心技术和处理流程,并对如何提高搜索引擎的精确度和相关度进行了深入研究,对其核心算法进行了讨论和评估。 关键词: Web搜索引擎 精确度 Lucene.NET 目 录 摘要 - 0 - ABSTRACT - 1 - 目 录 - 2 - 第一章 绪论 - 3 - 1.1 项目背景 - 3 - 1.2 国内外发展现状 - 4 - 内容来自www.paper51.com 第二章 相关技术和开发工具 - 5 - 2.1什么是搜索引擎 - 5 - 2.2 Lucene.net介绍 - 6 - 2.3 .NET Framework - 7 - 第三章 搜索引擎的基本原理 - 8 - 3.1搜索引擎的基本组成及其功能 - 8 - 3.2搜索引擎的详细工作流程 - 11 - 第四章 系统分析与设计 - 13 - 4.1系统分析 - 13 - 4.2数据库设计 - 13 - 4.3系统实现目标 - 14 - 第五章 系统详细实现 - 15 - 5.1实现环境配置 - 15 - 5.2功能实现 - 16 - 结 论 - 20 - 致 谢 - 21 - 参 考 文 献 - 21 - 第一章 绪论 1.1 项目背景 1994年左右,万维网(world wide web)出现了。它的开放性和其上信息广泛的可访问性极大的激励了人们创作的积极性。在短短的十几年间,人类至少在万维网上发布了40亿条的网页,并且现在每天都有数以万计的数量增长。由于网络上的资源与生俱来的数字化、网络化,这些特性成为了网络信息的双刃剑:一方面便于我们搜集整理,另一方面也会使我们感到太多蜂拥而至,无所适从。而搜索引擎的由来要追溯到1990年加拿大的麦吉尔大学,麦吉尔大学的师生为了在分散在FTP资源上找到所需的东西,他们开发了软件Archie。它通过定期搜索并分析FTP系统中存在的文件名信息,提供查找分布在各个FTP主机中文件的服务。当Web风靡全球之后,以Web网页为对象的搜索引擎检索系统产生了。成为人们上网找寻信息的重要手段,通过搜索引擎系统人们可以在浩如烟海的网络中瞬间找到想要找到的信息,并且搜索引擎的智能以及现在网页的特性使得人们只要输入相关的词语就可以找到直接相关的信息。 copyright paper51.com 现今,Google的巨大成功让整个世界都把眼光投入到搜索引擎这个领域中。仿佛一夜间,各种各样的搜索服务席卷而来。从最初的Google、Yahoo到现今的Baidu、MSN、中搜、Sogou等,搜索引擎的品牌愈来愈多,服务也越来越丰富。同时,伴随着Web2.0的普及,网络信息的膨胀速度呈指数急速增长,各种各样的网站都需要为其加入检索功能,以满足用户的需要。另外,在企业级应用的市场上,全文信息检索的需求也一直在增加,各种文档处理、内容管理软件都需要键入全文检索的功能。 在这种背景下,搜索引擎的技术迅速发展。各种讨论搜索的文章、杂志、论文铺天盖地,论坛和博客上也有许多相关帖子。一时间,搜索引擎技术成为最热门的技术之一。 |