网络检索技术研究与实现|计算机毕业论文|计算机毕业设计|免费范文下载网站

网络检索技术研究与实现

第一章引言
在现在的信息社会中,信息之多,及数级增长,给用户查找自己所需的信息造成了一定的麻烦。有报告说,因特网上的主页已达1.3亿页,并且还以每天10万页、近2 000万单词的速度递增如。如何在信息的海洋中迅速准确全面地获取自己所需？目前,主要是通过网络检索技术,与此对应的搜索引擎正在日趋走向成熟,百艳争放,各显它们的技术优点,显示出它们存在的价值。与此同时信息的暴增,搜索引擎还是无法囊括所有的内容,有时用户还时无法满意的找到自己所需的信息,如何更好的发展搜索引擎,采取更好的搜索技术、算法,已经是现在搜索引擎研究的一大课题。

第二章检索技术的历史
2.1 搜索引擎的起源
现代意义上的搜索引擎的祖先,是1990年由蒙特利而大学生学生Alao Emlage发明的Azchie。虽然当时WorldWide Web还未出现,但网络中文文件传输还是相当频繁的,而且由于大量的文件散布在各个的FTP主机中,查询起来非常不便,因此Alan Emlage想到了开发一个可以查文件的系统,于是便有了Archie。Azchie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达查询。由于Azchie深受欢迎,受其启发,美国华达System Computing Services 大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。而1991年,XWAIS版本提供了一个有着友好界面的信息搜索系统,但这个系统要求很特殊的文件格式。同一年还出现另外一个被称为COPHER的信息搜索系统。
2.2 新技术的逐渐出现
“机器人”搜索引擎的出现。电脑“机器人”（Computer Robot）是指某个能以人类无法达到的“机器人”程序像蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。与Wanderer相对应。Martin Koster于1993年10月创造了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的连接索引,类似于现在我们都熟知的Yahoo。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Mattbew Cray在Wanderer基础上,一些编程者可能有连向其它网站得链接,那么从跟踪一个网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide Web Worm(Coto的前身,也就是今天overture),和Repository-Based Software Engineering (RBSE) spider最负盛名。
然而JumpStation和www worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
2.3 现代引擎的出现
最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos,是最早的真正意义上的搜索引擎。同年4月,斯坦福（Stanford）大学的两名博士生,David Filo和美籍华人杨致远（Gerry Yang）共同创办了超级目录索引Yahoo, 并成功地使搜索引擎的概念深入人心,Netscape出现在1994年。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google, 其数据库中存放的网页已达30亿之巨。
随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。像国外的inktome（已被Yahoo收购）,它本身并不是直接面向用户的搜索引擎,但向包括Overture（原GoTo,已被Yahoo收购）、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。国内的百度属于这一类,搜狐和新浪用的就是它的技术。因此从这个意义上说,它们是搜索引擎的搜索引擎。

第三章各类引擎的优缺点
3.1 搜索引擎的原理
搜索引擎源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的倒排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。根据搜索引擎所采用的技术和实现的方法可分为两大类：基于SPIDER的搜索引擎和基于目录的搜索引擎。
3.1.1 基于SPIDER的搜索引擎
基于SPIDER的搜索引擎除了需要有全文检索系统外,还要有所谓的“蜘蛛”（SPIDER）系统,也称Robot,Worm,Ants,Crawler和Index等等,即能够从因特网上自动收集网页的数据搜集系统,SPIDER会在网上各站点之间跳来跳去,利用HTML读取Web页面并沿着HTML文档中的链接在WWW上自动漫游,将搜集所得的网页内容交给索引和检索系统处理,就形成我们常见的因特网搜索引擎系统能够自动对WWW资源建立索引或进行主题分类,并通过查询语法为用户返回匹配资源的系统。SPIDER漫游需要一定的时间,数据表明：AltaVista的SPIDER每天漫游的速度是300万页,共索引5 000万个URL、1.5亿页；Excite是5 500万页；Lycos是54万页。所以SPIDER对WWW访问有一个周期,索引数据库也因此而自动周期更新。
3.1.2 基于目录的搜索引擎
基于目录的搜索引擎的特点是所有的索引项都由人工编辑完成。一般是由网站管理员向搜索引擎提供本站点的描述,搜索引擎编辑人员根据这些描述建立数据库。如果网页发生变化,索引库的更新需要人工干预。Yahoo就属于此类搜索引擎。
3.2 搜索引擎采用的几种新技术
3.2.1 机器人搜索引擎（Robot Search Engine）
机器人搜索引擎,是由一种叫“蜘蛛”的计算机程序在网络中爬行,依据一定的网络协议在互联网中发现、加工、整理信息,并为用户提供检索服务。其优点是信息量大,耗费资源少,但精确度不高。从国外搜索引擎的发展趋势来看,将人工发现信息并依靠编目员的知识分类与机器人搜索引擎二者融合,优缺互补,以便提高智能化程度和准确度。
3.2.2 中文文本的过滤信息分流机制
信息分流是在过滤系统为多个用户进行信息过滤服务时,将具有相同或相似信息需求的用户合理地组织在一起,使其公共信息部分得到最大限度的体现,依据这些需求,将文本分流,达到提高效率的目的。由于采用的过滤模型不同,分流的机制也不同。布尔模型,利用其具有明确逻辑表达式的特点,采用判定树等逻辑运算手段,使分流判断中的公共部分尽可能地实现共享,先判断高频属性,再判断其余属性,以此来提高分流的效率。但是由于布尔模型只能进行定性的运算而不能进行定量的排序,因此,局限于逻辑运算的分流机制将不能适应用户的需求。如对于过滤条件A and B and C and D and E,含有项A,B,C,D的文本肯定不能被选中,而用户很有可能对这个文档感兴趣；还有对于过滤条件A or B or C or D or E,仅含项A的文本和含有全部项A,B,C,D,E的文本具有同等重要性。同理,它不能处理项的权重和文本中词频等定量信息。
3.2.3 分词技术与XML技术的有机结合
汉语是一种无明显词间间隔的语言,因而存在一个如何分词的问题。现有的分词法很多,如最大匹配法,最佳匹配法,高频优先分词法,基于频度的分词法,基于神经网络的分词法等等,但是各有缺陷,所以可以采取的分词方法是基于词库的最大匹配法和基于频度与统计的无词库分词法组合起来。在关键词的提取后充分利用XML技术进行搜索。W3C提出XML的通用数据格式,对格式和表达杂乱无章的信息内容进行索引。
XML的文件可以自我表述。采用XML,文件类型定义（Document Type Definitions-DTD）便会附在文件中,基本上,它会定义有哪些组件及组件之间的结构关系等的文件规则。当接收的应用程序不具输入文件的说明时,DTD可以协助辨识文件。不过,DTD并非必要组件。与DTD一起传送的文件称为“可验证的”XML。由XML撰写的文件均可自我表述,因为用来描述的标注,已经含在文件中。XML所使用的开放式、具弹性的格式,让它在任何要需交换并转换信息的地方,都可以被采用。
3.3 国内搜索引擎的不足之处
3.3.1 大多数中文搜索引擎的查询方式较为单一
一般搜索引擎只提供分类浏览的查询方式和关键词全文检索查询方式,缺乏其它途径的查询方式,并且关键词全文检索模式也比较简单,这将导致信息查询的查准率不高的后果。
3.3.2 目前网上的中文信息较少
相比网上外文信息而言,网上中文信息资源较少,且ISP中文站点的质量也良莠不齐,信息更新的速度慢。通常是几个月才有所更新。对搜索引擎而言,ISP站点的内容的质量也非常重要,它和搜索引擎之间是鱼水关系。
3.3.3 采用的技术比较落后
国内的网站所采用的收集资料的技术比较落后,目前我国自行建立的搜索引擎,如搜狐对站点的描述不多,与国外著名搜索引擎相比还有很大差距。这是由于它们均采用目录式搜索引擎（Directory Search Engine）,即通过人工发现信息并依靠编目员的知识进行分类。这种引擎的优点是准确度较高,缺点是信息量小且维护所耗费的资源大。
分析各种中文搜索工具,由于中文编码的特殊性和搜索工具设计者的局限性,目前的中文搜索工具在实际应用中仍反映出一定的不足,有的收集范围小、信息量少；有的搜索能力弱,反馈信息少；有的不支持某一种中文编码类型,从而使获得的信息资料不齐全、不完整,有的返回的信息很多但是查准率较低。所有这些问题的实质是搜索引擎缺乏知识的理解能力和处理能力,对要检索的关键字词只是简单的进行机械的匹配来实现。我们可以借鉴一些新的技术方法来优化中文搜索引擎的功能。