目录 目录... 1 http://www.paper51.com
摘要... 3 copyright paper51.com 第一章 引言... 4 paper51.com 第二章 搜索引擎的结构... 5 paper51.com 2.1系统概述... 5 内容来自www.paper51.com 2.2搜索引擎的构成... 5 内容来自论文无忧网 www.paper51.com
2.2.1网络机器人... 5 copyright paper51.com 2.2.2索引与搜索... 5 内容来自论文无忧网 www.paper51.com 2.2.3 Web服务器... 6 http://www.paper51.com 2.3搜索引擎的主要指标及分析... 6 paper51.com 2.4小节... 6 paper51.com 第三章 网络机器人... 7 http://www.paper51.com 3.1什么是网络机器人... 7 copyright paper51.com
3.2网络机器人的结构分析... 7 内容来自论文无忧网 www.paper51.com 3.2.1如何解析HTML. 7 内容来自www.paper51.com 3.2.2Spider程序结构... 8 copyright paper51.com 3.2.3如何构造Spider程序... 9 内容来自论文无忧网 www.paper51.com 3.2.4如何提高程序性能... 11 内容来自www.paper51.com
3.2.5网络机器人的代码分析... 12 http://www.paper51.com 3.3小节... 14 paper51.com 第四章 基于lucene的索引与搜索... 15 内容来自www.paper51.com 4.1什么是Lucene全文检索... 15 内容来自论文无忧网 www.paper51.com 4.2 Lucene的原理分析... 15 copyright paper51.com 4.2.1全文检索的实现机制... 15 copyright paper51.com 4.2.2Lucene的索引效率... 15 http://www.paper51.com 4.2.3中文切分词机制... 17 http://www.paper51.com 4.3 Lucene与Spider的结合... 18 内容来自www.paper51.com 4.4小节... 21 http://www.paper51.com 第五章 基于Tomcat的Web服务器... 22 内容来自www.paper51.com 5.1什么是基于Tomcat的Web服务器... 22 copyright paper51.com 5.2用户接口设计... 22 copyright paper51.com 5.3.1客户端设计... 22 内容来自www.paper51.com 5.3.2服务端设计... 23 内容来自www.paper51.com
5.3在Tomcat上部署项目... 25 copyright paper51.com 5.4小节... 25 http://www.paper51.com 第六章 搜索引擎策略... 26 copyright paper51.com 6.1简介... 26 http://www.paper51.com 6.2面向主题的搜索策略... 26 paper51.com 6.2.1导向词... 26 http://www.paper51.com 6.2.3权威网页和中心网页... 27 内容来自论文无忧网 www.paper51.com 6.3小节... 27 内容来自论文无忧网 www.paper51.com
参考文献... 28 http://www.paper51.com
copyright paper51.com 第一章 引言 paper51.com
面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。 内容来自www.paper51.com
搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展: http://www.paper51.com 第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(Information Retrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World Web Worm (WWWW)平均每天承受大约1500次查询。 内容来自论文无忧网 www.paper51.com
大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。 内容来自论文无忧网 www.paper51.com |