摘 要
随着Web服务和网络技术的发展,越来越多的网站信息、内容得以开发并发布到网络上。由于网络上信息存在很多的广告的存在、或是Web Services相互之间没有内在的必然联系,用户很难快速有效地获取和利用这些服务。普通的网络爬虫无法准确抓取Web服务,而面向Web Services的聚焦网络爬虫可以有效消除大量无用搜索结果,为用户提供方便。
本文主要做一个自动抓取Web Services的聚焦网络爬虫,它为搜索引擎从万维网上抓取Web Services。该聚焦爬虫对互联网中的URL进行搜索,通过搜索发现分布在网络上的Web Services,并最终建立起一个关于Web Services的信息库,为共享Web Services提供条件。
本系统使用JSP编写,数据库使用SQL2005。 copyright paper51.com
关键词:java ,Web Service,网络爬虫,SqlServer2005 内容来自论文无忧网 www.paper51.com
信息流程
用户在平台管理页面,可以选择性的导入淘宝最热销的女装中(连衣裙、T恤)的信息,导入后会跳转到显示页面,展示导入的数据信息,同时用户可以去数据展示页面对导入的数据进行相关的操作(删除)、或者把相关的数据导出成excel。
用户业务需求
(1)信息采集功能是用户使用本系统的最主要功能,主要作用是通过输入网址、网页中内容的标签及标签特性,校验网址,分析网址,获取网址中的内容,分析内容,通过网页内容的特性获得网页上的内容。
(2)抓取结果管理是通过使用抓取功能后对存储在数据库中的抓取结果进行的操作,可以进行浏览、查看、删除等操作,能详细了解这个淘宝相关最新产品的名称,价格、地区、以及销售量等信息。 http://www.paper51.com
paper51.com |