结合前面的同步原理,以及需求的介绍,下面给出同步的方案设计。 copyright paper51.com 4.1 搜索引擎模型 http://www.paper51.com 模型包括爬虫、索引生成、查询以及系统配置部分。爬虫包括:网页抓取模块、网页减肥模块、爬虫维持模块。索引生成包括:基于文本文件的索引、基于数据库的索引。查询部分有Ajax、后台处理、前台界面模块。如图4所示。 内容来自www.paper51.com
内容来自www.paper51.com
图4 系统模块 http://www.paper51.com 4.2 数据库的设计 内容来自www.paper51.com 本课题包含一张用于存放抓取回来的网页信息如表1。 内容来自论文无忧网 www.paper51.com
表1 网页数据存储表 内容来自www.paper51.com 逻辑字段名 内容来自论文无忧网 www.paper51.com
物理字段名 http://www.paper51.com 字段类型 内容来自论文无忧网 www.paper51.com
是否为空 内容来自论文无忧网 www.paper51.com 主键 paper51.com 外键 内容来自www.paper51.com 说 明 copyright paper51.com
编号 内容来自www.paper51.com
ID 内容来自www.paper51.com int 内容来自www.paper51.com
NOT NULL http://www.paper51.com Yes copyright paper51.com 自增加 内容来自论文无忧网 www.paper51.com 地址 内容来自论文无忧网 www.paper51.com Url 内容来自www.paper51.com Varchar(50) 内容来自论文无忧网 www.paper51.com
NOT NULL 内容来自www.paper51.com 内容 copyright paper51.com Content 内容来自论文无忧网 www.paper51.com VARCHAR(1000) copyright paper51.com NOT NULL 内容来自论文无忧网 www.paper51.com meta标签内容 内容来自论文无忧网 www.paper51.com Mata paper51.com Varchar(100) 内容来自www.paper51.com NOT NULL paper51.com 网页标题 copyright paper51.com Title copyright paper51.com Varchar(100) 内容来自论文无忧网 www.paper51.com NOT NULL copyright paper51.com |