摘 要 在中文搜索引擎中,中文分词的作用显而易见,其结果直接影响到搜索引擎的性能。当前的中文分词主要有三类方法:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。中文分词发展过程中遇到最大的问题是歧义识别和新词识别。中文分词的未来发展方向既要解决这类问题,使得达到较高的分词正确率,又要进行行业分词不断拓展中文分词的应用范围,本文主要研究分词中的最大匹配算法。 关键词:中文分词;双向匹配;子字典机制 目 录 摘要.............................................................................................................................Ⅰ ABSTRACT.................................................................................................................Ⅰ 1引言.............................................................................................................................1 1.1 研究背景、目的及意义...........................................................................................1 1.2 中文分词的现状....................................................................................................1 paper51.com 1.3 本文的主要创新点................................................................................................3 1.4 课题任务和论文结构............................................................................................3 2 中文分词简介...........................................................................................................4 2.1 中文分词问题描述.................................................................................................4 2.2 中文分词难点分析................................................................................................4 2.3 主要的分词算法....................................................................................................6 3 双向匹配算法和子字典机制...................................................................................8 3.1双向匹配算法.........................................................................................................8 3.2 基于词典的分词算法的词典机制......................................................................13 内容来自论文无忧网 www.paper51.com 3.3 小结......................................................................................................................16 4 中文分词系统的设计与实现.................................................................................17 4.1 系统设计与原则..................................................................................................17 4.2 中文分词系统的设计..........................................................................................17 4.3 中文分词结果的实现..........................................................................................19 5 测试.........................................................................................................................24 5.1 测试环境和测试方案..........................................................................................24 5.2 中文分词系统评价标准......................................................................................24 5.3 实验结果和结论..................................................................................................24 copyright paper51.com 结论.............................................................................................................................27 致谢.............................................................................................................................28 参考文献.....................................................................................................................29 1 引言 1.1 研究背景、目的及意义 随着科技的发展,互联网的时代已经到来,信息技术在发生着巨大的变化。互联网上的信息每年都在以几何级数在增长。如何在这个巨大的信息库中锁定自己需要的信息,已经成为人们越来越关注的问题。搜索引擎就是在这个背景下应运而生,并且迅速发展起来。作为中文搜索引擎的重要组成部分,中文分词的结果的好坏直接影响着搜索引擎用户的体验度。 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、yisou、中搜等大型搜索引擎一直人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 copyright paper51.com 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上个世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度、中搜等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。 |