2. 匹配方法: (1)词典存储格式: 内容来自论文无忧网 www.paper51.com 首先对存储形式进行建模,结构是3层树形结构,如下 paper51.com
http://www.paper51.com 一层存储所有单字。第二层保存所有的双字词和多字词的前两个字(因为,也许会出现ABC为词,但AB不是词的情况),并对两者做不同标记(t/f)。每一个可成词的单字对应一系列第二层结点,用来存储所有以该字为词首的双字(包括上述两种情况)。并且,在这里,针对每一个双字,需要记录以该双字为词首的所有词的最大长度,实际中,可以保存除去该双字部分的最大长度(记为n)。第三层存储以某一双字为首的所有词。为了减少存储空间,只存储除去该双字以外的部分(如上图所示)。每一层各结点需按某种次序排列,可使用hash、二分查找等方法进行查询。采用这种层次的存储结构,可以很快把查询词的工作缩小到一个很小的范围内,有利于分词效率的提高。 copyright paper51.com
(2)匹配方法 paper51.com
由于词库中的最大词长通常大于所切分出的词长,为了提高切分的效率,不采用逐次减一个字的方法,而是使用正向逐一增长的方法。 copyright paper51.com
假设对一个句子C1C2……进行分词处理,算法描述如下: 内容来自www.paper51.com 1) 两个字(开始时为C1C2),在词典中查询C1C2是否存在 http://www.paper51.com
2) 不存在,则C1为单字词,一次分词结束,返回1。 copyright paper51.com 3) 存在,判断C1C2是否为词,并从词典中获取该词下层节点汉字的最大长度,设为n copyright paper51.com 4) 若n=0,一次分词结束,保存结果。 内容来自论文无忧网 www.paper51.com 5) 否则,i=2,转6)。 内容来自www.paper51.com 6 ) i=i+1,若i=n+3,转8);否则,转7)。 http://www.paper51.com
7) 再取一个字(此处为Ci),判断第三层中是否有以C3……Ci开始的字(不需要恰好匹配,只要匹配开始的i个字就可以了)。 copyright paper51.com 8) 若存在,分词结束,返回最近一次能够恰好匹配的C3……Cj(j<i),并与C1C2组合成词。如果是C1C2,则根据C1C2的标记判断是双字词还是分为两个单字词。 内容来自论文无忧网 www.paper51.com 9) 否则,转6)。 paper51.com (3)统计方法运用 paper51.com 由于词典的不完全性,许多词可能不会在字典中登录,为了处理句子中的未登录词,我们在原有的算法中嵌入词频统计方法,将某些出现频率较高的连续字段作为一个词切分,我们首先对频度设定一个阈值f。 paper51.com
设已对C1……Cn进行切分,由切分算法和歧义处理算法得到C1……Ci为一个词,Cj……Cn为一个词,Ci与Cj之间皆为单字词,即C1……Ci和Cj……Cn是相邻最近的两个多字词,则将Ci+1……Cj-1作为一个多字词进行词频统计,在对文章全部切分完毕之后,若Ci+1……Cj-1的出现次数达到f时,则将其看作一个词,否则,将其拆分为单字词。 copyright paper51.com
同时,对于相同或相近专业和领域建立起动态词库,将由统计得到的词不断加入词库中,可以实现对词典的动态维护。 内容来自www.paper51.com 以上通过将基于词典的处理方法和基于频率的统计方法结合起来匹配搜索运算,不仅保证了切分速度快、精度高的优点,而且能够结合上下文,最大限度的识别人名、地名、专业术语等未登录词。 paper51.com 2.3 检索反馈 内容来自论文无忧网 www.paper51.com
由于初时的查询语句常常与我们所要的图像内容不符,使得我们找不到我们想要的东西,因此,许多系统都引入了相关反馈,即通过选择一些正确/错误的例子作为反馈,来逐渐提高检索的结果。借鉴文本信息检索的方法,我们在系统中也引入了相关反馈来修改用户提交的查询,使得修改后的查询逐步接近用户真正的需求,来提高系统的性能。通过相关反馈对用户提交的查询的修改,检索的性能比原先有了一定的提高。不过,大多数相关反馈并不具有记忆能力,每次反馈后的结果只能提高本次查询结果。因此我们引入了语义网络,把每次反馈的结果记录到语义网络中,使得系统的效果随着使用次数的增加而逐步提高。 copyright paper51.com 本文介绍的反馈系统,主要集中在对查询语句(Q1,W1,Q2,W2,… , Qm,,Wm)中 Wj的修整中,查询语句中对初始Wj的定义具有一定的偏差,反馈系统可以适当调整Wj,使查询语句(Q1,W1,Q2,W2,… , Qm,,Wm)更反映检索的目的。当查询到m=r+n幅图片时,其中r幅图片与目标相关,n幅图片与目标无关。反馈系统可根据用户的反馈结果,重新生成查询语句如下: 内容来自www.paper51.com
http://www.paper51.com
其中矢量是检索结果图像网页的矢量表示,在矢量中,选择在相似度计算中有贡献的分量作为反馈信息。在公式5中,一般选γ=1 ,0〈β〈1 ,0〈 α〈1 ,β与α值的选取影响着反馈深度,也直接影响着检索的精度。实践表明,具有反馈系统的图像检索系统要比无反馈的图像检索精度提高10%左右,而且m越小,检索的精度越高. http://www.paper51.com
我们在设计检索系统时,提供反馈无反馈选择,并且在反馈系统中提供取值的选 paper51.com
内容来自论文无忧网 www.paper51.com 择。当m取值较小时,直接显示检索到的图像,并供用户选择是否与目标图像的相关性。以上都是为了改善用户界面,便于反馈系统的应用。下面是测得当m=1时,检索精度与反馈中系数α、β之间关系的曲线,图中可以得出α=0.1 时检索精度Precision取最大值,图2中可以得出β在0.5~0.6 之间时检索精度Precision取最大值。从图1和图2又可以得出,当α=β=0无反馈时检索精度Precision=48%,当α=0.1 ,β=0.5 或0.6时检索精度Precision =61%,引入反馈系统使检索精度提高了13%。 copyright paper51.com
为检验搜索模型,下载含有图像的4000多个中文网页( 来自1000多个 URLs),对这些HTML文档进行检索。在查询语句建立以后,通过词条网对具有相同语义的词条进行扩充,构建符合查询要求的多个IQW,然后分别计算出各自的相似度,根据相似度规定的临界值,得 http://www.paper51.com
内容来自www.paper51.com
出查询的结果。实验表明,合理地选取相似度临界值可以保证较高检索精度与检索完全度。从图3中可以看出,当相似度临界值>0.6时,能保证检索精度>80%,从图4中看出,当相似度临界值<0.6时,能保证检索完全度>60%。当相似度临界值取0.6时,本搜索模型可以保证检索精度>80%,而检索完全度>60%。 内容来自www.paper51.com 为决定ICW,ITW,IAW,PTW在相似度计算中的权值,测试从0.1~ 1.0的所有系数。最终得出ICW,ITW,IAW,PTW的权值分别为0.4、0.3、0.2、0.1时,能比较合理地反映出图片与这些文本的相关性,保证检索的准确性。 内容来自论文无忧网 www.paper51.com |