搜索引擎计算网站页面文本句子相似度算法及流程

句子相似度计算在问题检索、双语例句检索、机器翻译、文档文摘等领域都有很重要的应用价值,其中采用怎样的句子相似度计算方法能够准确地体现两个句子之间 的相似状况是影响上述应用质量的关键。举一个在机器翻译技术中的应用,在机器翻译技术中通常使用预处理过的双语例句作为主要翻译资源,通过编辑与待翻译句 子匹配的相似例句来生成最终译文。具体地,包

括以下步骤:

1)在翻译实例库中搜索与待翻译句子匹配的相似例句。例如:待翻译句子为:This is a pencilo相似例句为:That is a peno

2)识别待翻译句子和相似例句之间的差异词 This和That是差异词,pencil和pen是差异词。

3)将待翻译句子中的差异词对应的译文作为候选译文片段。即“这”和“铅笔”作为候选译文片段。

4)在相似例句的译文中,利用候选译文片段替换相似例句中差异词的译文,得到待翻译句子的译文。相似例句的译文为:“那是一只钢笔”,用“这”替换 “那”,用“铅笔”替换“铅笔”,得到待翻译句子的译文为“这是一只铅笔”。由以上机器翻译过程可以看出,如何选择相似例句是影响翻译质量高低的关键因 素。现有的句子相似度计算通常采用计算句子之间编辑距离的方式,编辑距离由从一个句子转换到另一个句子所需要的最少操作数目确定,所述操作可以包括:插 入、删除或替换等,如果两个句子之间的编辑距离越小,则确定两个句子之间的相似度越高,但这种方式会存在一定缺陷。例如,如果待翻译句子为:Can工 take a picture of the painting?通过计算编辑距离方式选择的相似例句为:Can工take a picture of the car ?利用该相似例句形成的译文为:我能为这辆油画拍张照片吗?如果将句子Can we take a photo of the painting作为待翻译句子的相似例句,则形成的译文为:我能为这幅油画拍张照片吗?可以看出,虽然句子Can we take a photo of the painting与待翻译句子的编辑距离大于句子Can工take a picture of the car与待翻译句子的编辑距离,但其与待翻译句子的相似性要高于句子Can工take a picture of the car,从而形成的译文质量也较高。

上述的问题就是因为在计算句子之间相似度时,没有考虑两句子差异词之间的关系。虽然有人提出在相似度的计算中基于同义词词典来考虑差异词之间的相似程度,但在很多应用下,诸如上述机器翻译应用中,差异词与上下文之间搭配关系相比较语义来说,在

相似度计算中具有更加重要的意义,更能够准确地体现出两句子之间的匹配程度,对上述应用的质量影响更大。

搜索引擎计算句子相似度的方法包括:A、对第一句子和第二句子进行比较,确定差异词对;B、利用差异词对中差异词与其所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率

模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到;c、利用差异词对中各差异词的打分结果,确定差异词对的打分;D、利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。
具 体地,在所述步骤B中,按照如下公式为各芳异词打分:其中m r (w; , E)为差异词W、的打分结果,E为差异词w,所在的第一句子或第二句子,W}为E中除W,之外的其他词语,r (w; , w})为W,和W}的搭配概率,m为E包含的词语数目。在所述步骤c中,按照如下公式为差异词对打分:IS}(W} Wj=Y}W, El}al * Y倾, E2)a2;或者,}S(W}Wj=刀1*r(w,El)+刀2*r恤,E2);其中,S(w, w)为由差异词w和w构成的差异词对的打分结果,r (w, El)为第一句子El中的差异词w的打分结果,r (w, E2)为第二句子E2中的差异词w的打分结果,a 1, a 2,I3 1和I32为预设的权值参数。更进一步地,该方法还包括:确定差异词对中两差异词的特征向量,利用所述两差异词的特征向量,计算所述两差异词的相似距离; 所述步骤C中确定差异词对的打分时,进一步利用差异词对中两差异词的相似距

。其中,差异词的特征向量的确定方式具体为:查询所述搭配概率模 型,将与差异词的搭配概率达到预设搭配概率闽值的词语构成该差异词的特征向量。具体地,按照如下公式计算所述两差异词的相似距 离:dist}w,w}=}-Cosine}F}w},F恤)),其中,dist(w, w)为差异词w和h,的相似距离,A为预设的正数,F (w)为差异词w的特征向量,F(w)为差异词iv的特征向量,Co sin e(F(w), F恤))为F (w)和F伽)的夹角余弦。

在所述步骤C中,按照如下公式为差异词对打分:S(w,w)=r(w, El)`}' * r倾,E2)`}` * dist(w, w)`}3;或者,b'}w, w)=刀1*raw, E1)+刀2*r(w, E2)+刀3*dist(w, w);其中,S(w,w)为由差异词w和w构成的差异词对的打分结果,r (w, El)为第一句子El中的差异词w的打分结果,r }w, E2)为第二句子E2中的差异词w的打分结果,dist(w, w)为差异词w和w的相似距离,a 1, a 2, a 3, R 1, R 2和I33为预设的权值参数。

一种机器翻译的方法,该机器翻译的方法包括:S 1、采用上述计算句子相似度的方法计算待翻译句子和预设的例句库中句子的相似度;S2、选择相似度排在前N个的句子作为所述待翻译句子的相似例句,N为预 设的正整数;S3、利用所述相似例句的译文得到所述待翻译句子的译文。其中,所述步骤S1具体包括:S 11、确定所述例句库中与所述待翻译句子之间的编辑距离满足预设要求的句S12、采用上述计算句子相似度的方法计算待翻译句子和所述步骤S11确定的句子 之间的相似度。步骤S3具体包括:S31、识别所述待翻译句子和所述相似例句之间的差异词;S32、将所述待翻译句子中的差异词对应的译文作为候选译文片 段;S33、在所述相似例句的译文中,利用候选译文片段替换相似例句中对应差异词的译文,得到所述待翻译句子的译文。优选地,该机器翻译的方法还包括:在 显示所述待翻译句子的译文的同时,将采用的相似例句以及采用的相似例句和所述待翻译句子的各差异词对的打分结果进行显示。
一种计算句子相似度的装置,该装置包括:句子比较单元,用于对第一句子和第二句子进行比较,确定差异词对;差异词打分单元,用于利用差异词对中差异词与其 所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率模型中两词语之间的搭配 概率由所述两词语在预设的语料库中的共现次数统计得到;差异词对打分单元,用于利用差异词对中各差异词的打分结果,确定差异词对的打分;相似度确定单元, 用于利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。具体地,所述差异词打分单元按照如下公式为各差异词打分:Y }1vt,W:(、,,E)=w.EE,w} EE,h}. xw} m其中r (w; , E)为差异词W、的打分结果,E为差异词Wi所在的第一句子或第二句子,W.i为E中除w,之外的其他词语,r (w; , w.;)为w,和W.i的搭配概率,m为E包含的词语数目。此时,所述差异词对打分单元按照如下公式为差异词对打分:Sew, w}=Y}W, El}al * Y倾, E2)a2;或者,S(W, Wj=刀1*r(w,El)+刀2*r恤,E2);其中,S(w, w)为由差异词w和w构成的差异词对的打分结果,r (w, E1)为第一句子El中的差异词w的打分结果,r (w, E2)为第二句子E2中的差异词w的打分结果,a 1, a 2,I3 1和I32为预设的权值参数。

还有一种实施方式,该装置还包括:相似距离确定单元,用于确定差异词对中两差异词的特征向量,利用所述两差异词的特征向量,计算所述两差异词的相似距离; 所述差异词对打分单元在确定差异词对的打分时,进一步利用差异词对中两差异词的相似距离。其中,所述相似距离确定单元查询所述搭配概率模型,将与差异词的 搭配概率达到预设搭配概率闽值的词语构成该差异词的特征向量。所述相似距离确定单元按照如下公式计算所述两差异词的相似距离:diSt}w,w}=}- Cosine}F}w},F)),其中,diSt(w, w)为差异词w和w的相似距离,A为预设的正数,F (w)为差异词w的特征向量,F(w)为差异词w的特征向量,Co sin e(F(w), F恤))为F (w)和F恤)的夹角余弦。此时,所述差异词对打分单元按照如下公式为差异词对打分:S}W, W}=Y}W,El}al *Y倾, E2}a2 * dlSt}W, W}a3;或者Sew}=1*raw, E1)+2*r(w, E2)+3*dist(w, w);其中,S(w, w)为由差异词w和w构成的差异词对的打分结果,r (w, E1)为第一句子El中的差异词w的打分结果,r }w, E2)为第二句子E2中的差异词w的打分结果,dist(w, w)为差异词w和w的相似距离,a1, a2, a3, R1, R2和I33为预设的权值参数。一种机器翻译的装置,该机器翻译的装置包括:上述计算句子相似度的装置,用于计算待翻译句子和预设的例句库中句子的相似 度;相似例句选择单元,用于选择相似度排在前N个的句子作为所述待翻译句子的相似例句,N为预设的正整数;译文形成单元,用于利用所述相似例句的译文得到 所述待翻译句子的译文。更进一步地,该机器翻译的装置还包括:初步选择单元,用于确定所述例句库中与所述待翻译句子之间的编辑距离满足预设要求的句子;所 述计算句子相似度的装置计算待翻译句子和所述初步选择单元确定的句子之间的相似度。其中,所述译文形成单元具体包括:差异词识别子单元,用于识别所述待翻 译句子和所述相似例句之间的差异词;片段构造子单元,用于将所述待翻译句子中的差异词对应的译文作为候选译文片段;译文形成子单元,用于在所述相似例句的 译文中,利用候选译文片段替换相似例句中对应差异词的译文,得到所述待翻译句子的译文。优选地,该机器翻译的装置还包括:显示单元,用于在显示所述待翻译 句子的译文的同时,将采用的相似例句以及采用的相似例句和所述待翻译句子的各差异词对的打分结果进行显示。

搜索引擎通过以上以上技术方案提供的方法将词语与词语的搭配概率融入句子相似度的计算,即基于差异词与其所在句子中其他词语的搭配概率为差异词对打分,进 而计算句子之间的差异度,相比较现有技术而言,更加准确地体现出句子之间的匹配程度,从而提高其用于诸如机器翻译等应用的质量。

来源: 萧龙SEOER-深圳网站优化/百度推广营销顾问 (www.xppseo.com) (微信/QQ:xppsem) 欢迎分享本文,转载请保留出处!
上一篇:
下一篇:
图片描述

抢沙发

昵称*

邮箱*

网址