首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
为提高中文短文本相似度计算的准确率,提出一种新的基于混合策略的中文短文本相似度计算方法。首先,根据词语的语义距离,利用层次聚类,构建短文本聚类二叉树,改进传统的向量空间模型(VSM),计算关键词加权的文本相似度。然后,通过提取句子的主干成分对传统的基于语法语义模型的方法进行改进,得到文本主干的语义相似度;最后,对两种相似度进行加权,计算最终的文本相似度。实验结果表明,提出的方法在短文本相似度计算方面准确性更高,更加适合人们的主观判断。  相似文献   

2.
针对当前《知网》的词语语义描述与人们对词汇的主观认知之间存在诸多不匹配的问题,在充分利用丰富的网络知识的背景下,提出了一种融合《知网》和搜索引擎的词汇语义相似度计算方法。首先,考虑了词语与词语义原之间的包含关系,利用改进的概念相似度计算方法得到初步的词语语义相似度结果;然后,利用基于搜索引擎的相关性双重检测算法和点互信息法得出进一步的语义相似度结果;最后,设计了拟合函数并利用批量梯度下降法学习权值参数,融合前两步的相似度计算结果。实验结果表明,与单纯的基于《知网》和基于搜索引擎的改进方法相比,融合方法的斯皮尔曼系数和皮尔逊系数均提升了5%,同时提升了具体词语义描述与人们对词汇的主观认知之间的匹配度,验证了将网络知识背景融入到概念相似度计算方法中能有效提高中文词汇语义相似度的计算性能。  相似文献   

3.
维吾尔语新闻网页与对应的中文翻译网页在内容上往往并非完全可比,主要表现为双语句子序列的错位甚至部分句子缺失,这给维汉句子对齐造成了困难。此外,作为新闻要素的人名地名很多是未登录词,这进一步增加了维汉句子对齐的难度。为了提高维汉词汇的匹配概率,作者自动提取中文人名、地名并翻译为维吾尔译名,构造双语名称映射表并加入维汉双语词典。然后用维文句中词典词对应的中文译词在中文句中进行串匹配,以避免中文分词错误,累计所有匹配词对得到双语句对的词汇互译率。最后融合数字、标点、长度特征计算双语句对的相似度。在所有双语句子相似度构成的矩阵上,使用图匹配算法寻找维汉平行句对,在900个句对上最高达到95.67%的维汉对齐准确率。  相似文献   

4.
提出了一种综合多特征的句子相似度计算方法,该方法分别从句子的句法、词汇语义、词形三个方面来度量句子的相似度,最后将这三个方面加权整合计算得到句子的相似度。本方法综合考虑了句子的深层和表层信息,并对句子进行了词汇扩展,从而使句子相似度计算更加准确。  相似文献   

5.
针对汉语语句表意灵活复杂多变的特点,提出一种基于语义与情感的句子相似度计算方法,从表意层面计算句子相似度。该方法使用哈工大LTP平台对句子进行预处理,提取词语、词性、句法依存标记与语义角色标记,将语义角色标注结果作为句中语义独立成分赋予相似度权重系数,综合句法依存关系与词法关系计算两句相同标签语义独立成分相似度得到部分相似度,加权计算部分相似度得到句子整体相似度。另外,考虑到情感与句式因子,在整体相似度的基础上对满足条件的两句计算情感减益与句式减益。实验结果表明,该方法能有效提取出句子语义独立成分,从语义层面上计算句子相似度,解决了信息遗漏与句子组成成分不一致的问题,提高了句子相似度计算的准确率与鲁棒性。  相似文献   

6.
汉语句子相似度计算在FAQ中的应用   总被引:4,自引:3,他引:1       下载免费PDF全文
裴婧  包宏 《计算机工程》2009,35(17):46-48
通过对传统的汉语句子相似度模型进行改进,提出一种基于关键词加权的汉语句子相似度计算方法,在此基础上实现一个基于常问问题库的中文问答系统。该系统通过将用户输入的自然语言问句与常问问题库中的候选问题集进行相似度计算,自动返回最匹配的答案给用户,自动更新和维护常问问题库。实验结果表明该方法在问旬匹配上比传统方法具有更高的准确率。  相似文献   

7.
文中主要研究了自动问答系统的句子相似度的几种常见算法,基于统计的VSM算法、语义相似度算法、结构的相似度算法,并在此基础上进行改进,提出了一种新的句子相似度算法,提高了自动问答系统的查全率和查准率.主要研究了分词、标注词性和权值、计算词语的相似度,进而计算句子的加权相似度,最后从FAQ中抽取相似度比较高的句子以及答案给用户.最后通过实验进行验证,这种新的句子相似度算法在一定程度上提高了自动问答系统的查全率和查准率,并具有一定的合理性  相似文献   

8.
提出一种基于同义词词林的句子语义相似度方法,借助同义词词林来计算句子的词形相似度,使用向量距离法得到句子间的词序相似度。同时,对句子进行语义依存句法分析。通过对词形、词序、语义依存相似度加权结合获得句子之间的最终相似度。将该方法应用于常问问题问答系统(Frequency Asked Questions, FAQ)的问句匹配。实验结果表明,该方法在问句匹配上相比传统方法具有更高的准确率。  相似文献   

9.
目前用来评价机器翻译系统译文质量的方法主要是由IBM提出的BLEU、TER和METEOR等方法,他们分别以词汇的重现率、译文与参考译文之间的编辑距离和语言学知识等特征作为评价依据,在判定中文句子的困惑度方面具有一定局限性。所以本文提出在依存语法分析的基础之上,通过对中文句子及其句子主干的语法和语义两方面进行分析得出中文句子的困惑度。实验证明这种方法比通过译文加权改进后的BLEU方法准确率高出4%。  相似文献   

10.
提出一种潜在文档相似模型(LDSM),把每对文档看作一个二分图,把文档的潜在主题看作二分图的顶点,用主题问的加权相似度为相应边赋权值,并用二分图的最佳匹配表示文档的相似度。实验结果表明,LDSM的平均查准率和平均查全率都优于用TextTiling和二分图最佳匹配方法构建的文档相似模型。  相似文献   

11.
首尾段落和首尾语句对语义有着较大的贡献,应该作为判别段落相似度的主要因素。本文将其以恰当权重融入SiteQ算法,提出关联首尾段落和首尾语句的多特征融合段落相似度计算算法Topic-SiteQ。该算法采用多特征融合的算法计算首尾语句的语义相似度,并以一定的权值体现它们对段落相似度的贡献,同时提高首尾段落的评分值,并根据这次评分值进行推荐排序。实验表明,采用该算法,相关段落排序的MRR值提高了0.032,F测度值平均提高了1.4%,说明该算法的改进是有效的。  相似文献   

12.
英汉平行文本句子对齐可以视为一个二分图顶点配对模型。利用完全基于英汉词典的双语句子相关性评价函数,能够对二分图的“顶点对”进行加权。该文提出的顶点配对句子对齐方法首先获取二分图全局最大权重顶点配对作为临时锚点;在此基础上,根据句子先后顺序,局部最大权重顶点配对和英汉句长比的值域范围,纠正临时锚点中的错误,补充锚点序列未覆盖的合法顶点对,同时划分句对,实现句子对齐处理。在对比实验中该句子对齐方法优于Champollion句子对齐系统。从实验对比结果和实践效果看,该句子对齐方法可行。
  相似文献   

13.
基于语义信息的中文短信文本相似度研究   总被引:1,自引:0,他引:1       下载免费PDF全文
在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加权,给出2篇短信文本相似度的计算方法。实验结果表明,该方法在F-度量值上优于TF-IDF算法及词语语义相似度算法。  相似文献   

14.
基于锚信息的生物医学文献双语摘要句子对齐   总被引:1,自引:1,他引:0  
双语句子对齐在双语语料库的处理中有着非常重要的地位,是构建双语词典的第一步工作。该文利用基于带权二部图的最大权重匹配模型为生物医学文献双语摘要建模。在无双语词典的情况下,将基于长度的句子对齐方法和句子的位置信息相结合,充分利用医学文献双语摘要语料中的锚信息,将生物医学摘要段落和句子进行分类计算相似度,实现了生物医学文献双语摘要的句子对齐,取得了较好的实验结果。  相似文献   

15.
基于动态规划的汉语句子相似度算法   总被引:2,自引:0,他引:2  
传统汉语句子相似度计算算法在处理大量专业词汇时准确率较低。为此,提出一种基于动态规划的汉语句子相似度算法。通过获取2个句子的公共子串集合,结合链表消重机制,从集合中获取2个句子的所有最长公共子串,并以此计算相似度。实验结果表明,对于含有大量专有名词的问题集合,该算法的测试正确率达93.6%,计算效率较高。  相似文献   

16.
使用相似度图计算FCA概念相似度需要构造相似关系的传递闭包,对于复杂问题会导致相似度图规模过大,从而影响相似度评价的效率.为了降低相似度图规模,提出一种基于限界传递相似度图的FCA概念相似度计算方法.该方法首先通过限定传递相似关系的长度来避免构造相似关系的传递闭包,得到的限界传递相似度图中忽略了长度超过界限且对区分FCA概念无用的传递相似关系,能够有效压缩相似度图的规模;然后给出了动态传递相似度计算方法和由限界传递相似度图构建二部图的方法.实验结果表明,使用限界传递相似度图能够在不损失计算结果准确度的情况下有效提高FCA概念相似度计算的效率.  相似文献   

17.
提出一种使用段落自动聚类思想的自动文摘方法,首先利用词频统计和词的位置特征得到文档的关键词向量、每个段落的关键词向量,并建立以段落为基础的向量空间模型;然后计算各段落间的相似度,采用K-medoids聚类算法实现文档语义段的划分,并通过一个自定义的目标函数来自适应的确定聚类数目K;最后根据在初始文档中的位置顺序从各语义段中选出与主题最相关的句子构成文摘。  相似文献   

18.
机器人自动写作是人工智能和自然语言处理领域重要的研究方向,然而传统的自动写作方法主要针对体育新闻、天气预报等较短的段落级文本进行研究,并没有对篇章级文本自动生成技术进行深入地建模.针对这一问题,我们着重研究面向高考作文的篇章级文本生成任务.具体而言我们提出了一种基于抽取式的高考作文生成模型,即先进行抽取再利用深度学习排序方法进行段落内部的文本组合生成.通过实际专家评测,我们所生成的作文能够达到北京高考二类卷平均分数,具有一定的实际应用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号