首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
多特征融合的语句相似度计算模型   总被引:1,自引:0,他引:1       下载免费PDF全文
句子的相似度计算在自然语言处理的各个领域都占有十分重要的地位。提出了一种多特征融合的句子相似度计算模型,该计算方法把句子的词形、词序、结构、长度、距离和语义这6种特征相似度考虑进来,通过对不同的特征赋予不同的权重来调节各个特征对于句子相似度的贡献,从而使计算结果得到最优。实验结果表明,该方法与其他方法相比,描述句子的信息更加全面,在计算句子相似度方面具有较高的准确率。  相似文献   

2.
在归纳常见的句子相似度计算方法后,基于《人民日报》3.4万余份文本训练了用于语义相似度计算的词向量模型,并设计了一种融合词向量的多特征句子相似度计算方法。该方法在词方面,考虑了句子中重叠的词数和词的连续性,并运用词向量模型测量了非重叠词间的相似性;在结构方面,考虑了句子中重叠词的语序和两个句子的长度一致性。实验部分设计实现了4种句子相似度计算方法,并开发了相应的实验系统。结果表明:提出的算法能够取得相对较好的实验结果,对句子中词的语义特征和句子结构特征进行组合处理和优化,能够提升句子相似度计算的准确性。  相似文献   

3.
一种新的句子相似度度量及其在文本自动摘要中的应用   总被引:7,自引:0,他引:7  
本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的unigram ,还考虑了bi-gram 和tri-gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同时本文还提出了一种新的,利用句子间相似度以及句子的权重的抽句 式文摘算法,在抽取出句子的同时也去掉了冗余。DUC2003、DUC2004 (Document Understanding Conference 2003 ,2004) 的评测结果征明了方法的有效性。我们的系统在DUC2004 的评测中列第二位。  相似文献   

4.
提出了一种综合多特征的句子相似度计算方法,该方法分别从句子的句法、词汇语义、词形三个方面来度量句子的相似度,最后将这三个方面加权整合计算得到句子的相似度。本方法综合考虑了句子的深层和表层信息,并对句子进行了词汇扩展,从而使句子相似度计算更加准确。  相似文献   

5.
基于多特征融合的句子语义相似度计算   总被引:2,自引:0,他引:2       下载免费PDF全文
赵臻  吴宁  宋盼盼 《计算机工程》2012,38(1):171-173
传统的句子相似度计算方法只关注句子的某个特征,导致召回率和准确率的不均衡。针对该问题,提出一种基于多特征的句子相似度计算方法(MFS)。该方法加入包含词性和位置信息的词权重,并综合考虑词的语义和句子结构。实验结果表明,与其他方法相比,MFS方法的F1值较高。在基于实例的问答系统中,使用MFS方法得到的MRR值也较高。  相似文献   

6.
针对现有直觉模糊聚类方法大都未考虑属性(指标)权重,计算过于复杂且计算结果为实数的问题,提出一种基于新直觉模糊相似度的聚类方法,计算结果为直觉模糊数,运用直觉模糊熵得到属性权重,构造了一种考虑属性权重的直觉模糊相似度公式,得到直觉模糊相似矩阵,设计了风险参数,决策者根据自己风险偏好选择风险参数进行聚类.最后通过算例验证了所提出方法的可行性和合理性.  相似文献   

7.
针对决策信息为区间数的不确定性动态决策问题,在属性权重和时间权重未知的情况下,基于改进向量相似度的方法,构建一种兼顾决策信息和决策偏好的动态多指标决策模型.利用区间型决策信息的相对相似性和属性重要度,构造相对相似度最小规划模型以确定指标权重;在综合考虑决策信息时间价值、决策者偏好的基础上,构建极大熵模型以确定时间权重;结合向量相似度计算存在的缺陷,提出一种基于向量投影思想的向量综合相似度测度方法,从而建立不确性动态决策模型,并通过实例分析检验该模型的合理性和有效性.  相似文献   

8.
针对现有句子语义相似度计算由于缺乏语义结构信息导致精度低的问题,该文在依存关系树的基础上,提出了一种基于多头注意力机制Tree-LSTM(multi-head attention Tree-LSTM,MA-Tree-LSTM)的句子语义相似度计算方法。首先,MA-Tree-LSTM将外部具有指导意义的特征作为输入,再将输入结合多头注意力机制作用在Tree-LSTM树节点的所有孩子节点上,为每个孩子节点赋予不同的权重值,从而实现多头注意力机制和Tree-LSTM的融合;其次,将三层的MA-Tree-LSTM应用于句子语义相似度计算并实现句子对的相互指导,从而得到句子对语义特征的多层表示;最后联合多层的语义特征建立句子对语义相似度计算模型,从而实现句子对间相关的语义结构特征的充分利用。该文提出的方法鲁棒性强,可解释性强,对句子单词的顺序不敏感,不需要特征工程。在SICK和STS数据集上的实验结果表明,基于MA-Tree-LSTM的句子语义相似度计算的精度优于非注意力机制的Tree-LSTM方法以及融合了多头注意力机制的BiLSTM方法。  相似文献   

9.
提出了一种藏语句多特征融合的主观题自动评分算法,构建了关键词词形相似度计算模型、词序相似度计算模型、句子长度相似度计算模型和句子语义相似度计算模型。该算法将计算模型与最大相似度矩阵相结合,计算主观题的标准答案与学生答案之间句子、段落的相似度,最终做出自动评分。实验结果表明,与其他方法比较,该算法能有效降低平均误差值。  相似文献   

10.
《软件》2017,(9):18-22
句子相似度的计算是自然语言处理领域中的重要研究课题,它在信息检索、文本挖掘、机器翻译等领域占有重要的作用。为提高汉泰双语新闻主题句相似度计算的准确率,本文根据汉泰双语新闻主题句的句式特点,提出了一种融合多特征的汉泰双语新闻主题句相似度计算方法。在选取词性、句法成分作为有效特征外,引入句子依存关系特征,并通过对不同的特征加不同的权重来调节各个特征对相似度计算的贡献,从而使计算结果达到最优。与基于词典的方法进行比较,实验结果表明,该方法使得准确率提高了5.9%。  相似文献   

11.
为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。  相似文献   

12.
李晓  解辉  李立杰 《计算机科学》2017,44(9):256-260
word2vec利用深度学习的思想,可以从大规模的文本数据中自动学习数据的本质信息。因此,借助哈尔滨工业大学的LTP平台,设计利用word2vec模型将对句子的处理简化为向量空间中的向量运算,采用向量空间上的相似度表示句子语义上的相似度。此外,将句子的结构信息添加到句子相似度计算中,并就特殊句式对算法进行了改进,同时考虑到了词汇之间的句法关系。实验结果表明,该方法更准确地揭示了句子之间的语义关系,句法结构的提取和算法的改进解决了复杂句式的相似度计算问题,提高了相似度计算的准确率。  相似文献   

13.
针对金融领域中智能客服的句子相似度计算方法进行了研究。利用基于词性的分词纠正模型减少中文歧义词、金融相关词汇的分词错误;通过词向量方法和循环神经网络分别提取词语级和句子级的语义特征,并且得到句子向量;用融合层计算出句子向量间的差异特征;对差异特征进行降维和归一化得到句子相似度计算结果。实验结果表明,该方法具有较高的准确率和[F1]值。  相似文献   

14.
句子相似度的计算在自然语言处理的各个领域中都占有很重要的地位。文中深入分析了现有的一些句子相似度计算的方法,这些方法各自从词特征、词义特征或句法特征等某一侧面描述了句子相似的情况,未能全面地描述一个句子的完整信息。文中提出了一种新的基于多特征的汉语句子相似度的计算模型。该方法在基于词的基础上,从句子中词的表层到词的逻辑联系,从句子的局部结构到整体结构,用句子的区分度、相同词的相似度、长度相似度、词性相似度及词序相似度五个方面来综合考虑两个句子相似度的计算。实验结果表明,该方法合理、简便、可行。  相似文献   

15.
借鉴多属性群决策和粗糙集理论,提出了基于优势关系的多属性群决策方法。该方法采用优势关系进行粗粒度划分,其适用于解决一些注重时效的实际问题。在多属性群决策问题中,利用优势粒结构的相似度确定各评价指标(属性)的权重;通过专家评价相似度定义各专家在群体中的共识程度,确定各评判专家在群体决策中的权重分量;集结群决策计算结果得到被评价者的综合能力排序,并通过实例验证了上述算法的有效性。  相似文献   

16.
本文设计的法律咨询系统,结合法律行业的现状,以中文问答系统为原型,结合了开源数据检索项目Lucene.net,扩展了数据的存储类型. 本文借助中科院研发的中文分词系统,集成到Lucene.Net平台上,弥补了其分词不足. 并使用互信息技术,使同义的法律相关词语优先进行检索. 在中文问答系统的答案提取时,经常出现答案的“漏取”和“错取”的情况,本文提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法,利用空间向量模型作为表示方法,借助潜在语义分析理论,通过奇异值分解的降维方法构建了一个低维的语义空间,并在语义空间上实现了问题与答案句子相似度计算. 经试验证明,本系统具有较精准的查询正确率以及较少的运行计算时间.  相似文献   

17.
传统相似度计算方法仅考虑文本结构特征或语义信息,从而导致准确率较低。结合短文本特征稀疏的特性,提出一种多重检验加权融合的短文本相似度计算方法MCWFS。使用基于改进编辑距离、考虑词频、基于Word2vec与LSTM的3种方法分别计算相似度,对满足多重检验标准的文本进行加权因子线性融合,以避免因一种相似度值过大或过小导致加权相似度值异常的问题。在此基础上,通过加权融合计算短文本相似度,使得计算结果更加准确合理。实验结果表明,相比层层检验和无检验融合方法,MCWFS方法的平均准确率分别提高16.01%和7.39%,且其F1值可达70.21%。  相似文献   

18.
孙劲光  马志芳  孟祥福 《计算机工程》2013,(12):211-215,222
受语言固有的模糊性、随机性以及传统文本特征词权重值计算方法不适用于情感词等因素的影响,文本情感分类的正确率很难达到传统文本主题分类的水平。为此,提出一种基于情感词属性和云模型的情感分类方法。结合情感词属性和简单句法结构以确定情感词的权重值,并利用云模型对情感词进行定性定量表示的转换。实验结果表明,该方法对情感词权重值计算是有效的,召回率最高达到78.8%,且与基于词典的方法相比,其文本情感分类结果更精确,正确率最高达到68.4%,增加了约9%的精度。  相似文献   

19.
句子相似度的计算在自然语言处理的各个领域占有很重要的地位,一些传统的计算方法只考虑句子的词形、句长、词序等表面信息,并没有考虑句子更深层次的语义信息,另一些考虑句子语义的方法在实用性上的表现不太理想。在空间向量模型的基础上提出了一种同时考虑句子结构和语义信息的关系向量模型,这种模型考虑了组成句子的关键词之间的搭配关系和关键词的同义信息,这些信息反应了句子的局部结构成分以及各局部之间的关联关系,因此更能体现句子的结构和语义信息。以关系向量模型为核心,提出了基于关系向量模型的句子相似度计算方法。同时将该算法应用到网络热点新闻自动摘要生成算法中,排除文摘中意思相近的句子从而避免文摘的冗余。实验结果表明,在考虑网络新闻中的句子相似度时,与考虑词序与语义的算法相比,关系向量模型算法不但提高了句子相似度计算的准确率,计算的时间复杂度也得到了降低。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号