首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
句子相似度的计算是自然语言处理领域非常重要的基本问题,具有非常广泛的应用.在很多领域,句子相似度计算都是一个非常关键的问题,句子相似度计算存在着多种方法.对句子相似度的计算方法进行分类,介绍不同的句子相似度的计算方法并对其原理方法进行分析,给出它们的优缺点,分析指出中文句子相似度计算的研究难点及关键.  相似文献   

2.
大规模句子相似度计算方法   总被引:4,自引:1,他引:4  
如何根据源语言文本从大规模语料库中找出其最相近的翻译实例,即句子相似度计算,是基于实例翻译方法的关键问题之一.本文提出一种多层次句子相似度计算方法首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例,然后针对这些候选实例进行泛化匹配,从而计算出相似句子.在多策略机器翻译系统IHSMTS中的实验表明,当语料规模为20万英汉句对时,系统提取相似句子的召回率达96%,准确率达90%,充分说明了本文算法的有效性.  相似文献   

3.
句子相似度计算是自然语言处理领域的关键问题,计算句子相似度的方法也有很多。本文针对基于多特征句子相似度计算模型对计算句子相似度结果偏低这一问题进行研究,在词语语义的基础上增加相似词计算,同时增加句子成分关系相似度计算方法,该改进方法既避免了增加额外同义词词典的操作,又充分考虑句子的词形、句长、词序、语义、成分关系等多特征信息,提高了句子相似度的计算结果。实验结果表明,该方法对句子相似度计算有一定的提高,且该方法合理、简便、可行。  相似文献   

4.
针对游戏客服场景中玩家领域化、口语化的提问方式,应用深度学习工具word2vec建立带有语义的词的向量表示,设计了一种利用词向量距离,结合同义词替换、权重、句子长度、词序等因素的句子相似度计算模型。在该模型基础上,通过预分类、重定义分类规则,对KNN分类算法的大类占优、全局匹配计算代价高等问题进行改进,实现了一种基于文本分类的面向游戏客服场景的自动问答系统。实验结果表明,该系统具有较高的问题分类准确率和分类效率。  相似文献   

5.
基于框架语义分析的汉语句子相似度计算   总被引:4,自引:0,他引:4  
句子相似度计算在自然语言处理的许多领域中发挥着重要作用.已有的汉语句子相似度计算方法由于考虑句子的语义不全面,使得相似度计算结果不够准确,为此提出一种新的汉语句子相似度计算方法.该方法基于汉语框架网语义资源,通过多框架语义分析、框架的重要度度量、框架的相似匹配、框架间相似度计算等关键步骤来实现句子语义的相似度量.其中多框架语义分析是从框架角度对句子中的所有目标词进行识别、框架选择及框架元素标注,从而达到全面刻画句子语义的目的;在此基础上根据句子中框架的语义覆盖范围对不同框架的重要度进行区分,能够使得相似度结果更准确.在包含多目标词的句子集上的实验结果显示,基于多框架语义分析的句子相似度计算方法相对传统方法获得了更好的测试结果.  相似文献   

6.
针对目前指纹识别系统主要采用手指上细节点的分布来表征和匹配指纹,提出了一种采用指纹脊线特征的匹配算法,以提高细节点数量较少情况下的匹配精度.在特征提取阶段,通过脊线采样,只存储脊线采样点集以降低存储量;在匹配时,对欲匹配的两指纹利用细节特征配准脊线集,在重合区域内对两指纹脊线统一进行编码,通过编码的比较确定相似脊线;以相似脊线的相同位置编码为论域,以相同位置编码的相似程度为隶属度,建立衡量脊线相似程度的模糊集,采用加权平均法对多个相似脊线模糊集进行综合评判得到两指纹脊线总体相似度.最后将脊线匹配相似度与细节点匹配相似度进行加权融合得到两指纹最终的相似度.在FVC2004指纹库上的实验表明该算法能够有效提高指纹匹配的准确性.  相似文献   

7.
为挖掘数据的非独立同分布关系并解决传统KNN算法中存在的分类结果不准确的问题,提出一种非独立同分布下数值型数据的KNN改进算法.利用Pearson相关系数公式得出耦合相似度矩阵,通过该耦合相似度矩阵计算样本的类隶属度,通过Relief F算法思想进行特征权重的计算,根据训练样本的类隶属度和特征权重更新类别决策规则,确定待分类样本的类别.对多个UCI数据集的验证结果表明,该算法能够有效提高分类准确率.  相似文献   

8.
文本语义相似度学习在自然语言处理领域扮演着重要角色。传统的基于统计学习的方法只能对句子的浅层语义进行建模,在深层语义上效果表现不佳。针对统计学习方法无法有效解决深层语义的问题,提出一种基于卷积神经网络(Convolutional Neural Networks,CNN)和双向长短期记忆(Bidirectional Long Short Term Memory,BiLSTM)相结合的短文本相似度计算方法,利用CNN与BiLSTM相结合的孪生神经网络结构提取句子不同粒度的特征,对句子进行深层语义编码。此外,结合attention机制将提取到的单词级别的特征组合拼接成句子的语义向量表示,最后通过匹配层来判断文本的语义相似度。实验结果表明,基于Quora Questions Pairs数据集,所提出的短文本相似度计算方法准确率为84. 58%,F1值为85. 02%,优于其他方法。  相似文献   

9.
为了改进传统以向量空间模型(VSM)为代表的基于词频统计的方法在中文段落相似度计算时存在的精度不高问题,在基于加权二部图匹配的思想上提出了一种计算中文段落之间相似度的方法。该方法将相似度计算分为段落和句子两个层次,将句子作为简单段落看待,也使用二部图匹配进行相似度计算。首先利用句子主干词汇提取算法来提取句子的主干词汇,将主干词汇作为二部图的顶点,把主干词汇之间的相似度作为二部图顶点之间的权值系数,进行句子相似度的计算。其次,将句子作为加权二部图的顶点,把句子之间的相似度作为二部图顶点之间的权值系数,进行段落之间的相似度计算。实验结果表明,该方法与VSM相比,由于它能准确识别同义词,自动匹配两个在段落中不同位置的相似词语,因而在准确度上有了很大的提高。  相似文献   

10.
针对当前主要的汉语句子相似度计算方法存在的问题,通过对大量的中文语句进行构式语义分析,提取构式语块特征,构建构式义特征库,并提出了一种基于构式语块的中文句子相似度计算方法.该方法最大化语块粒度,缩小语义理解间隙.在计算时,首先,通过自上而下语块分析方法,利用HMM学习算法,对复杂多样的汉语句子进行构式语块识别;然后,采用自底向上的计算方式,获取得到构式块间的相似度;最后,计算得出句子间的相似度量值.对比句子相似度实验结果表明,论文提出的计算方法优于其他算法.  相似文献   

11.
本文针对传统搜索技术查全率和查准率不能满足用户日益增长的需求这一突出问题,提出一种基于概念图语义匹配的方法来计算两个本体中类之间的相似性,文中提到的本体是由实体类、这些类之间的语义关系和描述这些类的不同特征组成的.该模型首先将用户的查询信息转变为一个概念图,然后和已有的资源概念图进行匹配计算语义的相似性,实例表明该方法可以满足用户的需求,提高了检索效率.  相似文献   

12.
基于极值点特征的时间序列相似性查询方法*   总被引:4,自引:2,他引:2  
为了提高时间序列子序列匹配的准确度和效率,提出了基于极值点特征的时间序列相似性查询方法。首先识别出时间序列中的极值特征点,根据极值点使用多层次极值划分法对长序列进行划分;然后对划分得到的多层次子序列集使用改进的动态时间弯曲方法与查询序列进行相似性匹配;最后找到与查询序列最相似的子序列。实验表明,此方法在保证准确度的情况下大大提高了相似性搜索过程的效率。  相似文献   

13.
答案选择任务的精度对问答系统、文本处理等应用的效果具有重要的影响.针对答案选择模型问句与候选答案句语义信息和句子浅层特征利用不充分的问题,提出一种基于问答句交互的答案选择模型.给定问句Q和候选答句A,模型首先使用BiLSTM编码器对它们进行编码,然后针对问句Q使用Feed-Forward注意力机制得到句子编码;针对答句...  相似文献   

14.
目的 服装检索方法是计算机视觉与自然语言处理领域的研究热点,其包含基于内容与基于文本的两种查询模态。然而传统检索方法通常存在检索效率低的问题,且很少研究关注服装在风格上的相似性。为解决这些问题,本文提出深度多模态融合的服装风格检索方法。方法 提出分层深度哈希检索模型,基于预训练的残差网络ResNet(residual network)进行迁移学习,并把分类层改造成哈希编码层,利用哈希特征进行粗检索,再用图像深层特征进行细检索。设计文本分类语义检索模型,基于LSTM(long short-term memory)设计文本分类网络以提前分类缩小检索范围,再以基于doc2vec提取的文本嵌入语义特征进行检索。同时提出相似风格上下文检索模型,其参考单词相似性来衡量服装风格相似性。最后采用概率驱动的方法量化风格相似性,并以最大化该相似性的结果融合方法作为本文检索方法的最终反馈。结果 在Polyvore数据集上,与原始ResNet模型相比,分层深度哈希检索模型的top5平均检索精度提高11.6%,检索速度提高2.57 s/次。与传统文本分类嵌入模型相比,本文分类语义检索模型的top5查准率提高29.96%,检索速度提高16.53 s/次。结论 提出的深度多模态融合的服装风格检索方法获得检索精度与检索速度的提升,同时进行了相似风格服装的检索使结果更具有多样性。  相似文献   

15.
裴松  武彤 《微型机与应用》2013,32(17):56-59
为从企业生产线上XML半结构化数据中抽取富有意义数据,分析了XML半结构化数据和关系数据库中结构化数据特点,以及XML半结构化数据在关系数据库中的存储方法。针对实际应用,提出采用扩展哈弗曼前缀编码方法,对XML文档树进行唯一编码,实现XML文档与关系数据库映射,同时给出最长前缀匹配策略,支持数据查询,以提高查询效率。  相似文献   

16.
事件时序关系抽取是一项重要的自然语言理解任务,可以广泛应用于诸如知识图谱构建、问答系统等任务.已有事件时序关系抽取方法往往将该任务视为句子级事件对的分类问题,而基于有限的局部句子信息导致其抽取的事件时序关系的精度较低,且无法保证整体时序关系的全局一致性.针对此问题,提出一种融合上下文信息的篇章级事件时序关系抽取方法,使用基于双向长短期记忆(bidirectional long short-term memory, Bi-LSTM)的神经网络模型学习文章中事件对的时序关系表示,再利用自注意力机制融入上下文中其他事件对信息,从而得到更丰富的事件对时序关系表示用于时序关系分类.通过TB-Dense(timebank dense)和MATRES(multi-axis temporal relations for start-points)数据集的实验表明:此方法能够取得比当前主流的句子级方法更佳的抽取效果.  相似文献   

17.
The performance of Nearest Neighbor (NN) classifier is known to be sensitive to the distance (or similarity) function used in classifying a test instance. Another major disadvantage of NN is that it uses all training instances in the generalization phase. This can cause slow execution speed and high storage requirement when dealing with large datasets. In the past research, many solutions have been proposed to handle one or both of the above problems. In the scheme proposed in this paper, we tackle both of these problems by assigning a weight to each training instance. The weight of a training instance is used in the generalization phase to calculate the distance (or similarity) of a query pattern to that instance. The basic NN classifier can be viewed as a special case of this scheme that treats all instances equally (by assigning equal weight to all training instances). Using this form of weighted similarity measure, we propose a learning algorithm that attempts to maximize the leave-one-out (LV1) classification rate of the NN rule by adjusting the weights of the training instances. At the same time, the algorithm reduces the size of the training set and can be viewed as a powerful instance reduction technique. An instance having zero weight is not used in the generalization phase and can be virtually removed from the training set. We show that our scheme has comparable or better performance than some recent methods proposed in the literature for the task of learning the distance function and/or prototype reduction.  相似文献   

18.
针对现有的句向量学习方法不能很好的学习关系知识信息、表示复杂的语义关系,提出了基于PV-DM模型和关系信息模型的关系信息句向量模型(RISV),该模型是将PV-DM模型作为句向量训练基本模型,然后为其添加关系信息知识约束条件,使改进后模型能够学习到文本中词语之间的关系,并将关系约束模型(RCM)模型作为预训练模型,使其进一步整合语义关系约束信息,最后在文档分类和短文本语义相似度两个任务中验证了RISV模型的有效性。实验结果表明,采用RISV模型学习的句向量能够更好地表示文本。  相似文献   

19.
目前基于神经网络的方面级情感分类模型很少会考虑上下文单词与方面词之间的句法依存关系,可能会错误地将与方面词语法无关的上下文单词作为方面词的情感特征;另一方面大多数方法也忽略了上下文与方面词之间的交互信息。针对这两个问题,提出了基于双向图卷积网络(BiGCN)和交互注意力机制(IAM)的方面级情感分类模型(BiGCN-IAM),该模型在句法依存树上使用双向图卷积网络提取上下文单词和方面词之间的句法依存关系,然后使用掩码层得到特定的方面词表示;最后使用交互注意力机制学习上下文与方面词之间的交互信息,同时提取了上下文中的重要情感特征和方面词中对分类有贡献的特征。通过在五个公开数据集上的实验证明,该模型效果优于基线模型。  相似文献   

20.
用户意图识别是基于用户对话用语识别用户的真实对话意图,是人机对话研究中的一项关键任务。针对现有用户意图识别方法的不足,提出融合敏感词规则和字符级RCNN模型的用户意图识别方法。构建敏感句子与敏感词词典,并通过规则及相似度匹配策略对特征明显的对话进行意图识别。针对类别特征不明显的对话提出深层语义分类模型,该模型以单字符串作为输入序列,利用RCNN模型构建意图分类框架,既可以避免分词结果不准确带来的错误传导问题,同时利用字符的分布向量表示方法还可以获取句子的深层语义信息。实验结果表明,该方法在两个数据集上都取得了较好的结果,明显优于传统的意图识别方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号