首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
相似度匹配是自然语言处理领域一个重要分支,也是问答系统抽取答案的重要途径之一.本文提出了一种基于正负样本和Bi-LSTM的文本相似度匹配模型,该模型首先为了提升问题和正确答案之间的相似度,构建正负样本问答对用于模型训练;其次为了解决分词错误引起的实验误差,采用双层嵌入词向量方法进行预训练;再次为了解决注意力机制导致的特...  相似文献   

2.
利用LDA模型进行文本相似度的计算考虑到了语义特征,但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点。针对以上问题,提出WMF_LDA(词语合并与过滤潜在狄利克雷分布)主题模型。将领域词和近义词进行统一化映射,并根据词性将文本进行过滤,最后再进行主题建模。实验证明,该方法使得建模时词语量大大减少,减少了建模过程的时间消耗,提高了最后的文本聚类的速度。并且与其他文本相似度方法相比,提出的方法在准确度上也有一定程度的提升。  相似文献   

3.
鲁强  刘兴昱 《计算机应用》2018,38(7):1846-1852
针对单一事实类问答系统中问句和关系的语义匹配在小规模标注样本中难以获得较高准确率的问题,提出一种基于循环神经网络(RNN)的迁移学习模型。首先,使用基于RNN的序列到序列无监督学习算法,通过序列重构的方式在大量无标注样本中学习问句的语义空间分布,即词向量和RNN;然后,通过给神经网络参数赋值的方式,使用此语义空间分布作为有监督语义匹配算法的参数;最后,通过使用问句特征和关系特征计算内积的方式,在有标注样本中训练并生成语义匹配模型。实验结果表明,在有标注数据量较少而无标注数据量较大的环境下,与有监督学习方法Embed-AVG和RNNrandom相比,所提模型的语义匹配准确率分别平均提高5.6和8.8个百分点。所提模型通过预学习大量无标注样本的语义空间分布可以明显提高在小规模标注样本环境下的语义匹配准确率。  相似文献   

4.
近年来,基于常见问题集的问答系统被广泛的应用到各个领域,而问句相似度计算是基于常见问题集的问答系统的核心模块,因此问句相似度计算方法变得越加重要。该文对问句相似度计算方法进行了综述,分别介绍了各个方法,同时对比了各个方法,最后指出了今后本领域的研究方向。  相似文献   

5.
近年来,基于常见问题集的问答系统被广泛的应用到各个领域,而问句相似度计算是基于常见问题集的问答系统的核心模块,因此问句相似度计算方法变得越加重要。该文对问句相似度计算方法进行了综述,分别介绍了各个方法,同时对比了各个方法,最后指出了今后本领域的研究方向。  相似文献   

6.
基于子树匹配的文本相似度算法   总被引:1,自引:0,他引:1  
为降低文本向量维度,提高文本间语义相似度度量性能,综合利用统计方法与语义词典的优势,提出一种文本相似度算法.基于文本生成元数据特征向量,减少向量空间维度,设计基于子树匹配的文本相似度算法,借助子树加速对文本相似度的计算,并通过将文本元数据特征向量与子树进行相似度语义匹配,提高文本相似度计算时语义相似度度量的准确性.该算法考虑到对元数据中同义词的语义理解,加强文本之间相似度度量时的语义覆盖能力.实验结果表明文中所提出的方法是可行和有效的.  相似文献   

7.
基于上下文的概念语义相似度计算模型   总被引:2,自引:0,他引:2       下载免费PDF全文
吕林涛  董迎 《计算机工程》2010,36(21):59-61
针对概念语义相似度计算方法在信息检索中存在的漏检、误检等问题,提出一种基于上下文的计算本体内概念间语义相似度的模型。该模型分别从概念的父节点、子节点以及概念间路径权重3个角度进行计算,加权求和并求得语义相似度。实验结果表明,该模型的计算结果更加接近专家的经验值,为概念之间的语义关系提供了有效的量化。  相似文献   

8.
基于语境框架的文本相似度计算   总被引:12,自引:0,他引:12  
介绍了一种新的文本形式化的语义模型———语境框架。语境框架是一个三维的语义描述,它把文本内容抽象成领域(静态范畴)、情景(动态描述)、背景(褒贬、参照等)三个侧面。在语境框架的基础上,设计实现了文本相似度计算算法。算法从概念层面入手,充分考虑了文本的领域和对象的语义角色对相似度的影响,重点针对文本中的歧义、多义、概念组合现象,以及语言中的褒贬倾向,实现了文本间语义相似程度的量化。算法已经应用到文本过滤系统中,用以比较用户过滤要求和待过滤文本之间的相似度。实际应用中取得了比较满意的效果。  相似文献   

9.
10.
基于问句类型的问句相似度计算   总被引:1,自引:0,他引:1  
目前,问句相似度的计算主要借鉴普通陈述句的相似度计算方法。由于普通陈述句的相似性更多反映的是语句间语义上的匹配符合程度,而衡量问句间的相似性则须同时考虑问句及其答案句之间的相似程度,为此,设计了一种新的问句相似度计算方法。该方法不仅利用问句之间的语义和语法特征考察问句之间的匹配程度,还利用问句的问题类型等信息来间接刻画答案句之间的特征形象,从而以获取问句的深层语义信息,以提高问句相似度计算的准确性。实验验证了该方法的有效性。  相似文献   

11.
移动设备的发展使得轨迹数据可以记录更多有用的信息,比如签到信息、活动信息,构成了语义轨迹数据.快速有效的轨迹相似度计算会为分析问题带来巨大好处,已有学者对轨迹相似性及语义轨迹相似性做出研究,并提出了一些有效的方法.但是现有轨迹相似性计算方法无法应用于语义轨迹数据,而目前的语义轨迹相似性计算方法又在轨迹采样频率低的情况下...  相似文献   

12.
基于词汇语义计算的文本相似度研究   总被引:7,自引:0,他引:7  
基于《知网》的词汇语义计算方法揭示了词汇间的语义信息。根据文本的向量空间模型描述形式,采用了基于《知网》的词汇语义计算方法来计算两篇文章向量的相关性,并用最大匹配算法来获得这两篇文章的相似度,通过该计算过程达到揭示文本所蕴涵概念的目的,并用实验对该方法的有效性进行了验证,提出了今后的改进方向。  相似文献   

13.
文本之间在相似度比较时主要考虑关键词的匹配特性,缺乏对关键词间组合关系的深入分析。针对关键词间组合特性,按序组合的关键词数目越大,对文本之间相似度贡献越大,并提出基于关键词组合数目的非线性语义关联性函数,在LCS基础上提取文本中所有关键词组合块。将这种结合关键词组合关系的相似度比较方法运用于短文本的相似度比较中,数据采用微软语义释义语料库,实验结果表明,短文本相似度计算的准确率和F1值都有了提高,其中F1值的提高较为明显。  相似文献   

14.
基于关联规则的本体相似度综合计算方法   总被引:1,自引:0,他引:1  
李华  苏乐 《计算机应用》2012,32(9):2472-2475
目前较为流行的最小风险的本体映射(RiMOM)框架通过采用“多策略”的思想虽然取得了一定的效果,但其框架比较臃肿庞杂,且采用的计算结构相似度的选择策略存在一定的局限性。针对上述问题,提出一种基于关联规则的本体相似度综合计算方法。首先,构造关联规则的结构“树”模型,得出相应事务集;其次,进行关联规则的挖掘,根据关联规则计算概念结构的相似性;然后,计算概念的实例、属性、名称的相似度;最后,对多个特征相似度进行综合加权处理,实现本体相似度的最优计算。实验结果表明,该方法较RiMOM在查全率、查准率方面均有较大提高;同时该方法省去了策略选择的步骤,有效降低了时间复杂度。  相似文献   

15.
智能问答系统是在搜索引擎的基础上融合了自然语言知识和应用的人工智能产品,相比较传统的依靠关键字匹配的搜索引擎,能够更好地满足用户的查询需求。针对现有的英语智能问答系统中知识呈现的单一化以及系统查询效率低等现状,采用基于距离的相似度算法,设计并实现了基于相似度算法的英语智能问答系统。实验结果表明该系统能够较为准确地回答小学生的英语问题,对远程教育中小学英语智能问答系统的构建起到参考和借鉴的作用。  相似文献   

16.
基于加权的本体相似度计算方法   总被引:1,自引:0,他引:1  
为优化基于本体的语义推理效果,提出了对本体中概念结点赋予权重的相似度计算方法.通过定义本体树中深度因子和密度因子,以解决本体中概念深度与密度对相似度计算的影响.利用Jena API、Lucene等开源工具包,提出了查询扩展方法.实验结果表明,提出的基于加权语义相似度计算模型与传统的计算法方法以及主观判断的方法相比,提高了相似度计算的准确性,效率有明显提高.  相似文献   

17.
双语句子相似度旨在计算不同语言句子间的语义相似程度,在信息检索、平行语料库构建、机器翻译等领域有重要作用。由于汉语、老挝语平行语料稀少,且老挝语在语义表达、句子结构上与汉语有明显差异,导致汉老双语句子相似度研究的难度较大。该文提出了一种融合文本特征的汉老双语句子相似度计算方法,并构建了句子相似度模型。首先,在句子相似度模型中将汉语、老挝语的词性、数字共现等文本特征与GloVe预训练词向量融合,以此丰富句子特征,提升模型计算准确率。其次,由基于自注意力的双向长短时记忆网络组成多层孪生网络来提取长距离上下文特征和深层次语义信息,其中自注意力机制可以保证语义信息的有效利用。最后,采用迁移学习的方法将通用模型参数初始化,并使用不同的微调参策略增强模型的泛化能力。实验表明,该文提出的方法,其召回率、准确率和F1值分别达到了82.5%、85.78%和84.00%。  相似文献   

18.
文本语义相似度学习在自然语言处理领域扮演着重要角色。传统的基于统计学习的方法只能对句子的浅层语义进行建模,在深层语义上效果表现不佳。针对统计学习方法无法有效解决深层语义的问题,提出一种基于卷积神经网络(Convolutional Neural Networks,CNN)和双向长短期记忆(Bidirectional Long Short Term Memory,BiLSTM)相结合的短文本相似度计算方法,利用CNN与BiLSTM相结合的孪生神经网络结构提取句子不同粒度的特征,对句子进行深层语义编码。此外,结合attention机制将提取到的单词级别的特征组合拼接成句子的语义向量表示,最后通过匹配层来判断文本的语义相似度。实验结果表明,基于Quora Questions Pairs数据集,所提出的短文本相似度计算方法准确率为84. 58%,F1值为85. 02%,优于其他方法。  相似文献   

19.
基于推理和相似度计算的语义Web服务匹配策略   总被引:1,自引:0,他引:1  
将本体的概念引入Web服务提升了服务的语义表达能力和发现能力,传统的语义Web服务匹配主要有基于推理和基于本体相似度计算两种方式.基于推理的服务匹配较容易实现,具有稳定的查准率和较高的运行效率,但同一级结果间不能进一步区分结果的匹配度.基于相似度计算的服务发现可以精确地描述结果与查询条件的匹配程度,便于用户比较,但实现较为复杂,并且在最坏情况下有糟糕的响应时间.在基于推理的服务匹配策略的基础上,提出了一种带有语义相似度计算的服务匹配策略,并用一个书籍领域本体的匹配实例进行了说明.  相似文献   

20.
基于LDA主题模型的文本相似度计算   总被引:1,自引:0,他引:1  
王振振  何明  杜永萍 《计算机科学》2013,40(12):229-232
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号