首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
词语作为语言模型中的基本语义单元,在整个语义空间中与其上下文词语具有很强的关联性。同样,在语言模型中,通过上下文词可判断出当前词的含义。词表示学习是通过一类浅层的神经网络模型将词语和上下文词之间的关联关系映射到低维度的向量空间中。然而,现有的词表示学习方法往往仅考虑了词语与上下文词之间的结构关联,词语本身所蕴含的内在语义信息却被忽略。因此,该文提出了DEWE词表示学习算法,该算法可在词表示学习的过程中不仅考量词语与上下文之间的结构关联,同时也将词语本身的语义信息融入词表示学习模型,使得训练得到的词表示既有结构共性也有语义共性。实验结果表明,DEWE算法是一种切实可行的词表示学习方法,相较于该文使用的对比算法,DEWE在6类相似度评测数据集上具有优异的词表示学习性能。  相似文献   

2.
在知识图谱的知识表示学习中,绝大多数方法都是将知识图谱中实体和关系映射到低维的连续向量空间中,但数据的稀疏和信息的不足仍会导致实体和关系语义表示的不完整性.针对这个问题,提出基于图上下文的知识表示学习模型(Context_RL).将知识图谱中实体和关系的上下文信息作为可靠数据来源和输入.通过计算实体和关系的语义相似度,将图上下文信息融入向量表示中,在语义的层面上提高了知识图谱表示学习的能力.通过实体预测和三元组分类实验,在有关数据集上,Context_RL的实验结果比其他模型更好.  相似文献   

3.
词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本。在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率。  相似文献   

4.
为了更好地提高短文本语义相似度分析能力,提出了基于神经网络和组合语义的短文本语义相似度分析算法。利用神经网络构建词义表示模型,结合局部和全局上下文信息学习词语在实际语境下的表示;通过句法分析,得到文本的依存关系,并依此构建组合关系树,使用组合语义模型得到整个文本的语义表示;通过计算两个语义表示结果之间的相似性来计算文本的语义相似度。实验分析结果表明,该方法能够在一定程度上提高文本语义分析能力。  相似文献   

5.
汉语词语语义相似度计算,在中文信息处理的多种应用中扮演至关重要的角色。基于汉语字本位的思想,我们采用词类、构词结构、语素义等汉语语义构词知识,以“语素概念”为基础,计算汉语词语语义相似度。这种词义知识表示简单、直观、易于拓展,计算模型简洁、易懂,采用了尽可能少的特征和参数。实验表明,该文方法在典型“取样词对”上的表现突出,其数值更符合人类的感性认知,且在全局数据上也表现出了合理的分布规律。  相似文献   

6.
该文提出了一种字形相似度计算方法,旨在解决汉字中相似字形(称作形似字)的识别和查找问题。首先,提出了汉字拆分方法,并构建了偏旁部首知识图谱;然后,基于图谱和汉字的结构特点,提出2CTransE模型,学习汉字实体语义信息的表示;最后,将输出的实体向量用于汉字字形的相似度计算,得到目标汉字的形似字候选集。实验结果表明,该文所提出的方法对于不同结构汉字的字形相似度计算有一定效果,所形成的汉字部件组成库,为之后字形计算的相关研究提供了行之有效的数据集。同时,也拓宽了日语等类汉语语言文字字体相似度计算的研究思路。  相似文献   

7.
义原(sememe)被定义为人类语言中不可再分的最小语义单位。一个词语的意义可以由多个义原的组合来表示。以往人们已经人工为词语标注义原并构建了知网(HowNet)这一语言知识库,并借此将义原应用到了多种自然语言处理任务。但传统的人工标注费时费力,而且不同的专家进行标注难免会引入标注者的主观偏差,导致标注的一致性和准确性难以保证。因此,保证词的义原标注一致性已成为建设高质量语言知识库HowNet、提升义原应用任务效果的首要任务。该文首次提出了一种对HowNet已标注的义原进行一致性检验的方法。实验结果表明,所提方法切实有效,能够很好地应用于HowNet知识库的标注一致性检验以及完善扩充。  相似文献   

8.
跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获取。该文提出一种融合门控卷积神经网络和自注意力机制的神经网络结构,用于获取跨语言文本句子中的局部和全局语义相关关系,从而得到文本的综合语义表示。在SemEval-2017多个数据集上的实验结果表明,该文提出的模型能够从多个方面捕捉句子间的语义相似性,结果优于基准方法中基于纯神经网络的模型方法。  相似文献   

9.
该文介绍HowNet在文本挖掘中的应用,利用HowNet从中文语义的角度计算中文词语相似度,计算词语之间的相关性,为实现更深层次的信息处理做准备。  相似文献   

10.
分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足: (1) 罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息; (2) 中心词语的反义词出现于上下文时,会使意义完全相反的词却赋予更近的空间向量表示; (3) 互为同义词的词语均未出现于对方的上下文中,致使该类同义词学习得到的表示在向量空间中距离较远。基于以上三点,该文提出了一种基于多源信息融合的分布式词表示学习算法(MSWE),主要做了4个方面的改进: (1) 通过显式地构建词语的上下文特征矩阵,保留了罕见词及其上下文词语在语言训练模型中的共现信息可以较准确地反映出词语结构所投影出的结构语义关联; (2) 通过词语的描述或解释文本,构建词语的属性语义特征矩阵,可有效地弥补因为上下文结构特征稀疏而导致的训练不充分; (3) 通过使用同义词与反义词信息,构建了词语的同义词与反义词特征矩阵,使得同义词在词向量空间中具有较近的空间距离,而反义词则在词向量空间中具有较远的空间距离; (4) 通过诱导矩阵补全算法融合多源特征矩阵,训练得到词语低维度的表示向量。实验结果表明,该文提出的MSWE算法能够有效地从多源词语特征矩阵中学习到有效的特征因子,在6个词语相似度评测数据集上表现出了优异的性能。  相似文献   

11.
王璐  张仰森  吴林 《计算机工程》2012,38(20):109-112
为更全面准确地从字词搭配中获取语义搭配信息,提出一种新的语义搭配知识提取模型和知识库的表示方法.利用特殊度度量词语搭配的相关程度,在此基础上,基于知网的语义信息,实现从42万条记录的词语搭配中定量地抽取语义搭配信息.实验结果表明,该方法的语义搭配准确率为92.1%,且较大地扩充了字词搭配的规模.  相似文献   

12.
针对当前《知网》的词语语义描述与人们对词汇的主观认知之间存在诸多不匹配的问题,在充分利用丰富的网络知识的背景下,提出了一种融合《知网》和搜索引擎的词汇语义相似度计算方法。首先,考虑了词语与词语义原之间的包含关系,利用改进的概念相似度计算方法得到初步的词语语义相似度结果;然后,利用基于搜索引擎的相关性双重检测算法和点互信息法得出进一步的语义相似度结果;最后,设计了拟合函数并利用批量梯度下降法学习权值参数,融合前两步的相似度计算结果。实验结果表明,与单纯的基于《知网》和基于搜索引擎的改进方法相比,融合方法的斯皮尔曼系数和皮尔逊系数均提升了5%,同时提升了具体词语义描述与人们对词汇的主观认知之间的匹配度,验证了将网络知识背景融入到概念相似度计算方法中能有效提高中文词汇语义相似度的计算性能。  相似文献   

13.
汉语词语间语义相似是词语间的基本关系之一,文章提出了一种基于知网和知识图的词语语义相似度计算的方法,通过改进传统的知识图表示方式,根据知网中概念项的抽取结果对词语的义项进行表示,用词图的相似度来表示相应词语的语义相似度。实验结果表明该算法对词语间语义相似度计算是有效的。  相似文献   

14.
该文旨在以HowNet为例,探讨在表示学习模型中引入人工知识库的必要性和有效性。目前词向量多是通过构造神经网络模型,在大规模语料库上无监督训练得到,但这种框架面临两个问题: 一是低频词的词向量质量难以保证;二是多义词的义项向量无法获得。该文提出了融合HowNet和大规模语料库的义原向量学习神经网络模型,并以义原向量为桥梁,自动得到义项向量及完善词向量。初步的实验结果表明该模型能有效提升在词相似度和词义消歧任务上的性能,有助于低频词和多义词的处理。作者指出,借重于人工知识库的神经网络语言模型应该成为今后一段时期自然语言处理的研究重点之一。  相似文献   

15.
基于知识图的汉语词汇语义相似度计算   总被引:2,自引:1,他引:1  
提出了一种基于知识图的汉语词汇相似度计算方法,该方法以《知网》2005版为语义知识资源,以知识图为知识表示方法,在构造词图的基础上,以知网中的语义关系为依据对词汇概念中的义原进行分类,通过计算不同类型义原的相似度得到概念的相似度;为了对词汇相似度计算方法进行客观评价,设计了词汇相似度计算方法的量化评价模型;采用该模型对所提出的计算方法进行评价,试验结果证明此方法的有效度为89.1%。  相似文献   

16.
事件检测作为事件抽取的一个子任务,是当前信息抽取的研究热点之一。它在构建知识图谱、问答系统的意图识别和阅读理解等应用中有着重要的作用。与英文字母不同,中文中的字在很多场合作为单字词具有特定的语义信息,且中文词语内部也存在特定的结构形式。根据中文的这一特点,文中提出了一种基于字词联合表示的图卷积模型JRCW-GCN(Joint Representation of Characters and Words by Graph Convolution Neural Network),用于中文事件检测。JRCW-GCN首先通过最新的BERT预训练语言模型以及Transformer模型分别编码字和词的语义信息,然后利用词和字之间的关系构建对应的边,最后使用图卷积模型同时融合字词级别的语义信息进行事件句中触发词的检测。在ACE2005中文语料库上的实验结果表明,JRCW-GCN的性能明显优于目前性能最好的基准模型。  相似文献   

17.
词语语义相似度计算在很多自然语言处理相关领域都有着广泛应用.基于知网的现有词语语义相似度计算方法未深入考虑同棵义原层次树的义原距离、义原深度、义原密度及主次关系的影响,致使相似度计算结果并不够精确.针对该问题,提出一种词语语义相似度改进算法,通过分析知网中的义项表达式和义原层次树,用集合的加权平均值代替了义项相似度最大...  相似文献   

18.
提出一种基于知网的汉语普通未登录词语义分析模型,该模型以概念图为知识表示方法,以2005版知网为语义知识资源,首先参照知网知识词典对普通未登录词进行分词;然后综合利用知网中的知识词典等知识,通过词性序列匹配消歧法、概念图相容性判定消歧法、概念图相容度计算消歧法及语义相似度计算消歧法对中文信息结构进行消歧;最后根据所选择的中文信息结构生成未登录词的概念图,从而实现未登录词的语义分析。该模型在语义分析过程中一方面确定了未登录词中每个已登录词的词义,另一方面构造了该未登录词的语义信息,实验结果证明它可以作为普通未登录词语义分析的原型系统。  相似文献   

19.
为解决词义消歧问题,引入了语义相关度计算。研究并设计了词语相关度计算模型,即在充分考虑语义资源《知网》中概念间结构特点、概念信息量和概念释义的基础上,利用概念词与实例词间的搭配所表征的词语间强关联来进行词语相关度的计算。实验结果表明,该模型得到的语义相关度结果对于解决WSD问题提供了良好的支撑依据。  相似文献   

20.
基于知识图的汉语基本名词短语分析模型   总被引:2,自引:0,他引:2  
本文提出了一种基于知识图的汉语baseNP分析模型。它以知识图为知识表示方法,利用《知网》为语义知识资源,采用以语义为主、语法为辅的策略,先为短语中的每一个实词构造“词图”,然后合并“词图”而组成“短语图”,最后得到一个关于汉语baseNP结构信息和语义信息的知识图。因此它不仅分析了汉语baseNP结构的内部句法关系,而且分析了汉语baseNP结构成分间的语义关系并以知识图的形式表示出了这种语义关系。实验结果表明这个模型对于汉语baseNP的分析是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号