首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 93 毫秒
1.
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接影响到自然语言处理中诸多问题的解决.现在大部分的词义消歧方法都是在分词的基础上做的.借鉴前人的向量空间模型运用统计的方法,提出了不用直接分词而在术语抽取的基础上做消歧工作.在义项矩阵的计算中,采用改进了的tf.idf.ig方法.在8个汉语高频多义次的测试中取得了平均准确率为84.52%的较好的效果,验证了该方法的有效性.  相似文献   

2.
基于向量空间模型的有导词义消歧   总被引:21,自引:1,他引:21  
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣。由于自然语言知识表示的困难,在手工规则的词义消歧难以达到理想效果的情况下,各种有导机器学习方法被应用于词义消歧任务中,借鉴前人的成果引入信息检索领域中空间模型文档词语权重计算技术来解决多义词义项的知识表示问题,并提出了上下文位置权重的计算方法,给出了一种基于向量空间模型的词义消岐有导机器学习方法。该方法将多义词的义项和上下文分别映射到向量空间中,通过计算多义词上下文向量与义项向量的距离,采用k-NN(k=1)方法来确定上下文向量的义项分类。在9个汉语高频多义词的开放和封闭测试中均取得了突出的成绩(封闭测试平均正确率为96.31%,开放测试平均正确率为92.98%),验证了该方法的有效性。  相似文献   

3.
基于MDL聚类的无导词义消歧   总被引:2,自引:0,他引:2  
无导词义消歧避免了人工词义标注的巨大工作量,可以适应大规模的多义词消歧工作,具有广阔的应用前景.提出了一种无导词义消歧的方法,该方法以hownet词库为词典,采用二阶上下文构造上下文向量,使用MDL算法进行聚类,最后通过计算相似度来进行词义的排歧.实验是在抽取术语的基础上进行的,在8个汉语高频多义词的测试中取得了平均准确率81.12%的较好的效果.  相似文献   

4.
无监督词义消歧研究   总被引:3,自引:0,他引:3  
王瑞琴  孔繁胜 《软件学报》2009,20(8):2138-2152
研究的目的是对现有的无监督词义消歧技术进行总结,以期为进一步的研究指明方向.首先,介绍了无监督词义消歧研究的意义.然后,重点总结分析了国内外各类无监督词义消歧研究中的各项关键技术,包括使用的数据源、采用的消歧方法、评价体系以及达到的消歧效果等方面.最后,对14个较有特色的无监督词义消歧方法进行了总结,并指出无监督词义消歧的现有研究成果和可能的发展方向.  相似文献   

5.
词义消歧在自然语言处理的许多应用领域都起着十分重要的作用。为了适用于大规模的词义消歧,提出了一种无导的学习方法。基于向量空间模型,结合机读词典和义类词典建立从义项到义类的映射关系,再利用义类知识在语料库中无导学习消歧特征,最后利用这些特征实现词义消歧。  相似文献   

6.
词义消歧是自然语言处理中的一个关键问题,为提高大规模词义消歧的准确率,提出了一种基于模板的无导词义消歧方法。利用多义词不同义项的同义或近义单义词对该义项进行表述,综合考虑共现词出现的位置、上下文距离及出现频次,据此构造语境模板,有效地解决了多义词义项确定的困难。实验结果表明,本文提出的方法在消歧性能方面有较明显的改善。  相似文献   

7.
词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本。在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率。  相似文献   

8.
《软件》2019,(2):11-15
在计算机语言学中,词义消歧是自然语言处理的一个重要问题,词义消歧即指根据上下文确定对象语义的过程,在词义、句义、篇章中都会出现这种词语在上下文的语义环境中有不同的含义的现象。本文提出一种基于神经网络的模型实现词义消歧,将词向量输入神经网络,通过分类的方式实现消歧的目的。实验表明,基于神经网络的词义消歧比传统的统计方法消歧具有更高的准确度。  相似文献   

9.
词义消歧在自然语言处理中一直是一个难点问题,同时,也是很多领域都需要解决的一个重要环节。本文介绍了一种基于统计语言模型和统计方法相结合的有导词义消歧模型,详细讲解了统计语言模型原理;通过实验发现,在有限的标注语言条件下,语言模型确实可以提高词义消歧的性能。由此得出,统计语言模型在词义消歧的中具有良好的应用前景。  相似文献   

10.
基于对数模型的词义自动消歧   总被引:9,自引:0,他引:9  
朱靖波  李珩  张跃  姚天顺 《软件学报》2001,12(9):1405-1412
提出了一种对数模型(logarithmmodel,简称LM),构造了一个词义自动消歧系统LM-WSD(wordsensedisambiguationbasedonlogarithmmodel).在词义自动消歧实验中,构造了4种计算模型进行词义消歧,根据4个计算模型的消歧结果,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响.目前,该词义自动消歧系统LM-WSD已经应用于基于词层的英汉机器翻译系统(汽车配件专业领域)中,有效地提高了翻译性能.  相似文献   

11.
目前的语境向量模型在对语义空间建模的时候,没有考虑到同一个词的不同词性具有不同的含义,将它们看作同一个点进行建模,导致得到的语境向量质量不高,使用这种语境向量计算语境相似度效果不好。针对该类问题,提出了一种加入词性特征的语境向量模型,加入词性后,可以将原本用语义空间中一个点表示的几个语义区分出来,得到质量更好的语境向量和语境相似度,进而得到更好的消歧效果。实验结果表明,这种建模方式可以有效区分不同词性的语义,在2004年的Senseval-3测试集上进行测试,准确率达到了75.3%,并在SemEval-13和SemEval-15公开测试集上进行了测试,消歧效果相比未引入词性特征的模型均得到了提升。  相似文献   

12.
词义消歧一直是自然语言处理中的热点和难题。集成方法被认为是机器学习研究的四大趋势之一,在系统研究已有集成学习方法在汉语词义消歧中的应用后,借鉴模式识别领域集成分类器思想,提出了一种动态自适应加权投票的多分类器集成方法来构建融合分类器。实验结果表明,所提融合分类器模型对汉语文本自动消歧结果的准确率提高较大。  相似文献   

13.
针对传统的基于义原同现频率的汉语词义排歧方法存在“盲目性”的不足,本文根据《知网》中对概念定义的描述,分别计算多义词的每个义项与特征词的第一独立义原、其他独立义原、关系义原、符号义原之间的相关系数;最后通过比较多义词的每个义项与特征词之间的相关系数来决定多义词的义项。经过实验验证,该方法进一步提高了词义排歧的效果。  相似文献   

14.
戴洪涛  侯开虎  周洲  肖灵云 《软件》2020,(2):134-140
自然语言处理(NLP)旨在如何让计算机更好的理解人类的语言,但是在自然语言中句段、词汇本身存在多义和歧义,计算机无法将其转换为能识别的二进制编码,这是当下NLP领域内存在的最大问题。本文将Viterbi算法的词性标注模型、CBOW语言模型及K-Means聚类算法组合,构建一种基于词向量的多义词组合消歧模型(VCK-Vector)。通过词性分布对比、语义相关度任务和聚类效果分析等方法评测模型,最后通过百度AI词向量与模型输出结果进行对比。结果显示基于VCK-vector模型在实际场景运用中是可行的。  相似文献   

15.
词义消歧要解决的问题是如何让计算机理解多义词在特定的上下文环境中具体代表的语义。多义词多为常用词,在语料中出现的频率很高。确立一种合适的建模方法,并选择一种行之有效的机器学习方法,是解决词义消歧问题的首要任务。贝叶斯模型在词义消歧中的构建和实现上相对要简便易用,机器学习过程也简洁高效,特别是贝叶斯模型作为词义消歧工具,无论是实现的效率,还是消歧的效果都比较理想。  相似文献   

16.
基于改进的Bayes判别法的中文多义词消歧   总被引:1,自引:0,他引:1  
介绍了词义消歧研究的进展。对基于Bayes判别法的词义消歧算法做了改进,加大与多义词存在句法依存关系的特征词在Bayes判别公式中的权值比重,较好改善词义消歧的效果,并设计对比实验,验证了改进算法的优越性,分析了语料规模、数据噪声、数据稀疏问题对词义消歧的影响的规律。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号