首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
传统的基于知识库的词义消歧方法采用同一种类型知识(语义或共现关系)进行消歧,忽略了不同类型知识之间的互补作用.针对此问题,在传统的网络图词义消歧模型基础上,通过模型重构和对比实验,提出了一种基于异构关系网络图的词义消歧模型.该模型能够把多种类型的词义消歧知识有机融合到同一个网络图中,充分利用了多种知识协同消歧的优势.同时设计并实现了一种基于模拟退火的自动估计各种知识类型关系权重的方法,以最优化各种知识对消歧效果的影响.该方法是一种无监督的词义消歧方法,可以有效克服数据稀疏及知识获取瓶颈等问题.在SemEval-2007上的测试结果表明,该方法的消歧性能优于基线方法和目前参加该项评测的最好系统.  相似文献   

2.
杨陟卓 《计算机应用》2015,35(4):1006-1008
针对传统词义消歧方法面临的数据稀疏问题,提出一种基于上下文语境的词义消歧方法。该方法假设同一篇文章中的句子之间共享一些相同的话题,首先,抽取在同一篇文章中包含相同歧义词的句子,这些句子可以作为歧义句的上下文语境,为其中的一个歧义句子提供消歧知识;其次,通过一种无监督的词义消歧方法进行词义消歧。在真实的语料上实验结果表明,使用2个上下文语境句子,窗口大小为1时,该方法的消歧准确率比基线方法(OrigDisam)提高了3.26%。  相似文献   

3.
基于向量空间模型中义项词语的无导词义消歧   总被引:22,自引:0,他引:22  
鲁松  白硕  黄雄 《软件学报》2002,13(6):1082-1089
有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下,将待消歧多义词与义项词语映射到向量空间中,基于k-NN(k=1)方法,计算二者相似度来实现词义消歧任务.在对10个典型多义词进行词义消歧的测试实验中,采用该方法取得了平均正确率为83.13%的消歧结果.  相似文献   

4.
针对传统的词义消歧方法不能对短小的用户查询词进行词义消歧,提出了一种基于语义关系图的词义消歧方法,利用改进的PageRank算法计算语义关系图中的各词义节点权重,选择权重较大的词义作为消歧后的查询词词义。实验结果验证了该方法的有效性。  相似文献   

5.
词义消歧是自然语言领域中重要的研究课题之一。目前,有监督词义消歧方法已经是解决该问题的有效手段。但是,由于缺乏大规模的训练语料,有监督方法还不能取得满意的效果。该文提出一种基于语言模型的词义消歧优化模型,该模型采用语言模型优化传统的有监督消歧模型,充分利用有监督和语言模型两种模型的消歧优势,共同推导歧义词的词义。该模型可以在训练语料不足的情况下,有效的提高词义消歧效果。在真实数据上表明,该方法的消歧性能超过了参加SemEval-2007:task #5评测任务的最好的有监督词义消歧系统。  相似文献   

6.
全词消歧(All-Words Word Sense Disambiguation)可以看作一个序列标注问题,该文提出了两种基于序列标注的全词消歧方法,它们分别基于隐马尔可夫模型(Hidden Markov Model, HMM)和最大熵马尔可夫模型(Maximum Entropy Markov Model, MEMM)。首先,我们用HMM对全词消歧进行建模。然后,针对HMM只能利用词形观察值的缺点,我们将上述HMM模型推广为MEMM模型,将大量上下文特征集成到模型中。对于全词消歧这类超大状态问题,在HMM和MEMM模型中均存在数据稀疏和时间复杂度过高的问题,我们通过柱状搜索Viterbi算法和平滑策略来解决。最后,我们在Senseval-2和Senseval-3的数据集上进行了评测,该文提出的MEMM方法的F1值为0.654,超过了该评测上所有的基于序列标注的方法。  相似文献   

7.
为解决词义消歧问题,引入了语义相关度计算。研究并设计了词语相关度计算模型,即在充分考虑语义资源《知网》中概念间结构特点、概念信息量和概念释义的基础上,利用概念词与实例词间的搭配所表征的词语间强关联来进行词语相关度的计算。实验结果表明,该模型得到的语义相关度结果对于解决WSD问题提供了良好的支撑依据。  相似文献   

8.
简要介绍了PageRank算法的核心思想,阐述了知网知识库在词义消歧中的作用,并提出将两者结合起来进行词义消歧的办法.对比了传统统计的消歧方法和该方法的优缺点,重点解释了如何将该算法运行到语义网络中去.介绍了使用知网义原概念和联系进行构图的方法,并对算法实现思想做了详细说明,最后通过一个实例简要概括了基于该算法和知网词义消歧的方法,并给出了少量测试数据,提出了研究中存在的困难和下一步的研究重点.  相似文献   

9.
戴洪涛  侯开虎  周洲  肖灵云 《软件》2020,(2):134-140
自然语言处理(NLP)旨在如何让计算机更好的理解人类的语言,但是在自然语言中句段、词汇本身存在多义和歧义,计算机无法将其转换为能识别的二进制编码,这是当下NLP领域内存在的最大问题。本文将Viterbi算法的词性标注模型、CBOW语言模型及K-Means聚类算法组合,构建一种基于词向量的多义词组合消歧模型(VCK-Vector)。通过词性分布对比、语义相关度任务和聚类效果分析等方法评测模型,最后通过百度AI词向量与模型输出结果进行对比。结果显示基于VCK-vector模型在实际场景运用中是可行的。  相似文献   

10.
基于对数模型的词义自动消歧   总被引:9,自引:0,他引:9  
朱靖波  李珩  张跃  姚天顺 《软件学报》2001,12(9):1405-1412
提出了一种对数模型(logarithmmodel,简称LM),构造了一个词义自动消歧系统LM-WSD(wordsensedisambiguationbasedonlogarithmmodel).在词义自动消歧实验中,构造了4种计算模型进行词义消歧,根据4个计算模型的消歧结果,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响.目前,该词义自动消歧系统LM-WSD已经应用于基于词层的英汉机器翻译系统(汽车配件专业领域)中,有效地提高了翻译性能.  相似文献   

11.
词汇情感消歧是文本情感倾向性分析的关键技术之一。该文在分析比较了词汇情感消歧和词义消歧异同后,从情感分析角度出发,提出了基于图排序的词汇情感消歧方法。该方法通过自动获取和人工校正相结合的方式获得多情感词汇,然后根据语义关系构建词义关系图,进而在词义关系图上迭代计算直至收敛,最后选择多情感词汇的词义中权值最大的词义作为结果输出,从而实现情感消歧。该文分别在新浪微博语料库和情感语料库上验证了该方法的有效性。  相似文献   

12.
基于领域知识的图模型词义消歧方法   总被引:1,自引:0,他引:1  
鹿文鹏  黄河燕  吴昊 《自动化学报》2014,40(12):2836-2850
对领域知识挖掘利用的充分与否,直接影响到面向特定领域的词义消歧(Word sense disambiguation, WSD)的性能.本文提出一种基于领域知识的图模型词义消歧方法,该方法充分挖掘领域知识,为目标领域收集文本领域关联词作为文本领域知识,为目标歧义词的各个词义获取词义领域标注作为词义领域知识;利用文本领域关联词和句子上下文词构建消歧图,并根据词义领域知识对消歧图进行调整;使用改进的图评分方法对消歧图的各个词义结点的重要度进行评分,选择正确的词义.该方法能有效地将领域知识整合到图模型中,在Koeling数据集上,取得了同类研究的最佳消歧效果.本文亦对多种图模型评分方法做了改进,进行了详细的对比实验研究.  相似文献   

13.
词义消歧是自然语言处理中的一个关键问题,为提高大规模词义消歧的准确率,提出了一种基于模板的无导词义消歧方法。利用多义词不同义项的同义或近义单义词对该义项进行表述,综合考虑共现词出现的位置、上下文距离及出现频次,据此构造语境模板,有效地解决了多义词义项确定的困难。实验结果表明,本文提出的方法在消歧性能方面有较明显的改善。  相似文献   

14.
针对传统的基于义原同现频率的汉语词义排歧方法存在“盲目性”的不足,笔者根据《知网》中对概念定义的描述,分别计算多义词的每个义项与特征词的第一独立义原、其他独立义原、关系义原、符号义原之间的相关系数;最后通过比较多义词的每个义项与特征词之间的相关系数来决定多义词的义项.经过实验验证,该方法进一步提高了词义排歧的效果.  相似文献   

15.
闫蓉  张蕾 《微机发展》2006,16(3):22-25
针对自然语言处理领域词义消歧这一难点,提出一种新的汉语词义消歧方法。该方法以《知网》为语义资源,充分利用词语之间的优先组合关系。根据优先组合库得到句中各个实词与歧义词之间的优先组合关系;将各实词按照优先组合关系大小进行排列;计算各实词概念与歧义词概念之间的相似度,以判断歧义词词义。实验结果表明该方法对于高频多义词消歧是有效的,可作为进一步结构消歧的基础。  相似文献   

16.
针对现存的基于EM (Expectation maximization)迭代的无指导词义消歧方法收敛缓慢、计算量大的问题, 利用互信息和Z-测试结合的方法选取特征, 并通过一种 统计学习算法估算初始参数值. 实验结果表明改进方法有效地提高了汉语词义消歧的准确率, 具有良好的扩展性和实用性.  相似文献   

17.
Word Sense Disambiguation Using the Classification Information Model   总被引:1,自引:0,他引:1  
A Classification Information Model is a pattern classification model.The model decides the proper class of an input instance by integrating individual decisions, each of which is made with each feature in the pattern.Each individual decision is weighted according to the distributional property of the feature deriving the decision. An individual decision and its weight are represented as classification information which is extracted from the training instances.In the word sense disambiguation based on the model, the proper sense of an input instance is determined by the weighted sum of whole individual decisions derived from the features contained in the instance.  相似文献   

18.
李虹  李磊 《计算机科学》2004,31(7):171-174
本文提出了一种基于扩展概念图的词义识别算法。该算法通过搜索概念图,寻找待识别词的两两词义之间的祖先分叉点和分叉路径.从而找到词义之间的相对差异路径,即决定路径。结合上下文词语的出现频率,该算法可以计算出上下文词语对各决定路径的支持度。而词义之间的相对决定路径的支持度的差别.正好反映了词叉对待识别词的相对适合程度。本文提出的算法就是通过计算和比较这种差别,最终选出最适合待识别词的词义。为了对所提出的算法进行评估和比较,我们借助WordNet1.6和SemCor进行测试。测试结果表明,该算法具有较高的词义识别效率和准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号