首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
苗海  张仰森 《计算机科学》2013,40(12):282-286
针对多年来词义消歧方法的不完善,从可计算性及其计算复杂度方面分析了多种不同结构的知识词典,最后选择北大计算语言所的《现代汉语语法信息词典》、《现代汉语语义词典》和同形标注的人民日报语料作为词义消歧知识源。研究了异构多知识源的融合方法,提取了敏捷规则知识库和词义搭配库,设计出了一种规则与统计相结合的词义消歧方法。在多种方法中最大熵与规则相结合的词义消歧方法准确率最高,与SemEval 2007(task #5)的最好成绩相比,分别在微平均值 MicroAve(micro-average accuracy)和宏平均值MacroAve(macro-average accuracy)上提升了5.5%和0.9%。  相似文献   

2.
词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本。在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率。  相似文献   

3.
为了提高词义消歧的质量, 对歧义词汇的上下文进行结构分析, 提出了一种利用句法知识来指导消歧过程的方法。在歧义词汇上下文的句法树中, 提取句法信息和词性信息作为消歧特征; 同时, 使用朴素贝叶斯模型作为消歧分类器。利用词义标注语料对分类器的参数进行优化, 然后对测试数据中的歧义词汇进行消歧。实验结果表明, 消歧的准确率有所提升, 达到了66. 7%。  相似文献   

4.
该文针对最大熵原理只能利用上下文中的显性统计特征构建语言模型的特点,提出了采用隐最大熵原理构建汉语词义消歧模型的方法。在研究了《知网》中词语与义原之间的关系之后,把从训练语料获取的文本上下文中的词语搭配信息转换为义原搭配信息,实现了基于义原搭配信息的文本隐性语义特征提取方法。在结合传统的上下文特征后,应用隐最大熵原理进行文本中多义词的词义消歧。实验结果表明,采用文中所提方法对十个多义动词进行词义消歧,正确率提高了约4%。  相似文献   

5.
基于向量空间模型中义项词语的无导词义消歧   总被引:22,自引:0,他引:22  
鲁松  白硕  黄雄 《软件学报》2002,13(6):1082-1089
有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下,将待消歧多义词与义项词语映射到向量空间中,基于k-NN(k=1)方法,计算二者相似度来实现词义消歧任务.在对10个典型多义词进行词义消歧的测试实验中,采用该方法取得了平均正确率为83.13%的消歧结果.  相似文献   

6.
词义消歧,作为自然语言处理领域最具挑战性的任务之一,目前正面临着知识获取瓶颈(Knowledge Acquisition Bottleneck)的阻碍.目录标签消歧,作为词义消歧的又一崭新的应用领域,是轻量级本体学习(Lightweight Ontology Learning)中十分重要的一个环节.旨在探索一种基于Web知识(不受知识获取瓶颈制约)并应用于目录标签消歧的词义消歧方法.其主要思想为:首先,利用Web知识(Web搜索引擎)和WordNet等外部资源,将待消歧词t的上下文c及n个候选词义s1…sn扩展为各自的向量形式,并提出的一种tf-idf变体(条件tf-idf)来计算向量中的分量值.之后,又提出一种新颖的混合消歧模型,综合考虑各候选词义与待消歧词上下文的相关度及候选词义先验分布这两个因素进行消歧.据了解,类似做法在基于Web的词义消歧中还未出现过.在实验中,在网页目录DMOZ的一个子集(共1100个待消歧词)上进行了实验.系统以100%的召回率达到83.40%的准确率,高于基线准确率(单纯根据词义先验分布消歧)73.37%达10个百分点.  相似文献   

7.
为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。  相似文献   

8.
基于MDL聚类的无导词义消歧   总被引:2,自引:0,他引:2  
无导词义消歧避免了人工词义标注的巨大工作量,可以适应大规模的多义词消歧工作,具有广阔的应用前景.提出了一种无导词义消歧的方法,该方法以hownet词库为词典,采用二阶上下文构造上下文向量,使用MDL算法进行聚类,最后通过计算相似度来进行词义的排歧.实验是在抽取术语的基础上进行的,在8个汉语高频多义词的测试中取得了平均准确率81.12%的较好的效果.  相似文献   

9.
词义消歧在自然语言处理的许多应用领域都起着十分重要的作用。为了适用于大规模的词义消歧,提出了一种无导的学习方法。基于向量空间模型,结合机读词典和义类词典建立从义项到义类的映射关系,再利用义类知识在语料库中无导学习消歧特征,最后利用这些特征实现词义消歧。  相似文献   

10.
词义消歧要解决如何让计算机理解多义词在上下文中的具体含义,对信息检索、机器翻译、文本分类和自动文摘等自然语言处理问题有着十分重要的作用。通过引入句法信息,提出了一种新的词义消歧方法。构造歧义词汇上下文的句法树,提取句法信息、词性信息和词形信息作为消歧特征。利用贝叶斯模型来建立词义消歧分类器,并将其应用到测试数据集上。实验结果表明:消歧的准确率有所提升,达到了65%。  相似文献   

11.
词义消歧是自然语言处理中的一项基础任务,古汉语信息处理也急需深层次的语义标注工作。该文针对先秦古汉语这一特殊的语言材料,在训练语料和语义资源匮乏的条件下,采用《汉语大词典2.0》作为知识来源,将其词条释义作为义类,每个义项的例句作为训练语料,使用基于支持向量机(SVM)的半指导方法对《左传》进行全文的词义标注。按照频度不同、义项数量不同的原则,我们随机选取了22个词进行了人工检查,平均正确率达到67%。该方法可以广泛用于缺乏训练语料的古汉语义项标注工作,能够在古汉语全文词义标注的起步阶段提供初始结果,为人工标注词语义项提供良好的数据底本,补正传统词典释义不全的问题,进一步丰富汉语史发展研究资料。  相似文献   

12.
Word sense disambiguation (WSD) is the problem of determining the right sense of a polysemous word in a certain context. This paper investigates the use of unlabeled data for WSD within a framework of semi-supervised learning, in which labeled data is iteratively extended from unlabeled data. Focusing on this approach, we first explicitly identify and analyze three problems inherently occurred piecemeal in the general bootstrapping algorithm; namely the imbalance of training data, the confidence of new labeled examples, and the final classifier generation; all of which will be considered integratedly within a common framework of bootstrapping. We then propose solutions for these problems with the help of classifier combination strategies. This results in several new variants of the general bootstrapping algorithm. Experiments conducted on the English lexical samples of Senseval-2 and Senseval-3 show that the proposed solutions are effective in comparison with previous studies, and significantly improve supervised WSD.  相似文献   

13.
词义消歧一直是自然语言处理中的热点和难题。集成方法被认为是机器学习研究的四大趋势之一,在系统研究已有集成学习方法在汉语词义消歧中的应用后,借鉴模式识别领域集成分类器思想,提出了一种动态自适应加权投票的多分类器集成方法来构建融合分类器。实验结果表明,所提融合分类器模型对汉语文本自动消歧结果的准确率提高较大。  相似文献   

14.
Identifying the correct sense of a word in context is crucial for many tasks in natural language processing (machine translation is an example). State-of-the art methods for Word Sense Disambiguation (WSD) build models using hand-crafted features that usually capturing shallow linguistic information. Complex background knowledge, such as semantic relationships, are typically either not used, or used in specialised manner, due to the limitations of the feature-based modelling techniques used. On the other hand, empirical results from the use of Inductive Logic Programming (ILP) systems have repeatedly shown that they can use diverse sources of background knowledge when constructing models. In this paper, we investigate whether this ability of ILP systems could be used to improve the predictive accuracy of models for WSD. Specifically, we examine the use of a general-purpose ILP system as a method to construct a set of features using semantic, syntactic and lexical information. This feature-set is then used by a common modelling technique in the field (a support vector machine) to construct a classifier for predicting the sense of a word. In our investigation we examine one-shot and incremental approaches to feature-set construction applied to monolingual and bilingual WSD tasks. The monolingual tasks use 32 verbs and 85 verbs and nouns (in English) from the SENSEVAL-3 and SemEval-2007 benchmarks; while the bilingual WSD task consists of 7 highly ambiguous verbs in translating from English to Portuguese. The results are encouraging: the ILP-assisted models show substantial improvements over those that simply use shallow features. In addition, incremental feature-set construction appears to identify smaller and better sets of features. Taken together, the results suggest that the use of ILP with diverse sources of background knowledge provide a way for making substantial progress in the field of WSD. A.S. is also an Adjust Professor at the Department of Computer Science and Engineering, University of New South Wales; and a Visiting Professor at the Computing Laboratory, University of Oxford.  相似文献   

15.
16.
词义标注语料库建设综述   总被引:3,自引:2,他引:1  
词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping策略在语料库建设方面的应用以及利用双语对齐语料库开展的相关研究。最后,针对词义标注语料库建设存在的问题提出自己的分析和思考。  相似文献   

17.
基于向量空间模型的有导词义消歧   总被引:21,自引:1,他引:21  
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣。由于自然语言知识表示的困难,在手工规则的词义消歧难以达到理想效果的情况下,各种有导机器学习方法被应用于词义消歧任务中,借鉴前人的成果引入信息检索领域中空间模型文档词语权重计算技术来解决多义词义项的知识表示问题,并提出了上下文位置权重的计算方法,给出了一种基于向量空间模型的词义消岐有导机器学习方法。该方法将多义词的义项和上下文分别映射到向量空间中,通过计算多义词上下文向量与义项向量的距离,采用k-NN(k=1)方法来确定上下文向量的义项分类。在9个汉语高频多义词的开放和封闭测试中均取得了突出的成绩(封闭测试平均正确率为96.31%,开放测试平均正确率为92.98%),验证了该方法的有效性。  相似文献   

18.
刘鹏远  赵铁军 《软件学报》2009,20(5):1292-1300
为了解决困扰词义及译文消歧的数据稀疏及知识获取问题,提出一种基于Web利用n-gram统计语言模型进行消歧的方法.在提出词汇语义与其n-gram语言模型存在对应关系假设的基础上,首先利用Hownet建立中文歧义词的英文译文与知网DEF的对应关系并得到该DEF下的词汇集合,然后通过搜索引擎在Web上搜索,并以此计算不同DEF中词汇n-gram出现的概率,然后进行消歧决策.在国际语义评测SemEval-2007中的Multilingual Chinese English Lexical Sample Task测试集上的测试表明,该方法的Pmar值为55.9%,比其上该任务参评最好的无指导系统性能高出12.8%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号