共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
词义消歧一直是自然语言处理领域中的关键性问题。为了提高词义消歧的准确率,从目标歧义词汇出发,挖掘左右词单元的语义知识。以贝叶斯模型为基础,结合左右词单元的语义信息,提出了一种新的词义消歧方法。以SemEval-2007:Task#5作为训练语料和测试语料,对词义消歧分类器进行优化,并对优化后的分类器进行测试。实验结果表明:词义消歧的准确率有所提高。 相似文献
3.
罗俊丽 《数字社区&智能家居》2013,(7):1548-1550
针对传统的词义消歧方法不能对短小的用户查询词进行词义消歧,提出了一种基于语义关系图的词义消歧方法,利用改进的PageRank算法计算语义关系图中的各词义节点权重,选择权重较大的词义作为消歧后的查询词词义。实验结果验证了该方法的有效性。 相似文献
4.
5.
针对现有基于语义的词义消歧方法存在两点不足:一,利用部分具有歧义的上下文语境词进行消歧存在不合理性;二,未考虑上下文语境词距离远近对语义相关度计算的影响,提出一种改进的方法,采用分步策略和距离加权两种方法分别进行改进。实验结果表明,改进方法在消歧效果上有明显的改善。 相似文献
6.
7.
针对目前有监督词义消歧方法存在的数据稀疏问题,提出一种基于上下文翻译的词义消歧方法。该方法假设由歧义词上下文的译文所组成的语境与原上下文语境所表述的意义相似。根据此假设,首先,将译文所组成的上下文生成大量的伪训练语料;然后,利用真实训练语料和伪训练语料训练一个贝叶斯消歧模型;最后,利用该消歧模型决策歧义词的词义。实验结果表明, 与传统的消歧方法相比,所提出的方法消歧准确率提高了4.35%,并且超过了参加SemEval-2007测评的最好的有监督消歧系统。 相似文献
8.
词义消歧在自然语言处理中一直是一个难点问题,同时,也是很多领域都需要解决的一个重要环节。文章首先介绍了目前一些常用词义消歧方法的特点和这些方法的研究进展,并在此基础上探讨了一种基于BP神经网络和统计方法相结合的有导词义消歧模型,最后详细讲解了BP神经网络原理,并对使用这种混合人工智能的消歧模型的可能性和优越性进行了讨论。 相似文献
9.
1 词义消歧及其应用词义是词汇在一定的语言环境下反映的特定语言现象。它能够明确地表达该词汇在该语境下表达的语义属性如感知、行为和情绪等;表达该词汇与相关词汇之间的关系;并且表达该词汇所特有的知识及常识性的知识。透过词义,人们将能运用自己的思维描述该语言现象,对其进行推理,或者为指代词从上下文中找到指代物。在自然语言中,一个词汇往往存在多个词义,称为词的多义性。例如:Bank有“银行”、“河岸”的意思。但是当词汇处于一定的语言环境,则只有唯一的意思。例如;“He slipped down the bank”中,bank的意思是“河岸”。词义消歧就是使计算机自动为词汇选择正确意思,是自然语言处理领域中词汇级别上的最大难题。词义消歧不是自然语言处理的最终目的,而是自然语言处理中不可缺少的一个环节。其应用至少包括下述领域: 相似文献
10.
为解决词义消歧问题,引入了语义相关度计算。研究并设计了词语相关度计算模型,即在充分考虑语义资源《知网》中概念间结构特点、概念信息量和概念释义的基础上,利用概念词与实例词间的搭配所表征的词语间强关联来进行词语相关度的计算。实验结果表明,该模型得到的语义相关度结果对于解决WSD问题提供了良好的支撑依据。 相似文献
11.
提出了一种以概念相关性为主要依据的名词消歧算法。与现有算法不同的是,该算法在WordNet上对两个语义之间的语义距离进行了拓展,定义了一组语义之间的语义密度,从而量化了一组语义之间的相关性。将相关性转化为语义密度后,再进行消歧。还提出了一种在WordNet上的类似LSH的语义哈希,从而大大降低了语义密度的计算复杂度以及整个消歧算法的计算复杂度。在SemCor上对该算法进行了测试和评估。 相似文献
12.
词义消歧要解决如何让计算机理解多义词在上下文中的具体含义,对信息检索、机器翻译、文本分类和自动文摘等自然语言处理问题有着十分重要的作用。通过引入句法信息,提出了一种新的词义消歧方法。构造歧义词汇上下文的句法树,提取句法信息、词性信息和词形信息作为消歧特征。利用贝叶斯模型来建立词义消歧分类器,并将其应用到测试数据集上。实验结果表明:消歧的准确率有所提升,达到了65%。 相似文献
13.
14.
最近混淆网络在融合多个机器翻译结果中展示很好的性能. 然而为了克服在不同的翻译系统中不同的词序, 假设对齐在混淆网络的构建上仍然是一个重要的问题. 但以往的对齐方法都没有考虑到语义信息. 本文为了更好地改进系统融合的性能, 提出了用词义消歧(Word sense disambiguation, WSD)来指导混淆网络中的对齐. 同时骨架翻译的选择也是通过计算句子间的相似度来获得的, 句子的相似性计算使用了二分图的最大匹配算法. 为了使得基于WordNet词义消歧方法融入到系统中, 本文将翻译错误率(Translation error rate, TER)算法进行了改进, 实验结果显示本方法的性能好于经典的TER算法的性能. 相似文献
15.
词义消歧是自然语言处理中的一个关键问题,为提高大规模词义消歧的准确率,提出了一种基于模板的无导词义消歧方法。利用多义词不同义项的同义或近义单义词对该义项进行表述,综合考虑共现词出现的位置、上下文距离及出现频次,据此构造语境模板,有效地解决了多义词义项确定的困难。实验结果表明,本文提出的方法在消歧性能方面有较明显的改善。 相似文献
16.
多分类器集成的汉语词义消歧研究 总被引:10,自引:0,他引:10
词义消歧长期以来一直是自然语言处理中的热点和难题,集成方法被认为是机器学习研究的四大趋势之一.系统研究了9种集成学习方法在汉语词义消歧中的应用.9种集成方法分别是乘法规则、均值、最大值、最小值、多数投票、序列投票、加权投票、概率加权和单分类器融合,其中乘法规则、均值、最大值3种集成方法还未曾应用于词义消歧.选取支持向量机模型、朴素贝叶斯和决策树作为3个单分类器.在两个不同的数据集上进行了实验,其一是选自现代汉语语义标注语料库的18个多义词,其二是国际语义评测SemEval-2007的中英文对译选择词消歧任务.实验结果显示,首次在词义消歧中引入应用的3种集成方法乘法、均值、最大值有良好的性能表现,3种方法的消歧准确率均高于最佳单分类器SVM,而且优于其他6种集成方法. 相似文献
17.
离合词词义消歧要解决如何让计算机理解离合词中的歧义词在具体上下文中的含义。针对离合词中歧义词在机器翻译中造成的对照翻译不准确以及在信息检索中无法匹配有效信息等问题,将词义消歧的方法应用于离合词中的歧义词,采用SVM模型建立分类器。为了提高离合词词义消歧的正确率,在提取特征时,结合离合词的特点,不仅提取了歧义词上下文中的局部词、局部词性、局部词及词性3类特征,还提取了“离”形式的歧义词的中间插入部分的特征;将文本特征转换为特征向量时,对布尔权重法进行了改进,依次固定某种类型特征权重,分别改变另外两种类型特征权重的消歧正确率来验证3类特征的消歧效果。实验结果表明,局部词特征、局部词及词性特征对消歧效果的影响高于局部词性特征,且采用不同类型的特征权重与采用相同的权重相比,消歧正确率提高了1.03%~5.69%。 相似文献
18.
基于MDL聚类的无导词义消歧 总被引:2,自引:0,他引:2
无导词义消歧避免了人工词义标注的巨大工作量,可以适应大规模的多义词消歧工作,具有广阔的应用前景.提出了一种无导词义消歧的方法,该方法以hownet词库为词典,采用二阶上下文构造上下文向量,使用MDL算法进行聚类,最后通过计算相似度来进行词义的排歧.实验是在抽取术语的基础上进行的,在8个汉语高频多义词的测试中取得了平均准确率81.12%的较好的效果. 相似文献
19.
基于向量空间模型的有导词义消歧 总被引:21,自引:1,他引:21
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣。由于自然语言知识表示的困难,在手工规则的词义消歧难以达到理想效果的情况下,各种有导机器学习方法被应用于词义消歧任务中,借鉴前人的成果引入信息检索领域中空间模型文档词语权重计算技术来解决多义词义项的知识表示问题,并提出了上下文位置权重的计算方法,给出了一种基于向量空间模型的词义消岐有导机器学习方法。该方法将多义词的义项和上下文分别映射到向量空间中,通过计算多义词上下文向量与义项向量的距离,采用k-NN(k=1)方法来确定上下文向量的义项分类。在9个汉语高频多义词的开放和封闭测试中均取得了突出的成绩(封闭测试平均正确率为96.31%,开放测试平均正确率为92.98%),验证了该方法的有效性。 相似文献