共查询到19条相似文献,搜索用时 171 毫秒
1.
从神经网络的基本原理和自动词义排歧的技术入手,阐明应用神经网络技术进行汉语词义排歧研究的基本方法和步骤,并给出了实验结果和分析。 相似文献
2.
一种自组织的汉语词义排歧方法 总被引:7,自引:1,他引:6
长期以来,词义排歧一直被认为是自然语言处理的难题之一。本文用机器可读词典《现代汉语辞海》提供的搭配实例作为多义词的初始搭配知识,采用适当的统计和自组织方法自动扩大搭配集;为保证学习质量,在学习过程中逐渐增大上下文窗口的长度;提出使用搭配统计表的多元最大对数似然比词义排歧算法。最后,对本文提出的方法进行了实验,实验表明这种算法具有较高的正确率。 相似文献
3.
词义排歧在自然语言处理领域占有重要地位。词义排歧的精确率依赖于排歧知识的完备性。但是目前使用的基于词典的和基于语料库的词义排歧方法来获取排歧知识的效果都不令人满意。文中借助《知网》,以义原同现频率矩阵作为排歧知识,在其基础上设计并实现了一个基于义原同现频率的汉语词义排歧系统,大大地提高词义排歧的精确率。 相似文献
4.
5.
针对传统的基于义原同现频率的汉语词义排歧方法存在“盲目性”的不足,笔者根据《知网》中对概念定义的描述,分别计算多义词的每个义项与特征词的第一独立义原、其他独立义原、关系义原、符号义原之间的相关系数;最后通过比较多义词的每个义项与特征词之间的相关系数来决定多义词的义项.经过实验验证,该方法进一步提高了词义排歧的效果. 相似文献
6.
7.
针对传统基于义原同现频率的汉语词义排歧算法的“盲目性”,提出一种“双距离”词义排歧算法,即在计算待排歧词各义项与特征词之间的相关系数时,考虑两个距离因素:特征词与待排歧词之间的空间距离;最近选择该义项的同形歧词与该待排歧词之间的空间距离。实验表明,改进的算法是有效的。 相似文献
8.
1 词义消歧及其应用词义是词汇在一定的语言环境下反映的特定语言现象。它能够明确地表达该词汇在该语境下表达的语义属性如感知、行为和情绪等;表达该词汇与相关词汇之间的关系;并且表达该词汇所特有的知识及常识性的知识。透过词义,人们将能运用自己的思维描述该语言现象,对其进行推理,或者为指代词从上下文中找到指代物。在自然语言中,一个词汇往往存在多个词义,称为词的多义性。例如:Bank有“银行”、“河岸”的意思。但是当词汇处于一定的语言环境,则只有唯一的意思。例如;“He slipped down the bank”中,bank的意思是“河岸”。词义消歧就是使计算机自动为词汇选择正确意思,是自然语言处理领域中词汇级别上的最大难题。词义消歧不是自然语言处理的最终目的,而是自然语言处理中不可缺少的一个环节。其应用至少包括下述领域: 相似文献
9.
词义排歧方法的研究在自然语言处理领域具有重要的理论和实践意义。研究了一种基于知网的语义剪枝算法,来解决自然语言处理过程中的词义排歧问题。其目的是通过语义剪枝系统尽可能地减少歧义词在上下文中错误的或最不可能的义项。语义剪枝以后,形成词和其可能义项的一个列表,尽量将一个词真正正确的义项保留下来。为了对语义剪枝算法进行评价,开发了一个手工标注交互环境,并使用了召回率和简化率2 个指标。对窗口的尺寸和分析单元的选取对召回率和简化率的影响进行了研究。 相似文献
10.
针对传统的基于义原同现频率的汉语词义排歧方法存在“盲目性”的不足,本文根据《知网》中对概念定义的描述,分别计算多义词的每个义项与特征词的第一独立义原、其他独立义原、关系义原、符号义原之间的相关系数;最后通过比较多义词的每个义项与特征词之间的相关系数来决定多义词的义项。经过实验验证,该方法进一步提高了词义排歧的效果。 相似文献
11.
词语的歧义问题给语言的自动理解造成了困难,词义消歧研究是解决该问题的方法。当前统计学习的方法在该问题的研究上得到了普遍的应用,然而限于训练语料的规模,统计词义消歧方法还不能获得十分满意的结果。如何在有限规模的训练语料的条件下,提高统计学习的效率,改善学习效果,是有监督词义消歧方法研究上的热点问题。在词语扩展思想的基础上,设计了一种以基于指示词扩展的词义消歧新方法,并通过实验证明该方法可以在不增大训练语料规模的前提下提高有监督词义消歧的精度。 相似文献
12.
为解决词义消歧问题,引入了语义相关度计算。研究并设计了词语相关度计算模型,即在充分考虑语义资源《知网》中概念间结构特点、概念信息量和概念释义的基础上,利用概念词与实例词间的搭配所表征的词语间强关联来进行词语相关度的计算。实验结果表明,该模型得到的语义相关度结果对于解决WSD问题提供了良好的支撑依据。 相似文献
13.
词义消歧要解决如何让计算机理解多义词在上下文中的具体含义,对信息检索、机器翻译、文本分类和自动文摘等自然语言处理问题有着十分重要的作用。通过引入句法信息,提出了一种新的词义消歧方法。构造歧义词汇上下文的句法树,提取句法信息、词性信息和词形信息作为消歧特征。利用贝叶斯模型来建立词义消歧分类器,并将其应用到测试数据集上。实验结果表明:消歧的准确率有所提升,达到了65%。 相似文献
14.
词义消歧一直是自然语言处理领域中的关键性问题。为了提高词义消歧的准确率,从目标歧义词汇出发,挖掘左右词单元的语义知识。以贝叶斯模型为基础,结合左右词单元的语义信息,提出了一种新的词义消歧方法。以SemEval-2007:Task#5作为训练语料和测试语料,对词义消歧分类器进行优化,并对优化后的分类器进行测试。实验结果表明:词义消歧的准确率有所提高。 相似文献
15.
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接影响到自然语言处理中诸多问题的解决.现在大部分的词义消歧方法都是在分词的基础上做的.借鉴前人的向量空间模型运用统计的方法,提出了不用直接分词而在术语抽取的基础上做消歧工作.在义项矩阵的计算中,采用改进了的tf.idf.ig方法.在8个汉语高频多义次的测试中取得了平均准确率为84.52%的较好的效果,验证了该方法的有效性. 相似文献
16.
汉英机器翻译中基于实例的歧义结构消解 总被引:1,自引:0,他引:1
歧义是自然语言特别是汉语的显著特点和普遍现象,也是当前汉英机器翻译系统的主要处理难点之一。通过对其中一些常见汉语歧义结构的分析,提出一种基于实例的歧义结构消解方法。由于歧义结构的对应实例具有较高的“结构”上的代表性,通过与这些实例的相似性比较可以较准确地把握待消歧语段的内部结构。 相似文献
17.
Semi-supervised learning integrated with classifier combination for word sense disambiguation 总被引:1,自引:0,他引:1
Anh-Cuong Le Akira Shimazu Van-Nam Huynh Le-Minh Nguyen 《Computer Speech and Language》2008,22(4):330-345
Word sense disambiguation (WSD) is the problem of determining the right sense of a polysemous word in a certain context. This paper investigates the use of unlabeled data for WSD within a framework of semi-supervised learning, in which labeled data is iteratively extended from unlabeled data. Focusing on this approach, we first explicitly identify and analyze three problems inherently occurred piecemeal in the general bootstrapping algorithm; namely the imbalance of training data, the confidence of new labeled examples, and the final classifier generation; all of which will be considered integratedly within a common framework of bootstrapping. We then propose solutions for these problems with the help of classifier combination strategies. This results in several new variants of the general bootstrapping algorithm. Experiments conducted on the English lexical samples of Senseval-2 and Senseval-3 show that the proposed solutions are effective in comparison with previous studies, and significantly improve supervised WSD. 相似文献
18.
词义排歧是自然语言处理中的一个难点问题,它在机器翻译、信息检索、句子分析和语音识别等自然语言处理的许多领域中起着举足轻重的作用。因此词义排歧方法的研究在自然语言处理领域具有重要的理论和实践意义。获得带语义标记的大规模训练语料是词义排歧在自然语言处理中的一个难点。为了解决这一问题,提出了一种基于知识的语义剪枝方法。其目的是通过语义剪枝系统尽可能地减少歧义词在上下文中错误的或最不可能的义项。语义剪枝以后,形成词和其可能义项的一个列表,尽量将一个词真正正确的义项保留下来。为了对语义剪枝算法进行评价,特意开发了一个人机交互的语义标注系统,并将获得的语料应用到了词义排歧系统。通过对系统标注的语料和人工标注的语料进行对比,达到对算法评价的目的,收到了良好的效果。 相似文献
19.
Lucia Specia Ashwin Srinivasan Sachindra Joshi Ganesh Ramakrishnan Maria das Graças Volpe Nunes 《Machine Learning》2009,76(1):109-136
Identifying the correct sense of a word in context is crucial for many tasks in natural language processing (machine translation
is an example). State-of-the art methods for Word Sense Disambiguation (WSD) build models using hand-crafted features that
usually capturing shallow linguistic information. Complex background knowledge, such as semantic relationships, are typically
either not used, or used in specialised manner, due to the limitations of the feature-based modelling techniques used. On
the other hand, empirical results from the use of Inductive Logic Programming (ILP) systems have repeatedly shown that they
can use diverse sources of background knowledge when constructing models. In this paper, we investigate whether this ability
of ILP systems could be used to improve the predictive accuracy of models for WSD. Specifically, we examine the use of a general-purpose
ILP system as a method to construct a set of features using semantic, syntactic and lexical information. This feature-set
is then used by a common modelling technique in the field (a support vector machine) to construct a classifier for predicting
the sense of a word. In our investigation we examine one-shot and incremental approaches to feature-set construction applied
to monolingual and bilingual WSD tasks. The monolingual tasks use 32 verbs and 85 verbs and nouns (in English) from the SENSEVAL-3
and SemEval-2007 benchmarks; while the bilingual WSD task consists of 7 highly ambiguous verbs in translating from English
to Portuguese. The results are encouraging: the ILP-assisted models show substantial improvements over those that simply use
shallow features. In addition, incremental feature-set construction appears to identify smaller and better sets of features.
Taken together, the results suggest that the use of ILP with diverse sources of background knowledge provide a way for making
substantial progress in the field of WSD.
A.S. is also an Adjust Professor at the Department of Computer Science and Engineering, University of New South Wales; and
a Visiting Professor at the Computing Laboratory, University of Oxford. 相似文献