共查询到17条相似文献,搜索用时 62 毫秒
1.
2.
针对传统的基于义原同现频率的汉语词义排歧方法存在“盲目性”的不足,本文根据《知网》中对概念定义的描述,分别计算多义词的每个义项与特征词的第一独立义原、其他独立义原、关系义原、符号义原之间的相关系数;最后通过比较多义词的每个义项与特征词之间的相关系数来决定多义词的义项。经过实验验证,该方法进一步提高了词义排歧的效果。 相似文献
3.
基于义原同现频率的汉语词义排歧方法 总被引:19,自引:0,他引:19
词义排岐是自然语言处理的重点和难点问题之一。基于语料库的统计方法已被广泛地应用于词义排岐,大多数的统计方法都受到数据稀疏的困扰,对于词义排岐而言,由于有大量同义词的存在,数据稀疏问题变得更为严重。充分利用“知网”这个知识源的特性,提出了一种基于义原同现频率的同义排岐方法,在很大程度上克服了数据稀疏问题。此外,该方法还避免了繁重的人工标注语料的过程,通过在一个约10万字的语料库上获得义原同现频率矩阵,并以此作为词义排岐的依据,实验表明,该方法对词义排岐具有较高的正确率。 相似文献
4.
针对传统的基于义原同现频率的汉语词义排歧方法存在“盲目性”的不足,笔者根据《知网》中对概念定义的描述,分别计算多义词的每个义项与特征词的第一独立义原、其他独立义原、关系义原、符号义原之间的相关系数;最后通过比较多义词的每个义项与特征词之间的相关系数来决定多义词的义项.经过实验验证,该方法进一步提高了词义排歧的效果. 相似文献
5.
针对传统基于义原同现频率的汉语词义排歧算法的“盲目性”,提出一种“双距离”词义排歧算法,即在计算待排歧词各义项与特征词之间的相关系数时,考虑两个距离因素:特征词与待排歧词之间的空间距离;最近选择该义项的同形歧词与该待排歧词之间的空间距离。实验表明,改进的算法是有效的。 相似文献
6.
义类标注是信息检索和自然语言处理中的一个重要问题,但依靠人工对义类进行标注不仅是一个十分烦琐的工作,而且很难把握标准,对义类代自动标注的研究就显得尤为迫切,而要实现自动标注,必须解决多义词排歧这一重要问题,在地《现代汉语词典》的义类标注过程中,文中通过统计相邻词语义类组合串的出现频率构造了一个同现频率矩阵集,这一同现频率矩阵集充分利用了义类体系的层次结构,极大地减少了数据稀疏和数据冗余,在此基础上 相似文献
7.
从神经网络的基本原理和自动词义排歧的技术入手,阐明应用神经网络技术进行汉语词义排歧研究的基本方法和步骤,并给出了实验结果和分析。 相似文献
8.
一种自组织的汉语词义排歧方法 总被引:6,自引:1,他引:6
长期以来,词义排歧一直被认为是自然语言处理的难题之一。本文用机器可读词典《现代汉语辞海》提供的搭配实例作为多义词的初始搭配知识,采用适当的统计和自组织方法自动扩大搭配集;为保证学习质量,在学习过程中逐渐增大上下文窗口的长度;提出使用搭配统计表的多元最大对数似然比词义排歧算法。最后,对本文提出的方法进行了实验,实验表明这种算法具有较高的正确率。 相似文献
9.
词义排歧方法的研究在自然语言处理领域具有重要的理论和实践意义。研究了一种基于知网的语义剪枝算法,来解决自然语言处理过程中的词义排歧问题。其目的是通过语义剪枝系统尽可能地减少歧义词在上下文中错误的或最不可能的义项。语义剪枝以后,形成词和其可能义项的一个列表,尽量将一个词真正正确的义项保留下来。为了对语义剪枝算法进行评价,开发了一个手工标注交互环境,并使用了召回率和简化率2 个指标。对窗口的尺寸和分析单元的选取对召回率和简化率的影响进行了研究。 相似文献
10.
一个汉语词义自动标注系统的设计与实现 总被引:1,自引:1,他引:1
词义排歧在自然语言处理领域占有重要地位。词义排歧的精确率依赖于排歧知识的完备性。但是目前使用基于词典的和基于语料库的词义排歧方法来获取排歧知识的效果都不令人满意。文章将介绍了一个汉语词义自动标注系统,该系统实现了基于语料库的无指导的词义排歧模型,比较成功地解决了排歧知识的获取瓶颈问题。文章将给出系统的总体设计和具体实现,并给出系统测试结果。 相似文献
11.
12.
基于最大熵原理的汉语词义消歧 总被引:3,自引:0,他引:3
词义消歧是自然语言处理中亟待解决的一个关键问题,本文提出一种基于最大熵模型的有监督的机器学习方法,用于汉语词义消歧。该方法综合了词标记、词性、主题等上下文特征,并用一种统一的表示方法规范化特征形式,解决了多种不同特征之间的融合和特征的知识表示。实验对20个汉语高频多义词进行了测试,平均正确率为87%,验证了该方法的有效性。 相似文献
13.
一种基于知网的中文词义消歧算法 总被引:1,自引:2,他引:1
词义消歧对自然语言处理领域许多问题的研究具有重要的理论和实践价值.针对该问题,提出了一种基于知网的中文词义消歧算法.为了考虑上下文词汇对词义消歧的不同影响,以语义相似度计算为基础,设计了三种语义联系强度计算方法,并且制定了四条词义消歧规则,依此实现中文词义消歧.实验数据显示该方法可获得65%左右的召回率和75%左右的准确率. 相似文献
14.
15.
针对自然语言处理领域词义消歧这一难点,提出一种新的汉语词义消歧方法。该方法以《知网》为语义资源,充分利用词语之间的优先组合关系。根据优先组合库得到句中各个实词与歧义词之间的优先组合关系;将各实词按照优先组合关系大小进行排列;计算各实词概念与歧义词概念之间的相似度,以判断歧义词词义。实验结果表明该方法对于高频多义词消歧是有效的,可作为进一步结构消歧的基础。 相似文献
16.
一种新的汉语词义消歧方法 总被引:2,自引:0,他引:2
针对自然语言处理领域词义消歧这一难点,提出一种新的汉语词义消歧方法。该方法以《知网》为语义资源,充分利用词语之间的优先组合关系。根据优先组合库得到句中各个实词与歧义词之间的优先组合关系;将各实词按照优先组合关系大小进行排列;计算各实词概念与歧义词概念之间的相似度,以判断歧义词词义。实验结果表明该方法对于高频多义词消歧是有效的,可作为进一步结构消歧的基础。 相似文献
17.
离合词词义消歧要解决如何让计算机理解离合词中的歧义词在具体上下文中的含义。针对离合词中歧义词在机器翻译中造成的对照翻译不准确以及在信息检索中无法匹配有效信息等问题,将词义消歧的方法应用于离合词中的歧义词,采用SVM模型建立分类器。为了提高离合词词义消歧的正确率,在提取特征时,结合离合词的特点,不仅提取了歧义词上下文中的局部词、局部词性、局部词及词性3类特征,还提取了“离”形式的歧义词的中间插入部分的特征;将文本特征转换为特征向量时,对布尔权重法进行了改进,依次固定某种类型特征权重,分别改变另外两种类型特征权重的消歧正确率来验证3类特征的消歧效果。实验结果表明,局部词特征、局部词及词性特征对消歧效果的影响高于局部词性特征,且采用不同类型的特征权重与采用相同的权重相比,消歧正确率提高了1.03%~5.69%。 相似文献