共查询到17条相似文献,搜索用时 102 毫秒
1.
2.
词义排歧在自然语言处理领域占有重要地位。词义排歧的精确率依赖于排歧知识的完备性。但是目前使用的基于词典的和基于语料库的词义排歧方法来获取排歧知识的效果都不令人满意。文中借助《知网》,以义原同现频率矩阵作为排歧知识,在其基础上设计并实现了一个基于义原同现频率的汉语词义排歧系统,大大地提高词义排歧的精确率。 相似文献
3.
针对传统的基于义原同现频率的汉语词义排歧方法存在“盲目性”的不足,本文根据《知网》中对概念定义的描述,分别计算多义词的每个义项与特征词的第一独立义原、其他独立义原、关系义原、符号义原之间的相关系数;最后通过比较多义词的每个义项与特征词之间的相关系数来决定多义词的义项。经过实验验证,该方法进一步提高了词义排歧的效果。 相似文献
4.
针对传统的基于义原同现频率的汉语词义排歧方法存在“盲目性”的不足,笔者根据《知网》中对概念定义的描述,分别计算多义词的每个义项与特征词的第一独立义原、其他独立义原、关系义原、符号义原之间的相关系数;最后通过比较多义词的每个义项与特征词之间的相关系数来决定多义词的义项.经过实验验证,该方法进一步提高了词义排歧的效果. 相似文献
5.
针对传统基于义原同现频率的汉语词义排歧算法的“盲目性”,提出一种“双距离”词义排歧算法,即在计算待排歧词各义项与特征词之间的相关系数时,考虑两个距离因素:特征词与待排歧词之间的空间距离;最近选择该义项的同形歧词与该待排歧词之间的空间距离。实验表明,改进的算法是有效的。 相似文献
6.
一个汉语词义自动标注系统的设计与实现 总被引:2,自引:1,他引:1
词义排歧在自然语言处理领域占有重要地位。词义排歧的精确率依赖于排歧知识的完备性。但是目前使用基于词典的和基于语料库的词义排歧方法来获取排歧知识的效果都不令人满意。文章将介绍了一个汉语词义自动标注系统,该系统实现了基于语料库的无指导的词义排歧模型,比较成功地解决了排歧知识的获取瓶颈问题。文章将给出系统的总体设计和具体实现,并给出系统测试结果。 相似文献
7.
为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法.以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类.实验结果表明,该方法与基于语义、基于AD_NB等方法相比,正确率、召回率和F值均得到了明显的提高. 相似文献
8.
义类标注是信息检索和自然语言处理中的一个重要问题,但依靠人工对义类进行标注不仅是一个十分烦琐的工作,而且很难把握标准,对义类代自动标注的研究就显得尤为迫切,而要实现自动标注,必须解决多义词排歧这一重要问题,在地《现代汉语词典》的义类标注过程中,文中通过统计相邻词语义类组合串的出现频率构造了一个同现频率矩阵集,这一同现频率矩阵集充分利用了义类体系的层次结构,极大地减少了数据稀疏和数据冗余,在此基础上 相似文献
9.
10.
基于X结构的词义选择利用单词所在的X结构,并与词典的用法部分的X结构相比较,通过比较结构及结构中其它词的相似性来决定单词的含义,单词间的相似性利用WordNet来实现.这一方法只要较少的学习例子,可以避免传统的基于单词同现的方法中需要大量的语料库及数据稀少等问题。 相似文献
11.
为了解决困扰词义及译文消歧的数据稀疏及知识获取问题,提出一种基于Web利用n-gram统计语言模型进行消歧的方法.在提出词汇语义与其n-gram语言模型存在对应关系假设的基础上,首先利用Hownet建立中文歧义词的英文译文与知网DEF的对应关系并得到该DEF下的词汇集合,然后通过搜索引擎在Web上搜索,并以此计算不同DEF中词汇n-gram出现的概率,然后进行消歧决策.在国际语义评测SemEval-2007中的Multilingual Chinese English Lexical Sample Task测试集上的测试表明,该方法的Pmar值为55.9%,比其上该任务参评最好的无指导系统性能高出12.8%. 相似文献
12.
13.
14.
词义消歧一直是自然语言处理领域中的关键性问题。为了提高词义消歧的准确率,从目标歧义词汇出发,挖掘左右词单元的语义知识。以贝叶斯模型为基础,结合左右词单元的语义信息,提出了一种新的词义消歧方法。以SemEval-2007:Task#5作为训练语料和测试语料,对词义消歧分类器进行优化,并对优化后的分类器进行测试。实验结果表明:词义消歧的准确率有所提高。 相似文献
15.
词义消歧是自然语言处理领域的一个重要研究课题。词义标注的一致性将直接影响语料库的建设质量,进而直接或间接影响到其相关的应用领域。由于语言本身的复杂性与发展性以及算法设计的难点和缺陷,目前各种词义标注的算法与模型还不能百分之百正确地标注词义,即不能保证词义消歧的正确性与一致性。而人工校验在时间、人力方面的投入是个难题。该文在对《人民日报》语料、语句相似度算法和语义资源《知网》研究的基础上,提出了对《人民日报》语料词义标注进行一致性检验的方法。实验结果表明,此方法是有效的。 相似文献
16.
词义消歧是自然语言处理中的一个关键问题,为提高大规模词义消歧的准确率,提出了一种基于模板的无导词义消歧方法。利用多义词不同义项的同义或近义单义词对该义项进行表述,综合考虑共现词出现的位置、上下文距离及出现频次,据此构造语境模板,有效地解决了多义词义项确定的困难。实验结果表明,本文提出的方法在消歧性能方面有较明显的改善。 相似文献
17.
词义消歧是一项具有挑战性的自然语言处理难题。作为词义消歧中的一种优秀的半监督消歧算法,遗传蚁群词义消歧算法能快速进行全文词义消歧。该算法采用了一种局部上下文的图模型来表示语义关系,以此进行词义消歧。然而,在消歧过程中却丢失了全局语义信息,出现了消歧结果冲突的问题,导致算法精度降低。因此,
提出了一种基于全局领域和短期记忆因子改进的图模型来表示语义以解决这个问题。该图模型引入了全局领域信息,增强了图对全局语义信息的处理能力。同时根据人的短期记忆原理,在模型中引入了短期记忆因子,增强了语义间的线性关系,避免了消歧结果冲突对词义消歧的影响。大量实验结果表明:与经典词义消歧算法相比,所提的改进图模型提高了词义消歧的精度。 相似文献