首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 35 毫秒
1.
影响词义消歧的特征是多方面的,为考察上下文指示词这一消歧特征,提出了利用统计的方法抽取指示词用于词义消歧。实验表明,该方法是可行的,并为利用多特征进行汉语自动消歧提供了可靠的参考。  相似文献   

2.
《计算机工程》2017,(9):210-213
词义消歧在机器翻译、信息检索、语音语义识别等方面具有重要作用。为提高消歧质量,细化特征粒度,提出一种多特征词义消歧方案。通过依存句法分析提取上下文中多义词及义项的词性、依存结构、依存词等特征,细化特征粒度,并根据多特征构造权值函数,选择权值最大的义项作为多义词的义项。实验结果表明,与单一特征词义消歧相比,采用依存句法分析的多特征词义消歧方案细化了特征粒度,提高了消歧准确率。  相似文献   

3.
针对中文专家页面特点,以及用于消歧的基准专家页面中信息涵盖不全的问题,该文提出一种基于特征映射的中文专家消歧方法。首先,采用条件随机场模型,从基准专家页面和待消歧页面中提取出所定义的12维人物属性特征,并利用最大熵分类模型,结合已有消歧结果训练出各属性特征的权重;然后,针对某个专家的基准页面,计算待消歧页面与该页面的相似度,根据设定的阈值判断该页面是否单独成类,若不是单独成类,则利用特征映射,扩充该页面的属性特征,结合模糊聚类方法,得到与该页面为一类的页面。在“自然语言处理”及“机器学习”领域进行中文专家消歧实验,结果表明提出的方法能有效对中文专家页面进行消歧。  相似文献   

4.
词义消歧在自然语言处理的许多应用领域都起着十分重要的作用。为了适用于大规模的词义消歧,提出了一种无导的学习方法。基于向量空间模型,结合机读词典和义类词典建立从义项到义类的映射关系,再利用义类知识在语料库中无导学习消歧特征,最后利用这些特征实现词义消歧。  相似文献   

5.
重名问题在Web人物搜索过程中是很普遍的现象.研究了Web人名消歧相关问题,提取与待消歧人名相关的不同特征集,运用向量空间模型构造人物实体的组合特征,最后通过层次聚类算法将相似度高的文档优先聚类,由此实现人名消歧.在WePS数据集上的实验结果表明,提出的方法具有良好的消歧效果.  相似文献   

6.
本文提出了一种简单有效的词义消歧方法,该模型充分利用依存文法分析,从句子的内部结构,寻找词语之间支配与被支配的关系,借以确定能够对词语语义构成内在限制的词语。借助《知网》系统的实体关系,并结合与该岐义词相关联词语的义项,计算歧义词的义项权重,从而根据义项权重大小来判断歧义词的词义。  相似文献   

7.
基于多分类器决策的词义消歧方法   总被引:2,自引:0,他引:2  
词义消歧问题可以形式化为典型的分类问题.通过学习少量带有词义标注的语料构造多个消歧分量分类器,并利用未标语料动态地对这些分类器进行更新,根据最终分量分类器分别对多义词义项的判定结果,组合决策多义词的义项.该方法无需手工构造大规模具有词义标注的语料库,并且具有较高的消歧准确率.  相似文献   

8.
英语中的多音词分成两类,一是因词性不同而读音不同,一是因词义不同而读音不同。前者只需经词性标注,根据其词性标记就可判别其正确的读音。而后者则复杂得多,论文采用了一种基于WordNet语义信息的多音词消歧算法,该算法将多音词的语义信息与上下文中词的语义信息进行匹配,根据匹配结果来判别多音词的读音。  相似文献   

9.
一种基于知网的中文词义消歧算法   总被引:1,自引:2,他引:1  
词义消歧对自然语言处理领域许多问题的研究具有重要的理论和实践价值.针对该问题,提出了一种基于知网的中文词义消歧算法.为了考虑上下文词汇对词义消歧的不同影响,以语义相似度计算为基础,设计了三种语义联系强度计算方法,并且制定了四条词义消歧规则,依此实现中文词义消歧.实验数据显示该方法可获得65%左右的召回率和75%左右的准确率.  相似文献   

10.
针对现有很多基于人物属性特征的人名消歧方法不适用于文本本身特征稀疏的问题,提出一种基于句义结构分析中文人名消歧方法。通过句义结构分析提取人物关系特征词,根据提取关系特征构建社会关系图,并以人名实体的职业和所在单位等人物属性作为辅助特征,结合实体的特征信息进行关系聚类,将聚类的结果映射到文本中以实现人名消歧。通过句义结构分析提高了人物关系特征以及人物属性特征的准确率,实验结果表明,该方法可有效地提高中文人名消歧准确率。  相似文献   

11.
基于X结构的词义选择利用单词所在的X结构,并与词典的用法部分的X结构相比较,通过比较结构及结构中其它词的相似性来决定单词的含义,单词间的相似性利用WordNet来实现.这一方法只要较少的学习例子,可以避免传统的基于单词同现的方法中需要大量的语料库及数据稀少等问题。  相似文献   

12.
基于义原同现频率的汉语词义排歧方法   总被引:19,自引:0,他引:19  
词义排岐是自然语言处理的重点和难点问题之一。基于语料库的统计方法已被广泛地应用于词义排岐,大多数的统计方法都受到数据稀疏的困扰,对于词义排岐而言,由于有大量同义词的存在,数据稀疏问题变得更为严重。充分利用“知网”这个知识源的特性,提出了一种基于义原同现频率的同义排岐方法,在很大程度上克服了数据稀疏问题。此外,该方法还避免了繁重的人工标注语料的过程,通过在一个约10万字的语料库上获得义原同现频率矩阵,并以此作为词义排岐的依据,实验表明,该方法对词义排岐具有较高的正确率。  相似文献   

13.
基于向量空间模型的有导词义消歧   总被引:21,自引:1,他引:21  
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣。由于自然语言知识表示的困难,在手工规则的词义消歧难以达到理想效果的情况下,各种有导机器学习方法被应用于词义消歧任务中,借鉴前人的成果引入信息检索领域中空间模型文档词语权重计算技术来解决多义词义项的知识表示问题,并提出了上下文位置权重的计算方法,给出了一种基于向量空间模型的词义消岐有导机器学习方法。该方法将多义词的义项和上下文分别映射到向量空间中,通过计算多义词上下文向量与义项向量的距离,采用k-NN(k=1)方法来确定上下文向量的义项分类。在9个汉语高频多义词的开放和封闭测试中均取得了突出的成绩(封闭测试平均正确率为96.31%,开放测试平均正确率为92.98%),验证了该方法的有效性。  相似文献   

14.
简要介绍了PageRank算法的核心思想,阐述了知网知识库在词义消歧中的作用,并提出将两者结合起来进行词义消歧的办法.对比了传统统计的消歧方法和该方法的优缺点,重点解释了如何将该算法运行到语义网络中去.介绍了使用知网义原概念和联系进行构图的方法,并对算法实现思想做了详细说明,最后通过一个实例简要概括了基于该算法和知网词义消歧的方法,并给出了少量测试数据,提出了研究中存在的困难和下一步的研究重点.  相似文献   

15.
针对现有基于语义的词义消歧方法存在两点不足:一,利用部分具有歧义的上下文语境词进行消歧存在不合理性;二,未考虑上下文语境词距离远近对语义相关度计算的影响,提出一种改进的方法,采用分步策略和距离加权两种方法分别进行改进。实验结果表明,改进方法在消歧效果上有明显的改善。  相似文献   

16.
义类标注是信息检索和自然语言处理中的一个重要问题,但依靠人工对义类进行标注不仅是一个十分烦琐的工作,而且很难把握标准,对义类代自动标注的研究就显得尤为迫切,而要实现自动标注,必须解决多义词排歧这一重要问题,在地《现代汉语词典》的义类标注过程中,文中通过统计相邻词语义类组合串的出现频率构造了一个同现频率矩阵集,这一同现频率矩阵集充分利用了义类体系的层次结构,极大地减少了数据稀疏和数据冗余,在此基础上  相似文献   

17.
汉语中词与词之间存在固定的搭配关系,基于词语搭配关系提出一种分词歧义性消除方法。该方法先利用正向和逆向最大匹配方法进行句子预切分,并对词的歧义性进行检测和词性标注,再对歧义词与词语搭配词典进行匹配或者动宾搭配判断,实现了较为准确的文档词语歧义性消除。通过词的歧义性检测实验和词语搭配检测对比实验,该方法取得了较好的效果。  相似文献   

18.
介绍一种基于模糊聚类的模糊辨识方法。首先利用含有聚类准则函数的模糊聚类方法来确定模糊规则数和模型前提参数,然后利用最小二乘法来辨识模型的结论参数,最后采用梯度下降法来调整模型的参数。该方法应用于Box-Jenkins数据仿真实例,仿真结果表明该方法简单有效。  相似文献   

19.
文本分类是在给定的分类体系下,根据文本的内容自动确定文本类别的过程.在文本分类中,特征的提取对于分类的结果相当重要.从特征提取这一阶段出发,提出了一个集成合并的特征提取方法,该方法主要集成多种特征提取方法并合并关系密切的特征,并利用支持向量机SVM(Support Vector Machine)分类的高准确率,能够求出全局最优方法等优点来对得到的特征向量进行分类评估.实验证明,此种特征提取能够降低分类时间和提高分类的准确率.  相似文献   

20.
文本分类中特征提取对分类效果有较大的影响,传统的特征提取方法在特征分布信息的量化方面存在不足。为此,提出一种基于特征词类内、类外平均词频的特征提取算法。算法通过特征词的平均词频类间集中度和文档频类间集中度来计算特征词的权重,能够更准确地反映特征词的分布情况。通过实验结果比较,可以证明,该算法有效地提高了分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号