首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 312 毫秒
1.
基于最大熵原理的汉语词义消歧   总被引:3,自引:0,他引:3  
陈笑蓉  秦进 《计算机科学》2005,32(5):174-176
词义消歧是自然语言处理中亟待解决的一个关键问题,本文提出一种基于最大熵模型的有监督的机器学习方法,用于汉语词义消歧。该方法综合了词标记、词性、主题等上下文特征,并用一种统一的表示方法规范化特征形式,解决了多种不同特征之间的融合和特征的知识表示。实验对20个汉语高频多义词进行了测试,平均正确率为87%,验证了该方法的有效性。  相似文献   

2.
在此前的汉语未登录词语义预测中,构词相关的知识一直被当做预测的手段,而没有被视为一种有价值的知识表示方式,该文在“语素概念”基础上,深入考察汉语的语义构词知识,给出未登录词的“多层面”的词义知识表示方案。针对该方案,该文采用贝叶斯网络方法,构建面向汉语未登录词的自动语义构词分析模型,该模型能有效预测未登录词的“多层面”的词义知识。这种词义知识表示简单、直观、易于拓展,实验表明对汉语未登录词的语义预测具有重要的价值,可以满足不同层次的应用需求。  相似文献   

3.
基于向量空间模型的有导词义消歧   总被引:21,自引:1,他引:21  
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣。由于自然语言知识表示的困难,在手工规则的词义消歧难以达到理想效果的情况下,各种有导机器学习方法被应用于词义消歧任务中,借鉴前人的成果引入信息检索领域中空间模型文档词语权重计算技术来解决多义词义项的知识表示问题,并提出了上下文位置权重的计算方法,给出了一种基于向量空间模型的词义消岐有导机器学习方法。该方法将多义词的义项和上下文分别映射到向量空间中,通过计算多义词上下文向量与义项向量的距离,采用k-NN(k=1)方法来确定上下文向量的义项分类。在9个汉语高频多义词的开放和封闭测试中均取得了突出的成绩(封闭测试平均正确率为96.31%,开放测试平均正确率为92.98%),验证了该方法的有效性。  相似文献   

4.
复杂网络安全事件的知识表示和关联分析方法   总被引:1,自引:0,他引:1  
针对复杂网络安全事件信息的模糊性和不确定性的推理问题,提出采用一种加权模糊Petri网的安全事件知识表示和关联分析的方法.将Petri网和加权模糊产生式方法结合起来,通过引入网络安全事件征兆权值的概念,用权值大小来描述多个安全事件征兆对安全事件发生的贡献程度.在一定程度上有效地解决网络安全事件之间的复杂因果关系推理及不确定知识的表示问题.  相似文献   

5.
一个汉语词义自动标注系统的设计与实现   总被引:1,自引:1,他引:1  
词义排歧在自然语言处理领域占有重要地位。词义排歧的精确率依赖于排歧知识的完备性。但是目前使用基于词典的和基于语料库的词义排歧方法来获取排歧知识的效果都不令人满意。文章将介绍了一个汉语词义自动标注系统,该系统实现了基于语料库的无指导的词义排歧模型,比较成功地解决了排歧知识的获取瓶颈问题。文章将给出系统的总体设计和具体实现,并给出系统测试结果。  相似文献   

6.
在变电站智能告警专家系统中,针对业务知识的不确定性和复杂性,文中设计了一种不确定性知识的表示方法,可以使采用该方法构建的知识库更有利于推理机的推理和知识库的自学习。该方法根据领域知识将变电站信号进行分层分类,以子知识库的形式进行知识的组织,克服了知识的复杂性。而且它采用一种模糊产生式表示业务知识,将模糊推理规则映射为模糊产生式,解决了知识的不确定性问题。实验分析表明,该方法适合进行变电站关联信号的告警推理,结合系统对知识的自学习机制,可以有效降低告警的差错率和虚警率。  相似文献   

7.
为解决试油三项设计系统在实际应用中因认知水平、知识水平和实际需求不同导致的设计方案差异大、标准不统一的问题,如何以一种形式化、标准化的方式来表示试油方案设计领域知识,实现方案标准统一化,提高试油方案协同设计系统的智能性是面临的一个重要问题。在研究试油方案协同设计工作流的基础上引进知识的概念,将试油领域本体与试油方案协同设计的具体应用需求相结合提出了一种基于知识的试油方案协同设计方法。该方法介绍了试油领域本体构建、应用以及协同工作流构建等技术和方法,利用统一的知识表示,使知识与试油方案协同设计业务流程紧密关联,很好地解决了实际应用中方案标准统一化以及知识重用性的问题。目前系统在使用中,提高了方案设计的准确性和设计效率。  相似文献   

8.
针对传统关联规则表示方法无法展示领域知识,缺少对规则信息一对一、一对多、多对一、多对多的多模式表示,忽略知识发现结果的共享等问题,提出了一种新的基于Vis-Meta图的多模式关联规则知识表示方法.首先给出了Vis-Meta图的相关定义与关联规则的Vis-Meta图表示方法,接着定义了关联规则Vis-Meta图知识表示中的概念关系,并在此基础上给出了关联规则概念关系知识表示算法、关联规则实例对比算法和关联规则知识表示优化算法.最后,以某省全员人口数据为基础,对关联规则信息进行可视化分析.实验结果表明,所提出的知识表示算法具有良好的展示效果与知识共享能力.  相似文献   

9.
隐喻识别是自然语言处理中语义理解的重要任务之一,目标为识别某一概念在使用时是否借用了其他概念的属性和特点.由于单纯的神经网络方法受到数据集规模和标注稀疏性问题的制约,近年来,隐喻识别研究者开始探索如何利用其他任务中的知识和粗粒度句法知识结合神经网络模型,获得更有效的特征向量进行文本序列编码和建模.然而,现有方法忽略了词义项知识和细粒度句法知识,造成了外部知识利用率低的问题,难以建模复杂语境.针对上述问题,提出一种基于知识增强的图编码方法(knowledge-enhanced graph encoding method,KEG)来进行文本中的隐喻识别.该方法分为3个部分:在文本编码层,利用词义项知识训练语义向量,与预训练模型产生的上下文向量结合,增强语义表示;在图网络层,利用细粒度句法知识构建信息图,进而计算细粒度上下文,结合图循环神经网络进行迭代式状态传递,获得表示词的节点向量和表示句子的全局向量,实现对复杂语境的高效建模;在解码层,按照序列标注架构,采用条件随机场对序列标签进行解码.实验结果表明,该方法的性能在4个国际公开数据集上均获得有效提升.  相似文献   

10.
基于最大熵模型的汉语词义消歧与标注方法   总被引:3,自引:0,他引:3       下载免费PDF全文
张仰森 《计算机工程》2009,35(18):15-18
分析最大熵模型开源代码的原理和各参数的意义,采用频次和平均互信息相结合特征筛选和过滤方法,用Delphi语者编程实现汉语词义消歧的最大熵模型,运用GIS(Generalized Iterative Scaling)算法计算模型的参数。结合一些语占知识规则解决训练语料的数据稀疏问题,所实现的汉语词义消歧与标注系统,对800多个多义词进行词义标注,取得了较好的标注正确率。  相似文献   

11.
卢志茂  刘挺  李生 《自动化学报》2006,32(2):228-236
为实现汉语全文词义自动标注,本文采用了一种新的基于无指导机器学习策略的词义标注方法。实验中建立了四个词义排歧模型,并对其测试结果进行了比较.其中实验效果最优的词义排歧模型融合了两种无指导的机器学习策略,并借助依存文法分析手段对上下文特征词进行选择.最终确定的词义标注方法可以使用大规模语料对模型进行训练,较好的解决了数据稀疏问题,并且该方法具有标注正确率高、扩展性能好等优点,适合大规模文本的词义标注工作.  相似文献   

12.
影响词义消歧的特征是多方面的,为考察上下文指示词这一消歧特征,提出了利用统计的方法抽取指示词用于词义消歧。实验表明,该方法是可行的,并为利用多特征进行汉语自动消歧提供了可靠的参考。  相似文献   

13.
王海峰  高文  李生 《软件学报》1999,10(12):1279-1283
汉语口语分析是交互式话语处理中的重要环节.在汉语中,有意义的最小单位是词,因此多义选择是口语分析系统必须首先解决的问题.该文提出了一种基于精简循环网络的汉语口语多义选择方法,并从词汇的语法、语义分类所固有的内在联系出发,给出了语法、语义的一致化处理策略.通过使用会面安排领域的口语语料进行实验,多义选择的开放测试的正确率为96.9%.  相似文献   

14.
词义知识获取是词义知识库建设、词义消歧等任务的基础和起点,目前该工作基本依赖人类专家的智慧和洞察力,在大规模文本处理上缺乏意义计算的客观性和一致性。该文以汉语的中高频形容词为样本,深入挖掘词义特征并采用有参数初始化过程的EM迭代算法,实现了从真实文本中自动发现并区分词语词义的过程。该词义区分算法选取易获取的词形特征、基于大规模语料的搭配特征、基于网络语料的属性—宿主关系特征,替代以往难以获取的句法结构特征,并进一步利用HowNet优化了词形特征的选择。该工作可以应用于信息检索等领域,能够对现有词典起到修改和补充的作用,该思路亦可扩展到其他汉语词类上去。  相似文献   

15.
知识获取是制约基于语料库的词义消歧方法性能提高的瓶颈,使用等价伪词的自动语料标注方法是近年来解决该问题的有效方法。等价伪词是用来代替歧义词在语料中查找消歧实例的词。但使用等价伪词获得的部分伪实例质量太差,且无法为没有或很少同义词的歧义词确定等价伪词。基于此,该文提出一种将等价伪词获得的伪实例和人工标注实例相结合的词义消歧方法。该方法通过计算伪实例与歧义词上下文的句子相似度,删除质量低下的伪实例。并借助人工标注语料为某些无等价伪词的歧义词提供消歧实例,计算各义项的分布概率。在Senseval-3汉语消歧任务上的实验中,该文方法取得了平均F-值为0.79的成绩。  相似文献   

16.
中文人称名词短语单复数自动识别   总被引:2,自引:1,他引:1  
名词短语的单复数信息在共指消解中是必不可少的特征. 与英语不同, 中文属于汉藏语系, 名词本身不能明显体现单复数信息, 需要借助其所在的名词短语来进行体现. 本文在自动内容抽取(Automatic content extraction, ACE)语料上抽取得到人称名词短语的单复数信息, 分别采用了基于规则和机器学习的方法来进行人称名词短语的单复数自动识别. 基于规则的方法, 在一些知识资源的基础上定义了规则模板库, 每条规则采用槽和槽值的方法来进行体现; 机器学习方法采用最大熵模型组合考察了词形、词性、词义、数量关系等特征. 两种方法分别达到了48.24\%和87.48\%的正确率. 实验结果显示, 基于规则的方法能够保证精确率而不能保证召回率, 机器学习的方法可以更好地完成单复数信息的识别任务.  相似文献   

17.
In this paper, we propose a word sense learning algorithm which is capable of unsupervised feature selection and cluster number identification. Feature selection for word sense learning is built on an entropy-based filter and formalized as a constraint optimization problem, the output of which is a set of important features. Cluster number identification is built on a Gaussian mixture model with a MDL-based criterion, and the optimal model order is inferred by minimizing the criterion. To evaluate closeness between the learned sense clusters with the ground-truth classes, we introduce a kind of weighted F-measure to model the effort needed to reconstruct the classes from the clusters. Experiments show that the algorithm can retrieve important features, roughly estimate the class numbers automatically and outperforms other algorithms in terms of the weighted F-measure. In addition, we also try to apply the algorithm to a specific task of adding new words into a Chinese thesaurus.  相似文献   

18.
一种基于词矢量的汉语语义量化模型   总被引:6,自引:0,他引:6  
通过建立基于词矢量的汉语语义量化模型来解决语义信息的自动获取及量化问题,描述了模型的建立方法及其在汉语词义排歧中的应用,最后通过构造伪词的方法对模型的语义辨识能力进行了评测。实验表明该语义量化模型具有很好的语义表示能力,并且由于模型的建立是通过对大规模生语料库的统计来完成的,避免了人工对词语语义进行量化时所需的庞大工作量,从而可以运用于许多与语义相关的自然语言处理任务中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号