共查询到18条相似文献,搜索用时 62 毫秒
1.
字音转换问题一直是中文语音合成系统中不可缺少的模块,而多音字消歧是字音转换的核心问题。多音字的词性对于读音消歧有着特殊重要的意义。该文利用词性到读音映射关系将多音字划分为a类和b类。针对不同类别,我们提出一种多层面多音字消歧方案,分别从词性和语义层面上进行消歧,使用决策树模型和手工规则体系对多音字进行处理,实验结果表明,从词性层面上消歧利用决策树模型更好,而手工规则体系在语义层面上消歧更加有效。对每类分别从相应层面进行多音字消歧,正确率从baseline的80.74%达到了96.58%。 相似文献
2.
数据的长尾分布问题是NLP实践领域中的常见问题。以语音合成前端的多音字消歧任务为例,多音字数据的极度不均衡、尾部数据的缺乏,影响着语音合成系统的工业实用效果。该文观察到,汉语多音字的分布在“字符”与“字音”两个维度上都呈长尾特性,因此该文针对性地提出一种二重加权算法(Double Weighted, DW)。DW算法可分别与两种长尾算法:MARC,Decouple-cRT结合,进一步提升模型性能。在开源数据和工业数据上,DW算法较基线模型和两种原始算法取得了不同程度的准确率提升,为多维长尾问题提供解决方案与借鉴思路。 相似文献
3.
词义消歧要解决如何让计算机理解多义词在上下文中的具体含义,对信息检索、机器翻译、文本分类和自动文摘等自然语言处理问题有着十分重要的作用。通过引入句法信息,提出了一种新的词义消歧方法。构造歧义词汇上下文的句法树,提取句法信息、词性信息和词形信息作为消歧特征。利用贝叶斯模型来建立词义消歧分类器,并将其应用到测试数据集上。实验结果表明:消歧的准确率有所提升,达到了65%。 相似文献
4.
词义消歧在自然语言处理中一直是一个难点问题,同时,也是很多领域都需要解决的一个重要环节。文章首先介绍了目前一些常用词义消歧方法的特点和这些方法的研究进展,并在此基础上探讨了一种基于BP神经网络和统计方法相结合的有导词义消歧模型,最后详细讲解了BP神经网络原理,并对使用这种混合人工智能的消歧模型的可能性和优越性进行了讨论。 相似文献
5.
6.
句型转换的消歧和译文生成处理是混合式汉英机器翻译的两个重要阶段。本文主要工作有:第一,针对自然语言在各个层次上普遍存在的歧义性,对语言歧义的问题进行分析,论述了一些具体消歧方法;第二,建立了汉英机器翻译的时态转换及相关匹配规则,探讨了译文生成的处理。 相似文献
7.
词义消歧一直是一个难点,同时,也是很多领域都需解决的一个环节。该文首先介绍了目前基于语料库进行词义消歧方法的研究进展和各自的特点,在此基础上探讨了一种基于实例和基于统计的方法(即基于语料库的两种主流方法)相结合的混合策略,并对其可能性和优越性进行了讨论。 相似文献
8.
为解决困扰词义消歧及译文消歧任务中存在的数据稀疏及知识获取问题,提出一种利用双语词汇Web间接关联的完全无指导消歧方法.首先做出词汇歧义可由双语词汇的间接关联度决定的假设,为译文消歧提供了一种新的知识.在此基础上,对4种常用计算间接关联的方法进了改造并定义了双语词汇Web间接关联.随后进行基于Web的词汇消歧知识获取并设计了3种消歧决策方法.最后,在国际语义评测SemEval-2007中的Multilingual Chinese English Lexical Sample Task测试集进行了测试.该方法的Pmar值为44.4%,超过了该评测上最好的无指导系统的结果. 相似文献
9.
针对专家推荐场景下中文机构名称存在语义异构的问题,提出搜索引擎与规则相结合的中文实体名称消歧方法,首先利用搜索引擎的映射能力解决异构问题,然后通过编辑距离纠正实体机构名称,最后使用后缀、缩写等规则对实体进行消歧.该方法在12108份包含同名机构实体的真实数据集上测试具有良好的性能表现,机构数量降低12%,实验结果表明所... 相似文献
10.
11.
针对中文问题分类的中心词识别不准确的问题, 提出了一种基于条件随机场(CRF)和错误驱动学习相结合的识别方法。该方法采用CRF模型对问题的中心词进行初始标注, 依据词的上下文信息用错误驱动的学习方法对其标注结果进行纠正。在训练有序规则的过程中, 为了减少训练时间, 结合中心词的特点对错误驱动算法进行了改进。实验结果表明, 该方法在一定程度上提高了中心词的标注精度, 达到88%。 相似文献
12.
13.
14.
针对作者“名字去歧”问题,提出了一个新的对象识别框架,不仅利用本地库中的信息,而且利用通用的搜索引擎进行判断,这样的两个过程迭代进行,直到满足结束条件。此外,提出的利用站点碰撞进行对象识别,由于不需要下载Google返回的查询结果对应的众多网页,可以明显地降低网络传输量,降低识别的等待时间。大量实验数据表明上述方法可以获得很好的实验效果。 相似文献
15.
为解决词义消歧问题,引入了语义相关度计算。研究并设计了词语相关度计算模型,即在充分考虑语义资源《知网》中概念间结构特点、概念信息量和概念释义的基础上,利用概念词与实例词间的搭配所表征的词语间强关联来进行词语相关度的计算。实验结果表明,该模型得到的语义相关度结果对于解决WSD问题提供了良好的支撑依据。 相似文献
16.
词语的歧义问题给语言的自动理解造成了困难,词义消歧研究是解决该问题的方法。当前统计学习的方法在该问题的研究上得到了普遍的应用,然而限于训练语料的规模,统计词义消歧方法还不能获得十分满意的结果。如何在有限规模的训练语料的条件下,提高统计学习的效率,改善学习效果,是有监督词义消歧方法研究上的热点问题。在词语扩展思想的基础上,设计了一种以基于指示词扩展的词义消歧新方法,并通过实验证明该方法可以在不增大训练语料规模的前提下提高有监督词义消歧的精度。 相似文献
17.
为了提高词义排歧的准确率,提出了一种基于改进的向量空间模型(VSM)的词义排歧策略,该模型在提取特征向量的基础上,考虑了语法、词形、语义等因素,计算语境相似度,并引入搭配约束,改进了算法的效果,在开放测试环境下,词义标注正确率可达到80%以上。实验结果表明,该方法对语境信息的描述更加全面,有利于进一步的语义分析。 相似文献
18.
人名消歧已经成为自然语言处理和信息抽取应用中亟待解决的重要问题。运用中文自然语言处理和信息抽取系统识别命名实体和实体关系,生成实体信息对象(Entity Profile),采用实体信息对象(EP)中的个人信息特征,实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了实体消歧问题。采用哈尔滨工业大学整理的全网新闻语料作为人名消歧训练和测试数据,着重研究了中文人名消歧特征的选取,参数的确定和验证,在训练集和测试集上分别取得了91.33%和88.73%的F值。说明提出的方法具有较好的可行性。 相似文献