首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
多音字消歧是普通话语音合成系统中字音转换模块的核心问题。选择了常见易错的33个多音字和24个多音词作为研究对象,构建了一个平均每个多音字(词)5 000句的语料库,并且提出了一种结合决策树和基于转换的错误驱动的学习(Transformation- Based error-driven Learning,TBL)的混合算法。该方法根据决策树的指导,自动生成TBL算法的模板,避免了手工总结模板这一费时费力的过程。实验结果表明,该方法生成的模板与手工模板性能相当,其平均准确率达90.36%,明显优于决策树。  相似文献   

2.
赖兴邦 《福建电脑》2008,24(5):105-106
字音转换问题一直是中文语音合成系统中不可缺少的模块,而确定多音字在文章的特定环境中读什么音是其核心问题。本文以全宋词为研究对象,实现了全宋词的字音转换,其中多音字消歧方法有三种:条件策略,词性策略,格律校正。本系统采用现代汉语字音转换方法和宋词格律特点结合来实现,其中宋词字音转换的多音字标注准确率提高到96.89%  相似文献   

3.
英语中的多音词分成两类,一是因词性不同而读音不同,一是因词义不同而读音不同。前者只需经词性标注,根据其词性标记就可判别其正确的读音。而后者则复杂得多,论文采用了一种基于WordNet语义信息的多音词消歧算法,该算法将多音词的语义信息与上下文中词的语义信息进行匹配,根据匹配结果来判别多音词的读音。  相似文献   

4.
研究维吾尔语中的多音词现象,根据多音词的不同特点进行分类。利用词性和读音的映射关系消歧第1类多音词。根据词缀连接词干后是否发生元音弱化的特点消歧第2类多音词。提取上下文语境信息,使用最佳匹配读音的方法消歧第3类多音词。采用似然比方法进行关键词选择,并对不同窗口宽度的关键词选取方法进行对比实验。结果表明,该方法可以得到错误率为20.9%的多音词消歧效果。  相似文献   

5.
目前的语境向量模型在对语义空间建模的时候,没有考虑到同一个词的不同词性具有不同的含义,将它们看作同一个点进行建模,导致得到的语境向量质量不高,使用这种语境向量计算语境相似度效果不好。针对该类问题,提出了一种加入词性特征的语境向量模型,加入词性后,可以将原本用语义空间中一个点表示的几个语义区分出来,得到质量更好的语境向量和语境相似度,进而得到更好的消歧效果。实验结果表明,这种建模方式可以有效区分不同词性的语义,在2004年的Senseval-3测试集上进行测试,准确率达到了75.3%,并在SemEval-13和SemEval-15公开测试集上进行了测试,消歧效果相比未引入词性特征的模型均得到了提升。  相似文献   

6.
语音发音系统中,多音字的发音一直以来都是个难题。文章针对多音字中出现的一种远距离约束词语-离合词进行了研究,以此来关联多音字的发音。考虑到离合词的特点,提出了触发对的概念,然后用互信息来计算词语的相关度以此对多音字进行读音消歧,实验结果表明,从词语约束层面来考虑多音字对多音离合词的发音有很好的效果。  相似文献   

7.
《中文信息结构库》是《知网》的重要组成部分之一,可以作为中文语义分析的规则库,对其进行消歧是实际应用的基础之一。因此,该文首先对中文信息结构进行了形式化描述;接着对其进行优先级划分;然后根据其构成形式提出了四种不同的消歧方法 即词性序列消歧法、图相容匹配消歧法、图相容度计算消歧法、基于实例的语义相似度计算消歧法;最后针对不同优先级的中文信息结构集设计了不同消歧流程。实验结果证明消歧正确率达到了90% 以上。  相似文献   

8.
本文提出一种基于AdaBoost MH算法的有指导的汉语多义词消歧方法,该方法利用AdaBoost MH算法对决策树产生的弱规则进行加强,经过若干次迭代后,最终得到一个准确度更高的分类规则;并给出了一种简单的终止算法中迭代的方法;为获取多义词上下文中的知识源,在采用传统的词性标注和局部搭配序列等知识源的基础上,引入了一种新的知识源,即语义范畴,提高了算法的学习效率和排歧的正确率。通过对6个典型多义词和SENSEVAL3中文语料中20个多义词的词义消歧实验,AdaBoost MH算法获得了较高的开放测试正确率(85.75%)。  相似文献   

9.
规则与统计结合进行汉英机器翻译消歧   总被引:2,自引:0,他引:2  
刘颖 《计算机应用》2002,22(5):21-23,30
采用基于转换的方法进行汉英机器翻译,在机器翻译的每个阶段(汉语切分、词性标注、句法语义分析、树转换、词串生成)采用规则方法和统计方法相结合进行消歧。实验结果表明:两种方法结合提高了机器翻译的正确率。  相似文献   

10.
离合词词义消歧要解决如何让计算机理解离合词中的歧义词在具体上下文中的含义。针对离合词中歧义词在机器翻译中造成的对照翻译不准确以及在信息检索中无法匹配有效信息等问题,将词义消歧的方法应用于离合词中的歧义词,采用SVM模型建立分类器。为了提高离合词词义消歧的正确率,在提取特征时,结合离合词的特点,不仅提取了歧义词上下文中的局部词、局部词性、局部词及词性3类特征,还提取了“离”形式的歧义词的中间插入部分的特征;将文本特征转换为特征向量时,对布尔权重法进行了改进,依次固定某种类型特征权重,分别改变另外两种类型特征权重的消歧正确率来验证3类特征的消歧效果。实验结果表明,局部词特征、局部词及词性特征对消歧效果的影响高于局部词性特征,且采用不同类型的特征权重与采用相同的权重相比,消歧正确率提高了1.03%~5.69%。  相似文献   

11.
Disambiguating Japanese compound verbs   总被引:1,自引:0,他引:1  
The purpose of this study is to disambiguate Japanese compound verbs (JCVs) using two methods: (1) a statistical sense discrimination method based on verb-combinatoric information, which feeds into a first-sense statistical sense disambiguation method and (2) a manual rule-based sense disambiguation method which draws on argument structure and verb semantics. In evaluation, we found that the rule-based method outperformed the statistical method at 94.6% token-level accuracy, suggesting that fine-grained semantic analysis is an important component of JCV disambiguation. At the same time, the performance of the fully automated statistical method was found to be surprisingly good at 82.6%, without making use of syntactic or lexical semantic knowledge.  相似文献   

12.
数据的长尾分布问题是NLP实践领域中的常见问题。以语音合成前端的多音字消歧任务为例,多音字数据的极度不均衡、尾部数据的缺乏,影响着语音合成系统的工业实用效果。该文观察到,汉语多音字的分布在“字符”与“字音”两个维度上都呈长尾特性,因此该文针对性地提出一种二重加权算法(Double Weighted, DW)。DW算法可分别与两种长尾算法:MARC,Decouple-cRT结合,进一步提升模型性能。在开源数据和工业数据上,DW算法较基线模型和两种原始算法取得了不同程度的准确率提升,为多维长尾问题提供解决方案与借鉴思路。  相似文献   

13.
藏文词性自动标注是藏文信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性歧义问题的处理是藏文词性自动标注的关键所在,也是藏文信息处理的难点问题。对藏文词性标注中词性歧义问题进行了分析研究,提出了符合藏丈语法规则实用于藏文词性标注的解决词性排岐方法。实验证明:该处理方法在藏文词性自动标注中对词性排岐方面有较好的效果,使藏文词性标注正确率有了一定的提高。  相似文献   

14.
解决多音字字-音转换的一种统计学习方法   总被引:4,自引:1,他引:4  
字-音转换是语音合成系统中的一个重要模块,其中多音词和以单字词形式存在的多音字读音的确定一直是个没有很好解决的问题。本文通过对大量标注有正确拼音的语料的统计,指出着重解决41个重点多音字和22个重点多音词就可基本解决字-音转换的问题。本文采用基于扩展的随机复杂度的随机决策列表方法自动提取多音字(词)的读音规则,将字-音转换的错误率由8.8‰降低到4.4‰。规则的训练和测试的材料的标注是一个耗费人力和时间的工作,而训练材料的数量和质量又直接影响最终的结果。本文提出一种半自动的语料标注流程,可以节省将近一半的人工和时间。  相似文献   

15.
In this paper, extensive experiments are conducted to study the impact of features of different categories, in isolation and gradually in an incremental manner, on Arabic Person name recognition. We present an integrated system that employs the rule-based approach with the machine learning (ML)-based approach in order to develop a consolidated hybrid system. Our feature space is comprised of language-independent and language-specific features. The explored features are naturally grouped under six categories: Person named entity tags predicted by the rule-based component, word-level features, POS features, morphological features, gazetteer features, and other contextual features. As decision tree algorithm has proved comparatively higher efficiency as a classifier in current state-of-the-art hybrid Named Entity Recognition for Arabic, it is adopted in this study as the ML technique utilized by the hybrid system. Therefore, the experiments are focused on two dimensions: the standard dataset used and the set of selected features. A number of standard datasets are used for the training and testing of the hybrid system, including ACE (2003–2004) and ANERcorp. The experimental analysis indicates that both language-independent and language-specific features play an important role in overcoming the challenges posed by Arabic language and have demonstrated critical impact on optimizing the performance of the hybrid system.  相似文献   

16.
蒙古文自动词性标注方面的研究工作较少,制约了对蒙古文的机器翻译、语法分析及语义分析等领域的深入研究。针对于此,提出了加入lookahead学习机制的基于历史模型的蒙古文自动词性标注方法。实验表明,加入lookahead学习机制的基于历史模型的蒙古文自动词性标注方法对蒙古文的未登录词、集内词、总体词自动词性标注的准确率分别达到了71.276 6%、99.148 2%、95.301 0%,说明此方法可以较好地进行蒙古文的自动词性标注。  相似文献   

17.
The high error rate in spontaneous speech recognition is due in part to the poor modeling of pronunciation variations. An analysis of acoustic data reveals that pronunciation variations include both complete changes and partial changes. Complete changes are the replacement of a canonical phoneme by another alternative phone, such as ‘b’ being pronounced as ‘p’. Partial changes are the variations within the phoneme, such as nasalization, centralization, voiceless, voiced, etc. Most current work in pronunciation modeling attempts to represent pronunciation variations either by alternative phonetic representations or by the concatenation of subphone units at the hidden Markov state level. In this paper, we show that partial changes are a lot less clear-cut than previously assumed and cannot be modeled by mere representation by alternate phones or a concatenation of phone units. We propose modeling partial changes through acoustic model reconstruction. We first propose a partial change phone model (PCPM) to differentiate pronunciation variations. In order to improve the model resolution without increasing the parameter size too much, PCPM is used as a hidden model and merged into the pre-trained acoustic model through model reconstruction. To avoid model confusion, auxiliary decision trees are established for PCPM triphones, and one auxiliary decision tree can only be used by one standard decision tree. The acoustic model reconstruction on triphones is equivalent to decision tree merging. The effectiveness of this approach is evaluated on the 1997 Hub4NE Mandarin Broadcast News corpus (1997 MBN) with different styles of speech. It gives a significant 2.39% syllable error rate absolute reduction in spontaneous speech.  相似文献   

18.
In natural language processing, a crucial subsystem in a wide range of applications is a part-of-speech (POS) tagger, which labels (or classifies) unannotated words of natural language with POS labels corresponding to categories such as noun, verb or adjective. Mainstream approaches are generally corpus-based: a POS tagger learns from a corpus of pre-annotated data how to correctly tag unlabeled data. Presented here is a brief state-of-the-art account on POS tagging. POS tagging approaches make use of labeled corpus to train computational trained models. Several typical models of three kings of tagging are introduced in this article: rule-based tagging, statistical approaches and evolution algorithms. The advantages and the pitfalls of each typical tagging are discussed and analyzed. Some rule-based and stochastic methods have been successfully achieved accuracies of 93–96 %, while that of some evolution algorithms are about 96–97 %.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号