首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
英语中的多音词分成两类,一是因词性不同而读音不同,一是因词义不同而读音不同。前者只需经词性标注,根据其词性标记就可判别其正确的读音。而后者则复杂得多,论文采用了一种基于WordNet语义信息的多音词消歧算法,该算法将多音词的语义信息与上下文中词的语义信息进行匹配,根据匹配结果来判别多音词的读音。  相似文献   

2.
研究维吾尔语中的多音词现象,根据多音词的不同特点进行分类。利用词性和读音的映射关系消歧第1类多音词。根据词缀连接词干后是否发生元音弱化的特点消歧第2类多音词。提取上下文语境信息,使用最佳匹配读音的方法消歧第3类多音词。采用似然比方法进行关键词选择,并对不同窗口宽度的关键词选取方法进行对比实验。结果表明,该方法可以得到错误率为20.9%的多音词消歧效果。  相似文献   

3.
维吾尔语多词表达抽取方法研究   总被引:1,自引:0,他引:1  
多词表达是特殊的语言现象,一般由多个词构成来表示一个意义,语料中常出现在一起。多词表达因是特殊的单元,其抽取在自然语言处理的很多领域有着非常重要的作用。讨论了目前常见的三种统计方法即互信息、对数似然比以及卡方等在维吾尔语多词表达抽取方面的影响。根据维吾尔语的特点,将词干作为一项特征加到抽取方法中。语料的选择上考虑了覆盖面及领域,并探讨了它们对抽取方法的影响。  相似文献   

4.
语音发音系统中,多音字的发音一直以来都是个难题。文章针对多音字中出现的一种远距离约束词语-离合词进行了研究,以此来关联多音字的发音。考虑到离合词的特点,提出了触发对的概念,然后用互信息来计算词语的相关度以此对多音字进行读音消歧,实验结果表明,从词语约束层面来考虑多音字对多音离合词的发音有很好的效果。  相似文献   

5.
维吾尔语词切分方法初探   总被引:11,自引:9,他引:11  
维语词的词干-词附加成分切分、音节切分的规律对维吾尔语自然语言处理方面提供更多方便。本文提出了以“词=词根+附加成分”结构。维语附加成分种类繁多,连接形式各式各样,在句子中起着非常重要的作用,同时有相当的规律性。本文提出了维语中可能出现的基本语音规律的处理方法,如:语音同化、音节切分、语音和谐规律处理。本文对维文词的词法和语音法结构进行了归纳,提出了维语词切分的一些规律和实现方法。以新疆高校学报为语料来测试,对规则词准确率达到95%。  相似文献   

6.
多词领域术语抽取是自然语言处理技术中的一个重点和难点问题, 结合维吾尔语语言特征,该文提出了一种基于规则和统计相结合的维吾尔语多词领域术语的自动抽取方法。该方法分为四个阶段: ①语料预处理, 包括停用词过滤和词性标注; ② 对字串取N元子串, 利用改进的互信息算法和对数似然比率计算子串内部的联合强度, 结合词性构成规则, 构建候选维吾尔语多词领域术语集; ③ 利用相对词频差值, 得到尽可能多的维吾尔语多词领域术语; ④ 结合C_value值获取最终领域术语并作后处理。实验结果准确率为85.08%, 召回率为 73.19%, 验证了该文提出的方法在维吾尔语多词领域术语抽取上的有效性。  相似文献   

7.
《计算机工程》2018,(2):220-225
使用无监督的方法,将口语文本中的非正规维吾尔语词项归一化到正规文本中意思相近的正规词,基于神经网络,利用大规模语料将维吾尔语单词映射到低维向量空间,对向量空间的非正规词进行聚类。引入一个贪心解码器对非正规词做归一化处理,并进行重采样迭代,从而将之前未能成功归一化的非正规词归一化。实验结果表明,使用该方法对维汉机器翻译的待翻译口语文本进行前编辑后,生成的译文质量有显著提高。该方法给维汉口语文本机器翻译系统提供一个前处理的流程,在缺乏双语口语平行语料的情况下也能有效提高机器翻译系统性能。  相似文献   

8.
在维吾尔语中,词缀的数量有限且构词具有一定的规律性。为了提高维吾尔语词切分算法的性能,在一个词缀库的基础上,通过分析维吾尔语的基本构词规则,提出了一种改进的非监督维吾尔语词切分方法。该方法对词进行规则切分,采用MAP切分评价模型对规则切分打分,选取得分最高的规则切分作为该词的最终切分形式。在一个5000词的测试语料上进行了实验,实验结果表明,使用该方法进行维吾尔语词切分具有更高的准确率。  相似文献   

9.
全词消歧(All-Words Word Sense Disambiguation)可以看作一个序列标注问题,该文提出了两种基于序列标注的全词消歧方法,它们分别基于隐马尔可夫模型(Hidden Markov Model, HMM)和最大熵马尔可夫模型(Maximum Entropy Markov Model, MEMM)。首先,我们用HMM对全词消歧进行建模。然后,针对HMM只能利用词形观察值的缺点,我们将上述HMM模型推广为MEMM模型,将大量上下文特征集成到模型中。对于全词消歧这类超大状态问题,在HMM和MEMM模型中均存在数据稀疏和时间复杂度过高的问题,我们通过柱状搜索Viterbi算法和平滑策略来解决。最后,我们在Senseval-2和Senseval-3的数据集上进行了评测,该文提出的MEMM方法的F1值为0.654,超过了该评测上所有的基于序列标注的方法。  相似文献   

10.
在大词汇量连续语音识别应用中,优质的语音训练语料是所有识别工作的基础和前提, 能否挑选出覆盖更多语音现象的语料是提高语音识别性能的关键。该文在多种维吾尔文口语化传播平台中采集了大量口语句子语料,并考虑协同发音的影响和常用词的适用性,根据评估函数对语料筛选。经过筛选后的语料包含的三音子更加均衡和高效,囊括的语音现象更加全面,为训练准确而牢靠的语音模型打下了稳固的根基。  相似文献   

11.
传统的分词方法将一个维吾尔文语义词(多词关联模式)拆分成与词意义不符的若干个片段,因此在维吾尔语文本分析及文本处理过程中导致许多问题,严重影响文本处理效率.提出了一种维吾尔文组词的全新概念,用互信息作为相邻单词间关联程度的度量,实现了基于分段式策略和增量式策略的两种自适应组词算法,并与传统的分词方法得到的词汇表进行对比分析.实验结果表明,组词算法能够非常有效地提取文本中的语义词,两种算法在大规模文本集上的组词准确率分别达到了84.31%和88.24%.  相似文献   

12.
以词间空格作为自然分隔符,非常容易获取维吾尔文中的词,但又很难获取结构完整的语义词,因此多种文本处理效果总是很不理想。提出维吾尔文组词的新概念,将数据挖掘中的频繁模式挖掘方法引入到维吾尔文组词中,再结合维吾尔文的语言文字特点,将无先验知识的模式挖掘问题转化为特定模式的匹配问题,提出了一种快速高效的频繁模式挖掘算法,来获取语义完整的维吾尔文词。实验结果表明,通过该算法获取的维吾尔文词,在结构上是稳定的,语义上是完整而独立的。  相似文献   

13.
针对传统基于义原同现频率的汉语词义排歧算法的“盲目性”,提出一种“双距离”词义排歧算法,即在计算待排歧词各义项与特征词之间的相关系数时,考虑两个距离因素:特征词与待排歧词之间的空间距离;最近选择该义项的同形歧词与该待排歧词之间的空间距离。实验表明,改进的算法是有效的。  相似文献   

14.
在分析一般语音语料库建设方法的基础上,结合实际语料库需求和地域语言特点,提出了适用于电话信道维吾尔语口语语料库建设的设计规范及语音采集、标注方法,建立了时长300小时的电话信道维吾尔语口语语料库,并就电话信道对线性预测倒谱系数(LPCC)、梅尔倒谱系数(MFCC)、自适应成分加权特征(ACW)倒谱等语音特征参数的影响进行分析研究。  相似文献   

15.
维吾尔语三音节词韵律特征声学分析   总被引:3,自引:0,他引:3  
本文从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了以开音节和闭音节结尾的333个三音节词的韵律参数,包括元音时长、音高和音强进行了统计分析,归纳了其元音时长、音高和音强分布模式,探讨了维吾尔语三音节词的韵律节奏模式与三音节词重音之间的关系问题,其目的是为了提高语音合成的自然度即更好的为自然语言处理服务。本项研究对维吾尔语语言乃至整个阿尔泰语系语言的韵律研究具有较高的参考价值。  相似文献   

16.
随着社会的发展变化,语言生活也在不断地发展变化。为了切实掌握中小学维吾尔语文教材中用词情况,以中小学维吾尔语文教材作为研究对象,对用词概况进行研究。陈述研究使用的语料;介绍统计系统研究概况;中小学维吾尔语文教材用词研究包括研究总词次、总词种数、总词干种数;讨论与分析词频与词种、词种覆盖率、词种。  相似文献   

17.
以维吾尔语小学语文教材语料为验证对象,利用从语法语义相结合角度制定的《现代维吾尔语词干词类标注标记集》,对维吾尔语小学语文教材词干进行了词性标注,验证该标记集规范的可行性、适应性和可靠性。首先介绍小学语文教材电子语料库;其次讨论《信息处理用现代维吾尔语词干词类标注标记集》的基本情况和多策略现代维吾尔语词干标注系统模型设计与算法;最后分析现代维吾尔语词性标注标记集验证结果,并验证《信息处理用现代维吾尔语词干词类标注标记集》的科学性,补充和改正部分词类的语义分类及标注代码,提出了规范的扩充建议。  相似文献   

18.
维吾尔语双音节词元音格局研究   总被引:1,自引:0,他引:1  
从高自然度语音合成与高精度语音识别技术研究的实际应用需求出发,采用实验语音学的方法研究了维吾尔语双音节词中的元音格局。为此,从"维吾尔语语音声学参数库"中选取了包括维吾尔语元音的双音节词,并分别对词首音节和词尾音节中的元音共振峰频率值进行统计分析,利用Joos方法比较详细地归纳出了维吾尔语词首和词尾音节元音格局以及它们之间的区别,绘制出了维吾尔语双音节词元音的共振峰模式。首次用实际实验数据验证了维吾尔语元音舌位特点符合传统"口耳之学"结论。研究结果对维吾尔语语言乃至整个阿尔泰语系语言的语音研究及应用开发具有较高的参考价值。  相似文献   

19.
词语的歧义问题给语言的自动理解造成了困难,词义消歧研究是解决该问题的方法。当前统计学习的方法在该问题的研究上得到了普遍的应用,然而限于训练语料的规模,统计词义消歧方法还不能获得十分满意的结果。如何在有限规模的训练语料的条件下,提高统计学习的效率,改善学习效果,是有监督词义消歧方法研究上的热点问题。在词语扩展思想的基础上,设计了一种以基于指示词扩展的词义消歧新方法,并通过实验证明该方法可以在不增大训练语料规模的前提下提高有监督词义消歧的精度。  相似文献   

20.
该文针对维吾尔语的音变现象,提出了一种自动还原模型。与以往方法不同的是,此模型中我们把音变现象泛化,先假设维吾尔语中所有语音都有音变现象,从而将还原问题转化为类似于词性标注问题,再利用标注的方法解决了还原操作。在新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上做了实验,还原模块作为维吾尔语词法分析器的一部分,把词法分析器功能的F值从84.1%提高到了91.4%,同时维吾尔语中词缀数目最多、变形情况最复杂的动词词干的还原正确率也达到了88.6%,实际应用中完全可以被接受。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号