首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 377 毫秒
1.
维吾尔语名词构形词缀有限状态自动机的构造   总被引:1,自引:1,他引:1  
该文主要阐述维吾尔语词干提取中使用的名词构形词缀分析DFA的构造过程。维吾尔语属于黏着语,所以维吾尔语自然语言处理系统必须实现词干提取。词干提取的主要任务从单词提取词干和连接词干词尾的构形词缀。维吾尔语单词的构形词缀按照一定的规则连接到词干词尾,这使得维吾尔语构形词缀的连接规则可用有限状态自动机形式化描述。该文首先介绍维吾尔语名词的形态结构,然后根据规则构造从右向左的有限状态自动机,最后对这个自动机进行方向翻转和转换确定自动机操作。  相似文献   

2.
通过对维吾尔语名词形态结构进行研究,构造了名词有限状态自动机(FSM);针对自动机的缺陷使用最大熵模型给有限状态自动机加入了歧义词缀识别能力,根据维吾尔语的元音和谐特点,建立了基于规则和信道噪声模型的元音和谐处理方法。有机地结合以上三种方法构造出了基于规则和统计的名词词干提取方法。为了有效利用现有的资源,提高系统的性能,把基于词典的词干提取方法与规则和统计结合的名词词干提取方法相结合,从而开发出多种策略相结合的维吾尔语名词词干提取系统。该系统具有较强的鲁棒性,准确率保持95%以上。  相似文献   

3.
维吾尔语动词体范畴的有限状态自动机的构建   总被引:1,自引:0,他引:1  
维吾尔语动词的体范畴是维吾尔语动词语法范畴中极为复杂的范畴,也是维吾尔语信息处理中的难点问题之一,计算机对维吾尔语动词体范畴的处理是在对人称、时、否定等语法范畴处理之后才进行处理。但是难点就是体范畴重叠问题的解决。维吾尔语动词的体范畴词尾按照一定的规则连接在词干,这使得维吾尔语动词体范畴的重叠形式可用有限状态自动机形式化描述。因此它根据重叠规则构造从右向左的非确定自动机,之后把从右向左方向的自动机转换成从左向右的非确定自动机,最后把非确定自动机转换成确定自动机来实现维吾尔语动词体范畴的形式化描述。  相似文献   

4.
在维吾尔语中,词缀的数量有限且构词具有一定的规律性。为了提高维吾尔语词切分算法的性能,在一个词缀库的基础上,通过分析维吾尔语的基本构词规则,提出了一种改进的非监督维吾尔语词切分方法。该方法对词进行规则切分,采用MAP切分评价模型对规则切分打分,选取得分最高的规则切分作为该词的最终切分形式。在一个5000词的测试语料上进行了实验,实验结果表明,使用该方法进行维吾尔语词切分具有更高的准确率。  相似文献   

5.
基于噪声信道的维吾尔语央音原音识别模型   总被引:1,自引:0,他引:1       下载免费PDF全文
维吾尔语单词连接构形词缀时,经常发生元音弱化成央音的现象。但对已有形态变化的单词进行形态还原时,使用规则识别弱化央音的原音的效率一般在40%左右。提出基于噪声信道的维吾尔语央音原音识别模型。该模型以弱化词干词尾的二字符、三字符和最后音节作为上下文,建立语言模型和似然度计算公式。在开放测试中,模型的准确率达到82.45%,提高词干提取准确率15%。  相似文献   

6.
维吾尔语形态较为复杂,构形词缀在维吾尔语中占有重要地位,其语法与汉语有较大差别。针对维吾尔语的形态特点,分析汉语端到维吾尔语端在统计机器翻译中维吾尔语词缀的作用,搭建基于短语的汉维统计机器翻译系统,对词级粒度、词干级粒度、最大词干级粒度、词干-词缀级粒度、词干-词尾级粒度的汉维平行语料库进行对比实验,研究不同粒度的维吾尔语对汉维机器翻译中的词语对齐质量和语言模型质量的影响。实验结果表明,在上述5种粒度的维吾尔语语料中,基于词干的维吾尔语和基于词干-词尾的维吾尔语目标端语料的翻译质量明显提高。  相似文献   

7.
该文介绍了维吾尔语词干结构特征、词缀结构特征及维吾尔语语音和谐律;以维吾尔语语音和谐律为基础,在充分考虑基本搭配规则和特殊规则的前提下,提出一种基于词干、词缀结构特征的维吾尔语词缀变体搭配算法;验证词干、词缀结构特征提取的正确性和完整性,并对500个名词词干和300个动词词干进行词缀变体搭配,分别生成9 000个名词和37 800个动词。借助维吾尔语文字校对系统和人工验证的方法,对生成的所有单词进行词缀变体搭配准确性验证;实验结果表明,名词和动词词干搭配词缀准确率分别为98.40%和96.49%,整体搭配准确率为96.86%;最后对搭配错误原因进行了分析。  相似文献   

8.
从喀什方言维吾尔语音合成的实际需求出发,在对照文本语料库的基础上,对比分析从标准维吾尔语到喀什方言的音位对应关系,根据增音、减音、换音等变位现象,总结相应的音位变化规则,构造基于有限状态自动机的转换模型及算法.实验结果表明,基于规则的自动转换算法具有良好的运行效果.  相似文献   

9.
维吾尔语中存在的形同音不同单词(多音词)的正确发音是影响合成系统可懂读的重要原因之一。维吾尔语单词由词根和词缀构成,虽然多音词词根数量不多,但多音词词根连接各种词缀则构成了大量的多音词。将维吾尔语中经常用错的16个多音词词根作为研究对象,以多音词的不同特点为出发点,采取不同的规则,结合最大熵模型方法来处理不符规则的多音词,同时用似然比方法选取关键词,并用贪婪算法选择最佳特征模板。经过性能测试,该算法多音词消歧平均准确率达到87.7%。  相似文献   

10.
现代维吾尔语是黏贴性较强的语言。因此,词语尤其是动词所表示的语法意义主要通过附加成分"■-■-"来实现。该文主要探讨维吾尔语动词构形附加成分,并且对于它在形成动词的各种体-时等形式中的作用、特征及其构形规则进行初步的分析。  相似文献   

11.
穆妮热·穆合塔尔      李晓    杨雅婷    艾孜尔古丽  周喜   《智能系统学报》2018,13(3):452-457
在自然语言理解、机器翻译、舆情分析等自然语言处理领域中,维吾尔谚语识别是整个文本实体识别的重要组成部分。为满足维吾尔谚语信息化的需求,本文构建了比较完善的维吾尔谚语语料库。同时,从传统语言学角度对维吾尔谚语的语法、语义结构进行分析,构建了一个由维吾尔谚语功能语类(词缀)组成的、专属维吾尔谚语规则的知识库,并将此知识库与自然语言处理技术相结合,实现一个既能够从文本中识别出维吾尔谚语,又能提供维汉互译等功能的信息软件系统。该系统也为开展计算机理解与处理维吾尔文字奠定了一个崭新的基础。  相似文献   

12.
维吾尔语是黏着性语言,利用丰富的词缀可以用同样的词干产生超大词汇,给维吾尔语语音识别的研究工作带来了很大困难。结合维吾尔语自身特点,建立了维吾尔语连续语音语料库,利用HTK(HMMToolKit)工具实现了基于隐马尔可夫模型(HMM)的维吾尔语连续语音识别系统。在声学层,选取三音子作为基本的识别单元,建立了维吾尔语的三音子声学模型,并使用决策树、三音子绑定、修补哑音、增加高斯混合分量等方法提高模型的识别精度。在语言层,使用了适合于维吾尔语语音特征的基于统计的二元文法语言模型。最后,利用该系统进行了维吾尔语连续语音识别实验。  相似文献   

13.
基于SVM的维吾尔文文本分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和χ2统计量相结合的方法对表示空间进行降维。采用SVM算法构造了维吾尔文文本分类器。针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法。  相似文献   

14.
维吾尔语具有形态丰富性、黏着性和数据稀疏性等特点,处理技术和英汉等热门语言有着较大差距并且未能满足新疆地区发展需求。形态分析是自然语言处理的重要组成部分,研究维吾尔语形态分析对于推动维吾尔语信息处理技术发展有着重要意义。简述了维吾尔语语法,描述了维吾尔语自然语言处理、形态分析及其相关基本资源研究现状,将常见方法分为基于规则、基于词典、基于统计、基于深度学习和基于混合5大类并分析了各种方法的优劣,介绍了维吾尔语形态分析后续研究,借鉴了先进的词法分析方法,总结了维吾尔语形态分析面临的挑战和机遇,并对其未来发展趋势进行展望。  相似文献   

15.
维吾尔语三音节词韵律特征声学分析   总被引:3,自引:0,他引:3  
本文从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了以开音节和闭音节结尾的333个三音节词的韵律参数,包括元音时长、音高和音强进行了统计分析,归纳了其元音时长、音高和音强分布模式,探讨了维吾尔语三音节词的韵律节奏模式与三音节词重音之间的关系问题,其目的是为了提高语音合成的自然度即更好的为自然语言处理服务。本项研究对维吾尔语语言乃至整个阿尔泰语系语言的韵律研究具有较高的参考价值。  相似文献   

16.
基于机器学习的维吾尔文文本分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型(VSM)表示下的高维性,采用词干提取和IG相结合的方法对表示空间进行降维。采用基于机器学习的分类算法(kNN和Na?ve Bayes)对维吾尔文文本语料进行了分类实验并分析了实验结果。  相似文献   

17.
维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%。
  相似文献   

18.
该文根据语音合成与识别等语音应用研究的需求,从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了包含鼻音m、n和的单音节以及多音节词,提取它们的声学参数并进行统计分析,归纳了其共振峰、音强和时长分布模式,研究了鼻音的两个变体,从实验语音学的角度出发进一步探讨了鼻音的声学特性,并总结出了一系列结论。其目的是为了提高语音合成的自然度即更好的为自然语言处理服务。该项研究结果对维吾尔语语言乃至整个阿尔泰语系语言的韵律研究具有较高的参考价值。  相似文献   

19.
本文研究了构建现代维吾尔语语料库的关键技术与方法,特别是现代维吾尔语语料库的构建,并对现代维吾尔语语料预处理技术,现代维吾尔语语料统计技术,现代维吾尔语词干提取技术,现代维吾尔语数据分析技术进行了研究;研制了现代维吾尔语常用词候选表, 从词语的使用频度和词语的分布两方面对词语进行了基本考察,将维吾尔语词语的“词种数、频次、频率、文本数、词长”作为常用词候选表的依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号