首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 498 毫秒
1.
维吾尔语名词构形词缀有限状态自动机的构造   总被引:2,自引:1,他引:1  
该文主要阐述维吾尔语词干提取中使用的名词构形词缀分析DFA的构造过程。维吾尔语属于黏着语,所以维吾尔语自然语言处理系统必须实现词干提取。词干提取的主要任务从单词提取词干和连接词干词尾的构形词缀。维吾尔语单词的构形词缀按照一定的规则连接到词干词尾,这使得维吾尔语构形词缀的连接规则可用有限状态自动机形式化描述。该文首先介绍维吾尔语名词的形态结构,然后根据规则构造从右向左的有限状态自动机,最后对这个自动机进行方向翻转和转换确定自动机操作。  相似文献   

2.
维吾尔语单词的构形词缀按照一定的规则连接到词干。维吾尔语的黏着言特点和构形词缀连接规则使得可以构造维吾尔语构形词缀的有限状态自动机。该文将详细介绍维吾尔语形容词构形词缀有限自动机的构造步骤。  相似文献   

3.
该文介绍了维吾尔语词干结构特征、词缀结构特征及维吾尔语语音和谐律;以维吾尔语语音和谐律为基础,在充分考虑基本搭配规则和特殊规则的前提下,提出一种基于词干、词缀结构特征的维吾尔语词缀变体搭配算法;验证词干、词缀结构特征提取的正确性和完整性,并对500个名词词干和300个动词词干进行词缀变体搭配,分别生成9 000个名词和37 800个动词。借助维吾尔语文字校对系统和人工验证的方法,对生成的所有单词进行词缀变体搭配准确性验证;实验结果表明,名词和动词词干搭配词缀准确率分别为98.40%和96.49%,整体搭配准确率为96.86%;最后对搭配错误原因进行了分析。  相似文献   

4.
维吾尔语动词体范畴的有限状态自动机的构建   总被引:1,自引:0,他引:1  
维吾尔语动词的体范畴是维吾尔语动词语法范畴中极为复杂的范畴,也是维吾尔语信息处理中的难点问题之一,计算机对维吾尔语动词体范畴的处理是在对人称、时、否定等语法范畴处理之后才进行处理。但是难点就是体范畴重叠问题的解决。维吾尔语动词的体范畴词尾按照一定的规则连接在词干,这使得维吾尔语动词体范畴的重叠形式可用有限状态自动机形式化描述。因此它根据重叠规则构造从右向左的非确定自动机,之后把从右向左方向的自动机转换成从左向右的非确定自动机,最后把非确定自动机转换成确定自动机来实现维吾尔语动词体范畴的形式化描述。  相似文献   

5.
现代维吾尔语名词词干识别是自然语言处理领域的重要基础性研究,主要目的是从句子中提取名词词干,提高名词识别效率。首先陈述形态分析概念,通过这些形态特征可以准确地识别其词性的意义;其次讨论维吾尔语的词类划分标准、名词的形态特征分析,总结词缀歧义及消解规则;该文提出研究总体思路,设计现代维吾尔语新词中名词识别算法,其中包括特征选择及参数估计、词内部特征、前后依存词特征等;最后将初中、高中物理维吾尔语教材作为验证对象,对名词词干进行统计与分析。  相似文献   

6.
该文通过研究国内外相关的拼写错误查错和纠错方法的理论,再结合维吾尔语自身的特点,提出了基于词典和统计相结合的维吾尔语拼写查错方法。首先,提出基于词典的方法进行词库和词干提取的拼写检查;其次,提出基于N元语法的词缀连接有效性判断模型,对未登录词提出基于N元语法的拼写检查模型;最后,结合以上几种方法各自的优点提出基于混合策略的拼写检查方法,该方法在准确性和检查结果可靠性等方面得到了较显著的提高。  相似文献   

7.
基于噪声信道的维吾尔语央音原音识别模型   总被引:1,自引:0,他引:1       下载免费PDF全文
维吾尔语单词连接构形词缀时,经常发生元音弱化成央音的现象。但对已有形态变化的单词进行形态还原时,使用规则识别弱化央音的原音的效率一般在40%左右。提出基于噪声信道的维吾尔语央音原音识别模型。该模型以弱化词干词尾的二字符、三字符和最后音节作为上下文,建立语言模型和似然度计算公式。在开放测试中,模型的准确率达到82.45%,提高词干提取准确率15%。  相似文献   

8.
哈萨克语词法分析器的研究与实现   总被引:3,自引:1,他引:2  
研究了哈萨克语自动词法分析中的附加成分的切分和词干提取问题,并实现了哈萨克语词法分析系统KazStemmer。系统首先对待切分词使用有限状态自动机进行分析。如果成功则将输出作为切分结果,否则再使用双向全切分和词法分析相结合的改进方法来进行切分。与最大匹配法相比,该方法提高了词干提取的正确率和切分速度。同时,在词干表的搜索中首次采用了改进的逐字母二分词典查询机制来提高了词干提取的效率。  相似文献   

9.
维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%。
  相似文献   

10.
通过对维吾尔文网站的词干应用状况调查,进而对现代维吾尔文词干的提取和应用进行研究。陈述调查使用的语料媒体来源、应用领域、采集的语料时间跨度与统计方法;介绍词干概念;讨论现代维吾尔语词干提取系统;研究词干在网络媒体语料中应用形式;介绍和讨论词干分布结果,最后总结以上内容。  相似文献   

11.
针对现有维吾尔语形态分析研究中存在的数据稀疏、模型构建复杂等问题,提出一种基于机器翻译的维吾尔语形态分析模型,即将维吾尔语词干提取(词性标注)任务中词干提取前(词性标注前)的句子看作是机器翻译模型训练过程中的源语言端,词干提取后(词性标注后)的句子看作是目标语言端;为了达到最佳的效果,加入了外部信息模块和联合校验模块以优化模型。实验结果表明,基于机器翻译框架的维吾尔语形态分析模型在词干提取、词性标注两个任务上优于其他模型。对比英语(词干提取、词性标注)、汉语(分词、词性标注)实验结果,提出的方法更适合维吾尔语形态分析。  相似文献   

12.
针对维吾尔语名词短语指代现象,提出了一种利用栈式自编码深度学习算法进行基于语义特征的指代消解方法.通过对维吾尔语名词短语指称性的研究,提取出利于消解任务的13项特征.为提高特征对文本语义的表达,在特征集中引入富含词汇语义及上下文位置关系的Word embedding.利用深度学习机制无监督的提取隐含的深层语义特征,训练Softmax分类器进而完成指代消解任务.该方法在维吾尔语指代消解任务中的准确率为74.5%,召回率为70.6%,F值为72.4%.实验结果证明,深度学习模型较浅层的支持向量机更合适于本文的指代消解任务,对Word embedding特征项的引入,有效地提高了指代消解模型的性能.  相似文献   

13.
词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。  相似文献   

14.
15.
基于机器学习的维吾尔文文本分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型(VSM)表示下的高维性,采用词干提取和IG相结合的方法对表示空间进行降维。采用基于机器学习的分类算法(kNN和Na?ve Bayes)对维吾尔文文本语料进行了分类实验并分析了实验结果。  相似文献   

16.
维吾尔语是典型的黏着性语言,其派生能力很强,具有丰富的形态变化,同时遵循语音和谐规律,生成过程中会出现弱化、增音、脱落等音变现象.这些特性决定了维吾尔语词法分析的难点,包括词干提取、发生音变字母的还原以及标注.将维吾尔语词的层次结构引入到词法分析研究中,提出了维吾尔语词法分析的有向图模型,该模型将维吾尔语词法分析描述为有向图结构,图中节点表示词干、词缀及其相应标注,其边表示节点之间的转移或生成概率并将此概率作为候选择优的依据.针对维吾尔语在形态变化过程中发生的音变现象,又提出基于词内字母对齐算法的自动还原模型,该模型将音变现象泛化到每个字母上的假设之下,将还原问题转变成类似于词性标注问题,再利用统计方法进行还原.在对新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上进行的实验中,取得了词干提取正确率为94.7%,词干与各词缀切分并标注的F值达到92.6%的好成绩.  相似文献   

17.
基于SVM的维吾尔文文本分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和χ2统计量相结合的方法对表示空间进行降维。采用SVM算法构造了维吾尔文文本分类器。针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号