首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
情感词汇的获取是文本倾向性分析的基础。为了解决人工识别方法低效的不足,并为维吾尔语情感词的研究及情感词词典的创建提供一些可供选择的方法和思路,该文首先分析了维吾尔语情感词汇在上下文中表现的特征,并结合维吾尔语本身的语法特征,建立了扩展的维吾尔语新增特征模型,与词频逆文档频率(TF-IDF)算法相结合,实现了维吾尔语情感词汇的识别。实验结果指出该特征模型有效地提高了情感词汇的识别率。  相似文献   

2.
基于词法分析的维吾尔语元音弱化算法研究   总被引:5,自引:2,他引:3  
重点研究维吾尔语中弱化现象及处理算法,并分析了维吾尔语词法结构,音节结构,词干—词缀连接形式等技术。处理弱化问题时,要根据词干库检查弱化属性,并根据语音和谐规律分析是否正确连接。该算法在文本检索、词频统计、文本校对等研究领域得到很好的应用。运行结果表明该算法具有可行性和有效性,并在实践中不断完善。  相似文献   

3.
随着社会的发展变化,语言生活也在不断地发展变化。语言监测是客观描写语言、掌握语言发展动态、进行语言规划的必要手段。以现代维吾尔语数据分析技术为手段,小学、初中维吾尔语文教材词频表作为研究对象,对用词分布情况进行研究,切实掌握小学初中维吾尔语文教材中用词情况。首先陈述现代维吾尔语语言监测的研究概况;其次介绍数据分析系统的组成;最后阐述小学、初中维吾尔语文教材用词研究状况包括研究频次与词种的关系、词种覆盖率、词种分布分析等项目并讨论与分析自动形成词频与词种、词种覆盖率、词种分布等方面的结果。  相似文献   

4.
该文将初中数学维吾尔文教材作为研究对象,根据维吾尔语的特点和统计学原理理论,从计算语言学角度调查初中数学维吾尔文教材用词干情况。该文主要研究维吾尔语词干、教材概貌、数据处理技术相关概念及其算法及现代维吾尔语语料处理工具,获取教材中词干基本情况、新增词干、初中数学教材高频词干,开展了初中数学维吾尔文教材词干调查,为维吾尔语研究、维吾尔文数学教学与教材编纂等提供参考依据,从而更加积极有效地促进维吾尔语语言本身研究及其信息处理的发展。  相似文献   

5.
针对维吾尔语情感词汇获取难度大、人工扩充情感词汇工作量大且效率低的缺陷,结合维吾尔语主观文本语料的具体特点,分析维吾尔语情感词汇在情感语料中表现的特征,建立维吾尔语情感词汇的特征模板,利用条件随机场模型实现维吾尔语情感词汇的自动识别方法。实验结果验证该方法能有效自动识别情感词汇,降低人工识别情感词汇的工作量。  相似文献   

6.
通过心理语言学的词汇判断实验范式来研究维吾尔语屈折词和派生词在大脑心理词典中的表征及存储形式。实验一是维吾尔语屈折词的表征及加工研究,实验二是维吾尔语派生词的表征及加工研究。实验一的行为实验结果揭示人脑加工维吾尔语屈折词时需要对它进行形态分析。实验二的行为数据却显示派生词和单语素词的加工过程是相同的。本文实验结果显示维吾尔语派生词、屈折词的加工形式是彼此独立和不同的过程,维吾尔语屈折词是分解加工,而派生词进行整体加工。  相似文献   

7.
本文阐述了以配价作为基本描写法、真实语料为事实依据的维吾尔语框架语义知识库(简称框架网FrameNet)的构建,该知识库在构建维吾尔语词汇及其所属框架的语义词典等诸多领域有着广阔的应用空间和发展前景。提出了研究维吾尔语中句法功能和概念结构(也就是语义结构) 之间的关系, 以及建立用于自然语言处理的维吾尔语网上词汇知识库的意义。在维吾尔语的研究中引入了框架语义知识库(框架网)。框架语义知识库作为一种网上词汇语料库, 包括对每个词位( lexeme)的各个涵义的句法、语义信息的详尽描述。本文为维吾尔语框架语义知识库中各个框架元素的句法、语义特征的说明等自然语言信息处理研究提出新的研究思路,对基于配价的维吾尔语框架语义知识库构建的方法进行了探讨。  相似文献   

8.
维吾尔语双音节词元音格局研究   总被引:1,自引:0,他引:1  
从高自然度语音合成与高精度语音识别技术研究的实际应用需求出发,采用实验语音学的方法研究了维吾尔语双音节词中的元音格局。为此,从"维吾尔语语音声学参数库"中选取了包括维吾尔语元音的双音节词,并分别对词首音节和词尾音节中的元音共振峰频率值进行统计分析,利用Joos方法比较详细地归纳出了维吾尔语词首和词尾音节元音格局以及它们之间的区别,绘制出了维吾尔语双音节词元音的共振峰模式。首次用实际实验数据验证了维吾尔语元音舌位特点符合传统"口耳之学"结论。研究结果对维吾尔语语言乃至整个阿尔泰语系语言的语音研究及应用开发具有较高的参考价值。  相似文献   

9.
维吾尔语是黏着性语言,利用丰富的词缀可以用同样的词干产生超大词汇,给维吾尔语语音识别的研究工作带来了很大困难。结合维吾尔语自身特点,建立了维吾尔语连续语音语料库,利用HTK(HMMToolKit)工具实现了基于隐马尔可夫模型(HMM)的维吾尔语连续语音识别系统。在声学层,选取三音子作为基本的识别单元,建立了维吾尔语的三音子声学模型,并使用决策树、三音子绑定、修补哑音、增加高斯混合分量等方法提高模型的识别精度。在语言层,使用了适合于维吾尔语语音特征的基于统计的二元文法语言模型。最后,利用该系统进行了维吾尔语连续语音识别实验。  相似文献   

10.
多词领域术语抽取是自然语言处理技术中的一个重点和难点问题, 结合维吾尔语语言特征,该文提出了一种基于规则和统计相结合的维吾尔语多词领域术语的自动抽取方法。该方法分为四个阶段: ①语料预处理, 包括停用词过滤和词性标注; ② 对字串取N元子串, 利用改进的互信息算法和对数似然比率计算子串内部的联合强度, 结合词性构成规则, 构建候选维吾尔语多词领域术语集; ③ 利用相对词频差值, 得到尽可能多的维吾尔语多词领域术语; ④ 结合C_value值获取最终领域术语并作后处理。实验结果准确率为85.08%, 召回率为 73.19%, 验证了该文提出的方法在维吾尔语多词领域术语抽取上的有效性。  相似文献   

11.
维吾尔语三音节词韵律特征声学分析   总被引:3,自引:0,他引:3  
本文从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了以开音节和闭音节结尾的333个三音节词的韵律参数,包括元音时长、音高和音强进行了统计分析,归纳了其元音时长、音高和音强分布模式,探讨了维吾尔语三音节词的韵律节奏模式与三音节词重音之间的关系问题,其目的是为了提高语音合成的自然度即更好的为自然语言处理服务。本项研究对维吾尔语语言乃至整个阿尔泰语系语言的韵律研究具有较高的参考价值。  相似文献   

12.
维吾尔语双音节词韵律特征声学分析   总被引:3,自引:0,他引:3  
该文从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了以开音节和闭音节结尾的969个双音节词的韵律参数,包括元音时长、音高和音强进行了统计分析,归纳了其元音时长、音高和音强分布模式,探讨了维吾尔语双音节词的韵律节奏模式与双音节词重音之间的关系问题,其目的是为了提高语音合成的自然度。我们相信本项研究对维吾尔语语言乃至整个阿尔泰语系语言的韵律研究具有较高的参考价值。  相似文献   

13.
维吾尔语事件伴随关系是维吾尔语语言中常见且重要的关系之一。结合对维吾尔语语言特点的研究,该文提出一种基于深度信念网络的维吾尔语事件伴随关系识别方法,根据维吾尔语语言特性和事件伴随关系的特点,抽取12项基于事件结构信息的特征;同时充分利用事件对所对应的两个触发词之间的语义信息,引入Word Embedding计算两个触发词之间的语义相似度。而后融合两类特征作为DBN模型的输入进行训练,最后将训练结果作为softmax分类器的输入实现维吾尔语事件伴随关系的识别。该方法用于维吾尔语事件伴随关系的识别准确率P为81.89%、召回率R为84.32%、F1值为82.48%。实验结果表明,与支持向量机方法相比,基于DBN模型的方法取得更好的识别效果。  相似文献   

14.
结合对维吾尔语语言的特点分析,该文提出一种基于深度卷积神经网络(deep convolutional neural networks,DCNNs)联合长短期记忆网络(long-short term memory,LSTM)实现的维吾尔语文本突发事件识别方法。该方法提取突发事件包含六大特征块,并在特征集中引入富含词汇语义及上下文位置关系的Word Embedding,利用DCNNs对黏着性语言特征抽象化的学习能力抽取事件句中的高阶局部特征,以此作为LSTM网络的输入,利用其对于事件句中抽象含义序列关系的捕获特性获取全局特征,训练 Softmax分类器完成维吾尔语突发事件的识别任务。该方法在维吾尔语突发事件识别中的准确率达到80.60%,召回率81.39%,F值80.99%。实验结果表明,与不同层数的DCNNs和独立的LSTM网络相比,DCNNs-LSTM模型更具备挖掘隐含上下文深层语义信息的能力,对Word Embedding特征项的引入有效地提高了模型识别性能。  相似文献   

15.
基于噪声信道的维吾尔语央音原音识别模型   总被引:1,自引:0,他引:1       下载免费PDF全文
维吾尔语单词连接构形词缀时,经常发生元音弱化成央音的现象。但对已有形态变化的单词进行形态还原时,使用规则识别弱化央音的原音的效率一般在40%左右。提出基于噪声信道的维吾尔语央音原音识别模型。该模型以弱化词干词尾的二字符、三字符和最后音节作为上下文,建立语言模型和似然度计算公式。在开放测试中,模型的准确率达到82.45%,提高词干提取准确率15%。  相似文献   

16.
张博旭  蒲智  程曦 《计算机工程》2023,(6):292-299+313
维吾尔语属于低资源语言和黏着性语言,现有维吾尔语文本分类方法缺少足够的语料来训练维吾尔语预训练模型。因此,维吾尔语无法基于预训练模型提取有效的句向量信息。现有的文本分类方法利用深度学习模型提取词向量,然而,维吾尔语具有特征稀疏且维度偏高的特点,使得其在文本分类上的效果较差。为此,提出基于提示学习的维吾尔语文本分类方法。基于提示学习,采用多语言预训练模型Cino构造不同的模板,利用模型的掩码预测能力对不同的掩码位置进行预测。为避免掩码预测的词汇信息具有多样性,将模板掩盖掉的词向量代替整体的句向量,利用掩码模型的预测能力,以有限大小的向量表示当前句子的语义信息,将下游任务靠近模型的预训练任务,减少在微调阶段两者不同所造成的影响。在爬取维吾尔语网站所构建新闻数据集上进行的文本分类实验结果表明,相比Cino微调预训练模型,融合提示学习的Cino模型的F1值最高可达到92.53%,精准率和召回率分别提升了1.79、1.04个百分点,具有更优的维吾尔语文本分类效果。  相似文献   

17.
维吾尔语是一种派生类语言,其词是由词干和词缀连接而成的。其中,词干是有实际意义的词汇单元,词缀提供语法功能。该文提出了基于词干单元和长短期记忆(LSTM)网络的维吾尔语短文本分类技术。用基于词-词素平行训练语料的稳健词素切分和词干提取方法,从互联网下载的文本中提取其词干,以此构建词干序列文本语料库,并通过Word2Vec算法映射到实数向量空间。然后用LSTM网络作为特征选择和文本分类算法进行维吾尔语短文本分类实验,并得到95.48%的分类准确率。从实验结果看,对于维吾尔语等派生类语言而言,特别是对于带噪声的文本,基于词干的分类方法有更多优异的性能。  相似文献   

18.
一种维吾尔语句子相似度算法的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
基于实例的机器翻译是一种重要的机器翻译技术,句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的维吾尔语机器翻译研究,维吾尔语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。提出了一种维吾尔语句子相似度的计算方法,采用的基于词形特征的粗选算法、散列单词倒排索引能够有效提高算法的查找速度,快速从语料库中筛选出候选句子集合;多策略精选算法中采用基于维吾尔语词频的单词区分度算法、连续单词序列抽取算法,可以有效衡量两个维吾尔语句子的相似程度,实验结果证明算法是有效的。  相似文献   

19.
以互联网为代表的信息技术的发展使人们索取信息变得前所未有的便捷,同时也对如何有效利用信息提出了挑战。自动文摘技术通过自动选择文档中的代表句子,可以极大提高信息使用的效率。近年来,基于英文和中文的自动文摘技术获得广泛关注并取得长足进展,而对少数民族语言的自动文摘研究还不够充分,例如维吾尔语。构造了一个面向维吾尔语的自动文摘系统。首先利用维吾尔语的语言学知识对文档进行预处理,之后对文档进行了关键词提取,利用这些关键词进行了抽取式自动文摘。比较了基于TF-IDF和基于TextRank的两种关键词提取算法,证明TextRank方法提取出的关键词更适合自动文摘应用。通过研究证明了在充分考虑到维吾尔语语言信息的前提下,基于关键词的自动文摘方法可以取得让人满意的效果。  相似文献   

20.
本着构建维吾尔语依存树库的目的,该文根据黏着性语言的结构特点及其在依存属性中对依存角色的影响,提出构建维吾尔语依存树库时需要考虑的几点要素。其包含依存粒度的确定、维吾尔语依存关系、标注原则、依存树结构以及标注工具的设计与实现。然后根据《维吾尔语依存树库标注手册》人工标注了3 400多条句子并从三个角度对依存树库信息做了统计分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号