首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
维吾尔文和阿拉伯文是采用阿拉伯文字母的从右向左书写的连写文字。它们识别方法的研究对于多文种文本图像内容的利用具有重要意义。利用HTK工具包,分别建立基于隐马尔科夫模型HMM(Hidden Markov Model)的印刷体维吾尔文和阿拉伯文识别系统,其中特征提取部分采用分布密度特征和局部方向特征。研究利用HTK工具建立维吾尔文和阿拉伯文统计语言模型,并将语言模型用于改进识别系统性能。实验结果表明采用统计语言模型可有效提高文字识别系统性能。其中,在包含24 000个单词的印刷体维吾尔文测试集上,通过利用语言模型识别率从78.28%提高到97.45%;在包含759个单词的印刷体阿拉伯文测试集上,通过利用语言模型识别率从79.07%提高到85.80%。  相似文献   

2.
3.
随着社会的发展,语言也在不断地发展变化。为了切实掌握维吾尔语当前使用情况,及时把握维吾尔语年度用词的第一手资料,对网络媒体的现代维吾尔语用词进行研究。首先对现代维吾尔语词语的结构进行分析,并给出描述现代维吾尔语词法的结构模型;然后介绍调查使用的语料媒体来源、应用领域、采集的语料时间跨度与统计方法以及统计结果讨论。  相似文献   

4.
针对维吾尔文情感语料库标注体系不规范、语料库规模小、没有合适的标注平台等问题,分析英文和中文比较著名情感语料库的优点,结合维吾尔语文本的特点,建立维吾尔文情感语料标注规范,利用Python语言构建集数据采集与标注为一体的情感标注平台,最后构建在舆情分析和舆情监控中可以应用的维吾尔文情感语料库。实验结果表明,该标注规范具有可扩展性和实用性,标注平台可以有效地减轻标注人员的工作量,提高情感语料库的质量,情感语料库可以用于舆情分析任务。   相似文献   

5.
针对目前的笔迹鉴别研究只是单一针对纹理特征和概率分布密度.提出一种采用边缘方向分布特征和LBP纹理特征相融合的笔迹鉴别方法。该方法利用概率密度分布思想从边缘轮廓图像中提取边缘方向分布特征,使用直方图向量提取LBP纹理特征。并且采用几种距离公式进行相似性度量。所提方法简单可行并很好地描述了维吾尔文的书写习惯和特征,取得较好的鉴别结果。  相似文献   

6.
基于信息熵的DNA免疫遗传算法   总被引:5,自引:0,他引:5  
郑建刚  王行愚 《计算机仿真》2006,23(6):163-165,208
针对标准遗传算法在优化应用中遇到的诸如局部搜索能力差、计算量大、对较大搜索空间适应能力差和早熟收敛等问题,该文通过将免疫算法引入到遗传算法中,利用免疫算法的免疫记忆、自我调节和多样性保持功能弥补其不足,提出了一种基于信息熵的DNA免疫遗传算法.该算法采用DNA链对抗体进行编码,利用信息熵来表示抗体间的亲和度及浓度,并提出了一种新的评估指标--聚合亲和度,有效地实现了抗体群的自我调节和多样性保持策略.最后,利用典型测试函数验证了本文方法的有效性.  相似文献   

7.
论文根据维吾尔文的特点和难点,通过分析和研究,实现了维吾尔文印刷体识别技术中的预处理部分.预处理完成的工作有去除噪点、基线评估、倾斜校正、联体段切分、骨架细化等.  相似文献   

8.
基于信息熵的免疫遗传算法聚类分析   总被引:2,自引:0,他引:2       下载免费PDF全文
傅平  罗可 《计算机工程》2008,34(6):227-228
介绍了基于信息熵的免疫遗传算法的聚类分析方法。将免疫算法引入到遗传算法中,利用免疫算法的免疫记忆、自我调节和多样性保持功能弥补了标准遗传算法的局部搜索能力差、计算量大和早熟收敛等问题。采用DNA进行抗体编码,利用信息熵来表示抗体间亲和度及浓度,并采用聚合亲和度,实现了抗体群的自我调节和多样性保持策略。实验表明,该算法优于标准遗传算法。  相似文献   

9.
从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法.该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文.整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷.实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性.  相似文献   

10.
传统的分词方法将一个维吾尔文语义词(多词关联模式)拆分成与词意义不符的若干个片段,因此在维吾尔语文本分析及文本处理过程中导致许多问题,严重影响文本处理效率.提出了一种维吾尔文组词的全新概念,用互信息作为相邻单词间关联程度的度量,实现了基于分段式策略和增量式策略的两种自适应组词算法,并与传统的分词方法得到的词汇表进行对比分析.实验结果表明,组词算法能够非常有效地提取文本中的语义词,两种算法在大规模文本集上的组词准确率分别达到了84.31%和88.24%.  相似文献   

11.
近年来大词汇量连续语音识别技术得到了迅速的发展,国内外研究机构加大了对汉语和英语语音识别技术的研究,然而,维吾尔语语音识别技术的研究工作最近才起步。建立了面向大词汇量的维吾尔语语音语料库,研究了维吾尔语声学模型和语言模型建模技术、解码技术,进行了面向大词汇量的维吾尔语连续语音识别实验。对维吾尔语大词汇量连续语音识别技术进一步发展中存在的问题进行了讨论。  相似文献   

12.
维吾尔文Bigram文本特征提取   总被引:1,自引:0,他引:1  
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。在维吾尔文文本分类中,对于单词特征不能更好地表征文本内容特征的问题,在分析了维吾尔文Bigram对文本分类作用的基础上,构造了一个新的统计量CHIMI,并在此基础上提出了一种维吾尔语Bigram特征提取算法。将抽取到的Bigram作为文本特征,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,Bigram作为文本特征能够提高维吾尔文文本分类的准确率和召回率并且通过实验验证了该算法的有效性。  相似文献   

13.
在维吾尔语连续语音识别试验的声学层建模基础上,引用DDBHMM模型将上下文相关的三音子作为基本识别单元,并提出一种状态绑定的思想,对状态进行优化。为得到更充分的训练模型,提高识别效率,对语料库进行扩充,在多组对比试验的基础上,分析扩充前后对声学层识别速度、准确率等各个方面的影响。  相似文献   

14.
本文研究了构建现代维吾尔语语料库的关键技术与方法,特别是现代维吾尔语语料库的构建,并对现代维吾尔语语料预处理技术,现代维吾尔语语料统计技术,现代维吾尔语词干提取技术,现代维吾尔语数据分析技术进行了研究;研制了现代维吾尔语常用词候选表, 从词语的使用频度和词语的分布两方面对词语进行了基本考察,将维吾尔语词语的“词种数、频次、频率、文本数、词长”作为常用词候选表的依据。  相似文献   

15.
针对后缀树聚类选取基类时,基类短语出现信息不规范、重复和冗余的问题,提出了一种改进后缀树聚类算法。该算法首先以短语互信息算法改进基类的选取,选出遵守维吾尔语语法规则的基类短语;然后,利用短语归并算法对选取的重复基类短语进行归并;最后,在前两步的工作基础上,利用短语去冗余算法处理冗余的基类短语。实验证明,与传统后缀树聚类(STC)相比,改进后缀树聚算法的全面率、准确率都得到了提高。这表明,改进算法有效地改善了聚类效果。  相似文献   

16.
印刷维吾尔文本切割   总被引:1,自引:0,他引:1  
我国新疆地区使用的维吾尔文借用阿拉伯文字母书写。因为阿拉伯文字母自身书写的特点,造成维文文本的切割和识别极其困难。本文在连通体分类的基础上,结合水平投影和连通体分析的方法实现维文文本的文字行切分和单词切分。然后定位单词基线位置,计算单词轮廓和基线的距离,寻找所有可能的切点实现维文单词过切割,最后利用规则合并过切分字符。实验结果表明,字符切割准确率达到99 %以上。  相似文献   

17.
本着构建维吾尔语依存树库的目的,该文根据黏着性语言的结构特点及其在依存属性中对依存角色的影响,提出构建维吾尔语依存树库时需要考虑的几点要素。其包含依存粒度的确定、维吾尔语依存关系、标注原则、依存树结构以及标注工具的设计与实现。然后根据《维吾尔语依存树库标注手册》人工标注了3 400多条句子并从三个角度对依存树库信息做了统计分析。  相似文献   

18.
针对基于维吾尔语的N-gram模型统计数据稀疏问题造成统计模型识别性能降低,研究针对政府文献和报告领域的语料进行了1到3元文法统计,采用加法、线性插值、Witten-Bell和Kneser-Ney平滑算法进行了约束。结果表明,本实验中Kneser-Ney平滑技术可以大大降低统计维吾尔语的N-gram模型的困惑度。  相似文献   

19.
三音素模型的维吾尔语最佳文本选取算法   总被引:1,自引:1,他引:1       下载免费PDF全文
利用上下文关联的思想,提出了三音素模型的大型句子文本库中选取最佳句子文本的算法,充分考虑了每个句子涵盖的不同三音素模型,利用贪婪算法去除了众多句子之间的冗余度,从而达到了选择文本容量最小化的目标。通过C#语言实现了本算法,给出了算法流程和算法性能分析,结果表明此算法的有效性和实用性。  相似文献   

20.
鉴于维吾尔语丰富的形态变化产生大量单词引起的集外词(out of vocabulary,OOV)问题,为了定量研究OOV对维吾尔语语音识别的影响,采用控制语料库测试集OOV的算法及最佳文本挑选算法对不同OOV的测试集进行实验,算法通过Python语言实现.应用该算法进行电话语音库的文本转写,构建了维吾尔语的电话语音库.实验结果表明,该控制测试集OOV的方法能够有效地提高维吾尔语语音识别率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号