首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
在介绍新疆自治区的维吾尔、哈萨克和柯尔克孜文(维哈柯文)特点的基础上,提出了维哈柯文显示及排版应达到的目标.提出了维哈柯文显示及排版的模型,并对模型的关键处理--字符自动选形、按音节断行和字符自动拉长等主要技术作了详细论述.通过对比测试,此模型能使维哈柯文的显示及排版美观规整.同时这些技术已经应用到相关项目中,对维哈柯文软件的开发有普遍的参考意义.  相似文献   

2.
论文叙述了基于阿拉伯字母的维吾尔文、哈萨克文、柯尔克孜文的OMR信息采集系统的设计方法。首次提出了考试报名信息采集系统中采用的光标识别维吾尔文编码方案,以及开发工具PB10.0版本基于Unicode编码的维、哈、克文信息在数据库信息处理方面要求,光标识别维吾尔文编码的转换处理方法。论文提出的编码方案和转换方法,对基于阿拉伯字母的维、哈、柯文信息采集应用领域有一定的指导和参考意义。  相似文献   

3.
维、哈、柯多文种全文搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
在现有基于Web的全文信息检索技术的基础上,深入研究维、哈、柯文网络信息检索现状和维、哈、柯文语言文字计算机处理方面的关键问题,介绍基于Web的维、哈、柯全文搜索引擎的设计和实现。通过一个少数民族语种的搜索引擎的设计和实现,详细描述维、哈、柯多文种全文搜索引擎系统结构,每个模块的功能、关键问题及解决方法,为维、哈、柯少数民族网络用户提供了全新的信息检索技术和手段。  相似文献   

4.
提出一种联合两种特征的手写体维文字符识别算法。该算法对手写体维文字符图像进行实值Gabor能量特征和方向线素网格特征的提取,将实值Gabor滤波器的128维能量特征和方向线素的128维网格特征结合起来,使用KNN分类器对两种特征进行联合分类。对手写体维文字符数据库中的样本分别进行手写体维文字符特征识别和维文字符笔迹特征识别。实验结果表明,和采用一种特征的识别算法比较,进一步提高了手写体维文字符的识别率。该算法也可用于手写体阿拉伯文字符的识别。  相似文献   

5.
本文面向维哈柯文自动选择显示字形研究,分析了新疆地区普遍使用的维吾尔、哈萨克文和柯尔克孜文变形显示的特点,简要介绍了最新Open Type 字体技术的结构与操作步骤,基于该字体技术设计了一种通用维哈柯文自动选形引擎,通过分析文字的连接类型,构建自动选形规则库,按照规则绑定字形标签,并应用Open Type 字体解释引擎按照字形标签完成字符替换与置位操作。并且在永中office 维哈柯文版本上实现了该自动选形引擎, 经实际应用测试证明,该字体引擎完全实现了维哈柯文变形显示的要求。  相似文献   

6.
LINUX下维、哈、柯文多语种图形化处理平台的设计与实现   总被引:3,自引:2,他引:3  
针对维吾尔文字、哈萨克文字、柯尔克孜文字(以下简称“维哈柯文”)的特点以及进行维哈柯文、西文等多语种混合处理时的特殊需求,本文通过对Linux的I18N体系中NLS(National Language Support)研究分析,提出了基于Linux的多语种图形化处理平台的设计目标与总体架构。该平台由维哈柯文本地化环境、维哈柯文显示、自适应维哈柯文输入和维哈柯文打印输出等4个子系统的十余个模块组成。本文详细介绍了各子系统主要模块的实现技术。通过在redhat linux 810、turbolinux上测试表明,该平台在桌面环境、编辑软件、网络浏览、数据库软件、多媒体软件、图形处理软件等应用中均能较好的实现维哈柯文、汉文、西文的混合输入、显示、编辑、排版、打印等功能。  相似文献   

7.
在调查和分析维哈柯文字库存在问题的基础上,依据国家制定的维哈柯文字符集标准与字形标准,明确了维哈柯文字库标准符合性检测的含义与内容,结合对TrueType字形技术,TrueType字库文件基本构成的详细研究,提出了完整的维哈柯文字库标准符合性检测的方案与算法,并实现了维哈柯文字库标准符合性检测工具的开发.实验结果表明检测方案完整、可行,能较好地解决维哈柯文字库标准符合性检测问题,对其它文字的字库标准符合性检测也具有一定的借鉴意义.  相似文献   

8.
该文以维吾尔语和哈萨克语这一组相近语言为例,在哈语语料受限的情况下,使用领域外语料增补原始语料,经同化后提高了在口语风格短文本上进行语种识别的精确度。该文分析了维、哈两种语言的词形学特点,设计了多种特征,构建了一个最大熵分类器,在测试集上识别维语和哈语口语风格短文本的精确度达到95.7%,而CNN分类器的精确度仅为69.1%。实验结果证明该系统对其他语种口语风格短文本的语种识别亦具有适用性。  相似文献   

9.
研究维、哈、柯全文搜索引擎检索器的关键问题,提出有效的解决方法,包括在用户计算机没有安装本地输入法和字库的情况下输入维、哈、柯文检索词并正常显示搜索结果,针对具有高拼写错误率的维、哈、柯文检索词进行检错、纠错处理,返回给用户正确而全面的搜索结果等。实验结果表明,该方法为用户提供方便的同时明显提高了维、哈、柯文搜索引擎的查全率和查准率。  相似文献   

10.
目前,限制条件下的车牌识别算法比较成熟,广泛应用于各种车牌识别系统。由于拍摄角度差异较大、车辆运动模糊等因素的影响,中文车牌识别仍具有较大的挑战性。针对上述问题,该文放弃单一的端到端深度学习的车牌识别方法,提出了一种检测、分类一体化的逐级车牌识别算法,采用逐级对象检测策略与字符分类相结合预测车牌的字符结果。在此基础上,提出一种多锚点字符位置回归算法,进一步精确回归所有车牌字符的局部区域位置信息。同时为了满足字符检测和字符分类的需求,解决现有车牌数据集类别不均衡的问题,该文贡献了一系列配套的车牌数据集。充分实验表明,该方法在不同数据集上都能达到目前的先进水平,并在公开数据集CCPD上准确率达到了99%,在开放场景中具备高精度和高鲁棒性。  相似文献   

11.
将维吾尔文从阿拉伯文、哈萨克文、柯尔克孜文等以阿拉伯字母为基础书写的类似文字中识别出来,是维文信息处理的基础。作者对维吾尔字符的编码优化后使用N元语法模型实现了维吾尔文的快速语种判别,准确率超过98%。经过错误分析,发现错误判别的文本主要集中在论坛和微博客中,这些文本有效字符数太少,语言特征不充分。最后作者计算了四种语言真实网络文本中的所有公共子串,并对文种判别所需要的最短字符串长度进行了分析。  相似文献   

12.
穆妮热·穆合塔尔      李晓    杨雅婷    艾孜尔古丽  周喜   《智能系统学报》2018,13(3):452-457
在自然语言理解、机器翻译、舆情分析等自然语言处理领域中,维吾尔谚语识别是整个文本实体识别的重要组成部分。为满足维吾尔谚语信息化的需求,本文构建了比较完善的维吾尔谚语语料库。同时,从传统语言学角度对维吾尔谚语的语法、语义结构进行分析,构建了一个由维吾尔谚语功能语类(词缀)组成的、专属维吾尔谚语规则的知识库,并将此知识库与自然语言处理技术相结合,实现一个既能够从文本中识别出维吾尔谚语,又能提供维汉互译等功能的信息软件系统。该系统也为开展计算机理解与处理维吾尔文字奠定了一个崭新的基础。  相似文献   

13.
以汉、维、哈、柯等具有多种书写方向的多文种电子词典软件系统开发为背景,首先指出了其中与语种相关的技术难点,提出相应的解决方案,即通过XML的标注属性和字母的UNICODE区域从属关系来判断词语的书写方向;其次计算组成词语的各个字母来自不同语言的概率来判断词语的文种;最后对开源索引工具Lucene进行修改将其成功应用到了电子词典中词库的索引中。应用结果表明该技术方案的可行性和有效性。  相似文献   

14.
印刷维吾尔文本切割   总被引:1,自引:0,他引:1  
我国新疆地区使用的维吾尔文借用阿拉伯文字母书写。因为阿拉伯文字母自身书写的特点,造成维文文本的切割和识别极其困难。本文在连通体分类的基础上,结合水平投影和连通体分析的方法实现维文文本的文字行切分和单词切分。然后定位单词基线位置,计算单词轮廓和基线的距离,寻找所有可能的切点实现维文单词过切割,最后利用规则合并过切分字符。实验结果表明,字符切割准确率达到99 %以上。  相似文献   

15.
万芳  袁保社 《现代计算机》2011,(15):71-73,80
在新疆地区应用的信息系统必须支持维吾尔文、哈萨克文和柯尔克孜文,而维哈柯文由于组合方式与编辑方向的特殊性在系统中需要特别的处理。描述如何运用Eclipse 3.2和Tomcat 5.0开发多元化采集数据的人口信息管理系统,并以维吾尔文、哈萨克文、柯尔克孜文和汉文等多语种方式显示、处理、存储和打印信息。通过在社区、乡镇、县的实际运行,证明该系统使用简便、运行稳定、数据安全、综合性能良好。该软件的推广,能够进一步增强人口服务管理,全面提高少数民族地区社区人口管理工作现代化水平。  相似文献   

16.
哈萨克语作为新疆少数民族语言之一,其词频统计作为自然语言处理的基础性课题,成为需要迫切解决的问题。基于此,介绍Zapf 定律及哈萨克语词频统计之间的联系。对连续输入哈萨克语字符串进行切分,再输入切分后的哈萨克语词串,由此得到哈萨克语词典。在词典中存储词形不同的哈语词组,以及这些词组出现的频率,并进行哈萨克语的统计实验,结果说明哈萨克语词频之间存在内在联系,同时验证哈萨克词频符合Zapf 的幂率定律。  相似文献   

17.
该文阐述了对词一级的维吾尔语框架语义网络构建过程中,制订和规范化维吾尔语框架语义角色的语义类型和标注标记符集、短语类型和标注符号集、句法功能的标注符号集的研究。研究内容对基于阿拉伯字符的维吾尔语框架语义成分的依存关系、语义角色分解与自动识别技术,语义角色知识库的构建和自动标注等相关技术提供基础研究服务。  相似文献   

18.
哈萨克语词性自动标注研究初探   总被引:1,自引:0,他引:1       下载免费PDF全文
词性标注在很多信息处理环节中都扮演着关键角色。哈萨克语作为新疆地区通用的少数民族语言之一,自然语言处理中的一些基础性的课题同样成为迫切需要解决的问题。分析了哈萨克语的构形语素特征,基于词典的一级标注基础上,采用统计方法,训练得到二元语法的HMM模型参数,运用Viterbi算法完成了基于统计方法的词性标注,最后运用哈语规则库对词性标注进行了修正。对单纯使用统计方法和以统计为主辅以规则修正的方法进行了比对测试,结果表明后者排岐正确率有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号