首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
近年来,随着互联网技术在新疆地区的发展和普及、微信、QQ、论坛、微博等网络交流逐渐成为新疆人民日常交流的主要方式。由于历史和地理原因,网络平台上的维吾尔语言呈现传统维文、拉丁维文、西里尔维文等多种字母体系共存的“一语多文”的特点。由于这些文字缺乏科学的对应标准、互相转换的工具等原因,造成实际使用中存在很多问题,给维吾尔网民的日常互联网使用及“一带一路”沿线国家间和居民间的沟通和交流带来不便。为此首先研究传统维文、拉丁维文及西里尔维文之间的渊源,以及三种字母目前的对应标准存在的问题和转换规则。借此提出三种字母之间的Unicode字符编码转换算法,以期解决国内外维吾尔人间的在线文字交流困难的问题,进而实现维文搜索引擎系统中使用后两种文字的信息检索。通过实验验证了所提的LUTC和CUTC转换算法的字符编码转换效率有明显提升,拉丁维文和西里尔维文的信息检索效果与传统维文一致。  相似文献   

2.
现有的维文敏感信息检测与过滤研究只限于传统维文,而现在互联网上的维文使用呈现传统维文和拉丁维文共存的“一语双文”特点,因此,研究多形式维文的敏感信息过滤算法对新疆的网络安全及社会稳定和长治久安总目标的实现有重要的实际意义。研究拉丁维文和传统维文的Unicode编码特征,提出它们间的编码转换算法ULTC(Uyghur Latin Traditional Conversion),通过该算法在已有的语料库中添加拉丁维文敏感信息语料,从而构建多形式维文敏感信息语料库ULSC(Uyghur Latin Sensitive Corpus);在语料库的基础上构建传统维文和拉丁维文一体化的多形式维文敏感信息决策树LUDT(Latin Uyghur Decision Tree),在决策树的基础上提出多形式维文敏感信息过滤算法USF(Uyghur Sensitive Information Filter)。实验结果表明,USF算法具有较高的查全率。  相似文献   

3.
将维吾尔文从阿拉伯文、哈萨克文、柯尔克孜文等以阿拉伯字母为基础书写的类似文字中识别出来,是维文信息处理的基础。作者对维吾尔字符的编码优化后使用N元语法模型实现了维吾尔文的快速语种判别,准确率超过98%。经过错误分析,发现错误判别的文本主要集中在论坛和微博客中,这些文本有效字符数太少,语言特征不充分。最后作者计算了四种语言真实网络文本中的所有公共子串,并对文种判别所需要的最短字符串长度进行了分析。  相似文献   

4.
随着Internet的发展,基于多种文字信息的维文信息也越来越多。为了获取有用的维文Web信息,必须要创建符合维文信息检索需求的搜索引擎。文章从分析维文文字的多种性、编码的多样性以及维文Web表示的特殊性等问题的基础上,探讨如何利用Google Web API来实现基于维文信息的单机版元搜索引擎。  相似文献   

5.
由于手写体维文字符的特点以及个人书写风格不同,会造成维文字符的倾斜,影响字符的特征提取和识别.提出了一种基于Hough变换的手写体维文双线倾斜校正算法.实验结果表明,该算法能够准确、快速地检测出倾斜手写体维文字符的倾斜角度,实现字符的倾斜校正.  相似文献   

6.
目前针对维文搜索引擎的研究还比较少,本文在开源项目Lucene搜索引擎的基础上,通过对数据源、分词和停用词的设置构造了一个实验性的维文搜索引擎,并针对维文的特点改进了搜索方法。在手工构造的语料上的搜索实验表明,基于前缀匹配的搜索方法改进了维文搜索引擎的效果。  相似文献   

7.
根据拉丁维文的特点,分析了拉丁维文常见的拼写错误类型,提出了一种将最小编辑距离、基于有向图模型的词语切分和trigram语言模型融合的方法,实现了基于上下文的拉丁维文的自动拼写校对系统,从而大大提高了拉丁维文的校对准确率.在新疆大学提供的维文语料库的测试中,拉丁维文的校对准确率达到了90.1%.  相似文献   

8.
印刷维吾尔文本切割   总被引:1,自引:0,他引:1  
我国新疆地区使用的维吾尔文借用阿拉伯文字母书写。因为阿拉伯文字母自身书写的特点,造成维文文本的切割和识别极其困难。本文在连通体分类的基础上,结合水平投影和连通体分析的方法实现维文文本的文字行切分和单词切分。然后定位单词基线位置,计算单词轮廓和基线的距离,寻找所有可能的切点实现维文单词过切割,最后利用规则合并过切分字符。实验结果表明,字符切割准确率达到99 %以上。  相似文献   

9.
提出一种联合两种特征的手写体维文字符识别算法。该算法对手写体维文字符图像进行实值Gabor能量特征和方向线素网格特征的提取,将实值Gabor滤波器的128维能量特征和方向线素的128维网格特征结合起来,使用KNN分类器对两种特征进行联合分类。对手写体维文字符数据库中的样本分别进行手写体维文字符特征识别和维文字符笔迹特征识别。实验结果表明,和采用一种特征的识别算法比较,进一步提高了手写体维文字符的识别率。该算法也可用于手写体阿拉伯文字符的识别。  相似文献   

10.
在研究Windows CE.Net维语化的过程中碰到的一个难点就是嵌入式平台维语输入问题。在桌面环境下,维语的输入己经非常成熟,但基于Windows CE.NET的嵌入式环境中维文输入是个难题。本论文提出基于软键盘的维语输入法,解决了无键盘的嵌入式环境下的维语输入问题。这种方案具有简单,实用,稳定性好的特点。  相似文献   

11.
该文针对维吾尔语的音变现象,提出了一种自动还原模型。与以往方法不同的是,此模型中我们把音变现象泛化,先假设维吾尔语中所有语音都有音变现象,从而将还原问题转化为类似于词性标注问题,再利用标注的方法解决了还原操作。在新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上做了实验,还原模块作为维吾尔语词法分析器的一部分,把词法分析器功能的F值从84.1%提高到了91.4%,同时维吾尔语中词缀数目最多、变形情况最复杂的动词词干的还原正确率也达到了88.6%,实际应用中完全可以被接受。  相似文献   

12.
改革开放后,新疆与国内以及国际交往越来越频繁。新疆少数民族人名汉字音译转写缺少统一标准,维吾尔人名汉字音译转写时,在户口上是一种写法,在身份证上另一种写法,在护照上更不一样的用字写法,机票、汇款单等又是一种写法。为解决这些问题,前人作了研究并取得了一定成果以及使用维吾尔人名汉语音译撰写系统来规范维吾尔人名汉语音译。但是这些成果正确率只有52%。利用规则和维吾尔人名特征相结合的方法,提高系统自动维吾尔人名汉语音译正确率30%。介绍该领域研究进展,通论维吾尔音节切分与维吾尔人名特征相结合方法。陈述基于字形的DOM音译框架解决的问题,介绍基于音节切分的维吾尔人名汉字音译转写的实现方法,给出了实验结果与分析。  相似文献   

13.
维吾尔文OpenType字库设计与实现   总被引:2,自引:0,他引:2  
维吾尔文字编辑方向与汉、英文编辑方向相反,字符变形、连笔复杂,OpenType字形技术的出现使维吾尔文字计算机处理看到了新的契机。本文在研究了OpenType字形技术的基础上,结合维吾尔文字结构特征及语法特征,提炼出维吾尔文字组合规律及变形显现替换规则,通过OpenType脚本描述维吾尔文文字属性,利用字模编辑软件与脚本编辑软件生成维吾尔文OpenType字库。  相似文献   

14.
首先对现代维吾尔语词尾或词缀进行描述和定义;其次陈述调查使用的网络媒体语料来源、语料说明、词法结构、词语还原方法、语料应用领域、采集的语料时间跨度与统计方法;最后介绍词尾的使用情况,包括频次超过万次以上的词尾、词尾频次分段分析、词尾长分段分析结果.  相似文献   

15.
维吾尔文字编辑方向与汉、英文编辑方向相反,字符变形、连笔复杂,OpenType字形技术的出现使维吾尔文字计算机处理看到了新的契机。本文在研究了OpenType字形技术的基础上,结合维吾尔文字结构特征及语法特征,提炼出维吾尔文字组合规律及变形显现替换规则,通过OpenType脚本描述维吾尔文文字属性,利用字模编辑软件与脚本编辑软件生成维吾尔文OpenType字库。  相似文献   

16.
提出一种基于结构特征的手写维吾尔字符识别算法,首先根据字符的笔画数目将待识别字符划分为五个子集,然后再根据"附加笔画位置"等特征对字符集再进行划分。根据每个子集中的字符分布情况,提取不同长度的特征向量,然后利用SVM为每个字符集构造一个分类器,进行训练和识别。  相似文献   

17.
维吾尔语作为一种典型的黏着语,通过丰富的功能词缀来表达各种语法和语气。该文探讨了“词干词性标注方法”与“词缀词性标注方法”在维吾尔语自然语言处理中的优缺点。在大规模语料库中,统计了常用词缀串的数量、频次和覆盖度,以此来判断词缀词性标注方法在自然语言处理中的可行性。以力提甫·托乎提教授的维吾尔语生成语法理论为指导,对词缀串的词性标注进行了相应的语法定义,并且在实际语料中进行了小规模词性标注实验。该文提出的基于词缀串的词性标注方法不仅适用于维吾尔语,也适用于有着大量相似词缀的突厥语族其他语言。  相似文献   

18.
关键词识别是语音识别中的一个重要研究方向,而维吾尔语的关键词识别研究刚刚开始.结合维吾尔语音节特点和考虑影响关键词识别因素,提出在HMM模型的基础上对非关键词建立垃圾模型的方法,来提高关键词的识别效率。  相似文献   

19.
关键词识别是语音识别中的一个重要研究方向,而维吾尔语的关键词识别研究刚刚开始。结合维吾尔语音节特点和考虑影响关键词识别因素,提出在HMM模型的基础上对非关键词建立垃圾模型的方法,来提高关键词的识别效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号