首页 | 本学科首页   官方微博 | 高级检索  
     

网络维吾尔文判别及其文本长度下界的探讨
引用本文:倪耀群,曹鹏,许洪波,唐慧丰,程学旗.网络维吾尔文判别及其文本长度下界的探讨[J].中文信息学报,2012,26(6):109-116.
作者姓名:倪耀群  曹鹏  许洪波  唐慧丰  程学旗
作者单位:1. 中国科学院 计算技术研究所,北京 100190;2. 中国科学院 研究生院,北京 100049;
3. 解放军外国语学院,河南 洛阳 471003
基金项目:国家自然科学基金资助项目,自然基金重点资助项目,国家863计划重点资助项目
摘    要:将维吾尔文从阿拉伯文、哈萨克文、柯尔克孜文等以阿拉伯字母为基础书写的类似文字中识别出来,是维文信息处理的基础。作者对维吾尔字符的编码优化后使用N元语法模型实现了维吾尔文的快速语种判别,准确率超过98%。经过错误分析,发现错误判别的文本主要集中在论坛和微博客中,这些文本有效字符数太少,语言特征不充分。最后作者计算了四种语言真实网络文本中的所有公共子串,并对文种判别所需要的最短字符串长度进行了分析。

关 键 词:老维文  语种识别  最大公共子串  

Uyghur Recognition in Webpages and the Lower Bound of Text Length for Language Discrimination
NI Yaoqun , CAO Peng , XU Hongbo , TANG Huifeng , CHENG Xueqi.Uyghur Recognition in Webpages and the Lower Bound of Text Length for Language Discrimination[J].Journal of Chinese Information Processing,2012,26(6):109-116.
Authors:NI Yaoqun  CAO Peng  XU Hongbo  TANG Huifeng  CHENG Xueqi
Affiliation:1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;
2. Graduate University of Chinese Academy of Sciences, Beijing 100049,China;
3. PLA University of Foreign Languages, Luoyang, Henan 471003, China
Abstract:
Keywords:Arabic-Script Uyghur  language detection  longest common substring  
本文献已被 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号