网络维吾尔文判别及其文本长度下界的探讨 Uyghur Recognition in Webpages and the Lower Bound of Text Length for Language Discrimination期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

网络维吾尔文判别及其文本长度下界的探讨

引用本文：	倪耀群,曹鹏,许洪波,唐慧丰,程学旗.网络维吾尔文判别及其文本长度下界的探讨[J].中文信息学报,2012,26(6):109-116.

作者姓名：	倪耀群曹鹏许洪波唐慧丰程学旗

作者单位：	1. 中国科学院计算技术研究所,北京 100190;2. 中国科学院研究生院,北京 100049; 3. 解放军外国语学院,河南洛阳 471003

基金项目：	国家自然科学基金资助项目，自然基金重点资助项目，国家863计划重点资助项目

摘要：	将维吾尔文从阿拉伯文、哈萨克文、柯尔克孜文等以阿拉伯字母为基础书写的类似文字中识别出来,是维文信息处理的基础。作者对维吾尔字符的编码优化后使用N元语法模型实现了维吾尔文的快速语种判别,准确率超过98%。经过错误分析,发现错误判别的文本主要集中在论坛和微博客中,这些文本有效字符数太少,语言特征不充分。最后作者计算了四种语言真实网络文本中的所有公共子串,并对文种判别所需要的最短字符串长度进行了分析。
关键词：	老维文语种识别最大公共子串
Uyghur Recognition in Webpages and the Lower Bound of Text Length for Language Discrimination

NI Yaoqun , CAO Peng , XU Hongbo , TANG Huifeng , CHENG Xueqi.Uyghur Recognition in Webpages and the Lower Bound of Text Length for Language Discrimination[J].Journal of Chinese Information Processing,2012,26(6):109-116.

Authors:	NI Yaoqun CAO Peng XU Hongbo TANG Huifeng CHENG Xueqi

Affiliation:	1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 2. Graduate University of Chinese Academy of Sciences, Beijing 100049,China; 3. PLA University of Foreign Languages, Luoyang, Henan 471003, China

Abstract:

Keywords:	Arabic-Script Uyghur language detection longest common substring
本文献已被万方数据等数据库收录！
	点击此处可从《中文信息学报》浏览原始摘要信息
	点击此处可从《中文信息学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏