首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
该文主要对国内开展维吾尔、哈萨克、柯尔克孜等少数民族语言信息处理以来的相关研究工作进行了介绍和评价。在此基础上对维吾尔、哈萨克、柯尔克孜文信息处理的进一步发展进行了展望。目的是为了探讨如何加速推进维吾尔、哈萨克、柯尔克孜文信息处理技术的发展。通过对维、哈、柯文操作系统、信息技术标准、语言信息处理及综合应用等四个方面历史和现状的介绍及简单评价,对维、哈、柯语信息处理的发展方向做了相关描述。  相似文献   

2.
新疆是个多民族聚居的地区,但是支持哈萨克文信息处理的手机却一直都是市场的空白。通过研究哈萨克文手机输入法,哈族用户可以很方便地操作手机的方寸键盘,快速、高效地输入文本信息,实现和家人、朋友的交流与沟通;同时这对发展少数民族地区通讯和经济也有着非常重要的意义。文中结合手机中多种文字输入的基本技术和方法,对哈萨克文手机输入法进行了研究。文章首先介绍了哈萨克语言的特点、手机输入法设计中的关键技术和根据哈萨克文的特征设计的哈萨克文手机键盘,接下来研究了词频的动态调整和词库的动态更新,并给出了实现其关键模块功能的程序流程图,最终实现了支持哈文和数字混合显示的智能手机输入法。  相似文献   

3.
由新疆大学、新疆语言文字工作委员会、机电部15研究所和中国计算机技术服务公司共同研究草拟的“信息处理和信息交换哈萨克文编码图型字符集”、“信息处理和信息交换用哈萨克文键盘字母区布局”、“信息处理和信息交换用哈萨克文点阵字符集和点阵数据集”三项国家标准,已在乌鲁木齐市通过了由国家技术监督局主持的国标审定会。确定哈萨克文用双7位编码字符集和单8位编码字符集两种方案,它由34个基本字符和110个字型组成。键盘布局按字符出现频度和习惯占用原英文字母26个键位和3到0的数字键。字形编定了16×16、16×8、24×24、24×12两种宽度的字模集,以及与其它文种相兼容处理的24×24、24×20、24×16、24×12、24X×8的五种宽度的字模集。来自国家技术监督局、机电部、自治区有关单位的信息处理和文字研究等方面的专家们认为:这三项标准有很好的可行性、兼容性、一  相似文献   

4.
通过信息领域术语的规范化及翻译、文字输入法原则和键盘布局、语料库建设与语料管理、机器翻译以及文字转换等方面的信息化建设的现状和进展为例,就目前开发和研究哈萨克文信息处理中存在的若干问题进行探讨.  相似文献   

5.
通过信息领域术语的规范化及翻译、文字输入法原则和键盘布局、语料库建设与语料管理、机器翻译以及文字转换等方面的信息化建设的现状和进展为例,就目前开发和研究哈萨克文信息处理中存在的若干问题进行探讨。  相似文献   

6.
OpenType字形技术研究与哈萨克文字库设计   总被引:1,自引:1,他引:0  
在研究了OpenType字形技术基础上,结合哈萨克文字变形显现特点,总结出了哈萨克文字组合规律及变形显现替换规则,编写了哈萨克文OpenType字形描述脚本,通过连字替换表(SUB)和字型置位表(GPOS)控制实现哈萨克文字连字替换和字符复合,利用字模编辑软件与脚本编辑软件生成哈萨克文OpenType字库.经在WindowsXP等操作系统上安装测试,字形变形及组合完全符合哈萨克文文字变形规范.  相似文献   

7.
目前,对少数民族语言信息检索的研究处于初步阶段,创建一个高查准率和查全率的哈萨克文信息检索平台是十分必要的。该文对哈萨克文的语法和构词进行分析,介绍哈萨克文检索停用词表统计的几种方法。  相似文献   

8.
一、<中文信息学报>主要刊臀中文信息的基础理论、应用技术、中文信息处理系统及设备、中文信息的自动输入和人工编码输入、汉字字形信息、自然语言处理、计算语言学及民族语言文字信息处理及网上信息处理等方面的研究论文、技术报告、综述、通讯、简报、国内外学术活动等.  相似文献   

9.
为了满足新疆少数民族的信息化需求,提出一种基于Windows的维吾尔文、哈萨克文、柯尔克孜文多语种操作系统的本地化研究。引用微软提供的多语种接口及WFP(WindowsFile Protection)技术、文本处理技术、6种点阵字库等技术很好地处理了多语种操作系统常见问题。运行结果表明,系统界面字符清晰、输入快捷、可靠性高。  相似文献   

10.
一、<中文信息学报>主要刊登中文信息的基础理论、应用技术、中文信息处理系统及设备、中文信息的自动输入和人工编码输入、汉字字形信息、自然语言处理、计算语言学及民族语言文字信息处理及网上信息处理等方面的研究论文、技术报告、综述、通讯、简报、国内外学术活动等.  相似文献   

11.
针对开发维吾尔语、哈萨克语、柯尔克孜语图书馆编目软件中出现的问题,以UNICODE5.0的UTF-8编码为核心,详细给出了维、哈、柯文字统一化处理的策略,通过整体规划提出了分层管理和分层实现的思路。此项研究总结了开发我国新疆维吾尔语、哈萨克语、柯尔克孜语数字图书馆系统的技术路线,各民族语言与汉字等同编程等关键问题。该项研究为各少数民族图书馆数字化事业的发展提供了具有现实意义的实施方案。  相似文献   

12.
The paper presents some main progresses and achievements in Chinese information processing. It focuses on six aspects, i.e., Chinese syntactic analysis, Chinese semantic analysis, machine translation, information retrieval, information extraction, and speech recognition and synthesis. The important techniques and possible key problems of the respective branch in the near future are discussed as well.  相似文献   

13.
LINUX下维、哈、柯文多语种图形化处理平台的设计与实现   总被引:3,自引:2,他引:3  
针对维吾尔文字、哈萨克文字、柯尔克孜文字(以下简称“维哈柯文”)的特点以及进行维哈柯文、西文等多语种混合处理时的特殊需求,本文通过对Linux的I18N体系中NLS(National Language Support)研究分析,提出了基于Linux的多语种图形化处理平台的设计目标与总体架构。该平台由维哈柯文本地化环境、维哈柯文显示、自适应维哈柯文输入和维哈柯文打印输出等4个子系统的十余个模块组成。本文详细介绍了各子系统主要模块的实现技术。通过在redhat linux 810、turbolinux上测试表明,该平台在桌面环境、编辑软件、网络浏览、数据库软件、多媒体软件、图形处理软件等应用中均能较好的实现维哈柯文、汉文、西文的混合输入、显示、编辑、排版、打印等功能。  相似文献   

14.
现状和设想——试论中文信息处理与现代汉语研究   总被引:14,自引:0,他引:14  
本文介绍了中文信息处理技术发展的现状及面临的主要困难,指出:关键在于对现代汉语研究的滞后。到目前为止,中文信息处理主要依赖于对大规模语料的统计,根据概率,对词与词的关系作出界定。多年来中文信息处理技术徘徊难进的现实说明,这一方法已经难以突破“瓶颈”,要使计算机对现代汉语进行自动化的处理,即使之真正“智能化”,就必须把人的语言知识“教”给计算机。这就需要根据计算机的要求加强对现代汉语的研究,特别是对语义的研究。文中介绍了当前朝此方向努力并已有较大进展的三个流派,并分别指出其不足;参考作者主持国家“九五”重点项目“信息处理用现代汉语词汇研究”的经验,提出了统一使用资源、携手并进、共同攻关的设想。  相似文献   

15.
汉藏短语对抽取中短语译文获取方法研究   总被引:1,自引:0,他引:1  
该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)和藏文词序列相交算法(TIA)两种方法来获取藏语译文。其中TSM抽取1-1连续和非连续短语准确率达到90%左右,但遗漏1-n情况。TIA能够抽取1-n连续和非连续藏文语块,准确率达到81%。  相似文献   

16.
该文对比了句本位语法图解树库与中文信息处理现行词法规范在分词单位和词类标注两方面的差异,指出目前自动词法分析与句法分析的若干脱节之处,梳理了图解树库中关于临时造词、惯用语等特殊结构的标注策略和语言学理据,并探讨了“依句辨品”和“指称化”等汉语词类相关理论在中文信息处理中的实现方式。  相似文献   

17.
藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特点提出藏语助动词结尾句子边界识别方法。  相似文献   

18.
汉藏短语抽取   总被引:1,自引:1,他引:0  
该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交算法抽取藏文短语。该算法可以很好的抽取1-1和1-n连续和非连续藏文短语。  相似文献   

19.
针对多媒体情报处理的现状,指出了多媒体情报处理过程中需要解决的主要问题,并在此基础上将多媒体情报的处理流程划分为多媒体情报收集、情报处理、情报服务三个阶段。以新闻视频为例对多媒体情报系统的体系结构进行了详细设计,重点设计了其中的多媒体情报处理与情报服务子系统,并对其中涉及的部分关键技术进行了研究。  相似文献   

20.
面向信息处理的藏文分词规范研究   总被引:2,自引:1,他引:1  
自动分词是藏文信息处理领域的一项基础课题,也是智能化藏文信息处理的关键所在。 在藏文信息处理“字词处理”层面上,需要解决词的切分问题,而词类划分的标准和词的正确切分是进行藏文文本处理的必要条件。为了便于计算机对自动分词、词性标注的辨认,该文首先要确定满足藏文信息处理中词类的需求,并根据藏文自身的词汇特点与构词规律,提出了较为系统、适用的分词规范。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号