共查询到17条相似文献,搜索用时 78 毫秒
1.
通过信息领域术语的规范化及翻译、文字输入法原则和键盘布局、语料库建设与语料管理、机器翻译以及文字转换等方面的信息化建设的现状和进展为例,就目前开发和研究哈萨克文信息处理中存在的若干问题进行探讨. 相似文献
2.
通过信息领域术语的规范化及翻译、文字输入法原则和键盘布局、语料库建设与语料管理、机器翻译以及文字转换等方面的信息化建设的现状和进展为例,就目前开发和研究哈萨克文信息处理中存在的若干问题进行探讨。 相似文献
3.
语言作为交流最基本的方式,在民族的发展过程中起着举足轻重的作用.哈萨克语作为语言的一种,对哈萨克民族的发展起着其应有的作用.但是由于历史的原因,哈萨克语在世界范围内形成了基于同一语言的两种文字形式这种特殊情况.这两种文字形式分别是以阿拉伯文字母为基础的哈萨克阿拉伯文字和以斯拉夫文字母为基础的哈萨克斯拉夫文字.这种特例,为哈萨克族科学技术的发展和文化的交流带来了不便,因此开发和完善哈萨克语这两种文字形式之间的计算机转换系统具有重要意义.本文将介绍用C#编写的哈萨克语的两种文字形式间的计算机自动转换程序,采用机器翻译的方法并在Windows环境下实现哈萨克语的两种文字形式间的智能转换. 相似文献
4.
语言资源库是对各种语言信息进行深入研究的重要语料基础,阐述了哈萨克文语言资源库的研究和设计思路,介绍了语言资源库系统的总体框架、基本结构、功能模块以及实现方法等若干问题. 相似文献
5.
面向信息处理的藏文分词规范研究 总被引:1,自引:1,他引:1
自动分词是藏文信息处理领域的一项基础课题,也是智能化藏文信息处理的关键所在。 在藏文信息处理“字词处理”层面上,需要解决词的切分问题,而词类划分的标准和词的正确切分是进行藏文文本处理的必要条件。为了便于计算机对自动分词、词性标注的辨认,该文首先要确定满足藏文信息处理中词类的需求,并根据藏文自身的词汇特点与构词规律,提出了较为系统、适用的分词规范。 相似文献
6.
随着计算机技术的不断发展,计算机辅助教学得到越来越广泛的应用,因此出现各种计算机辅助教学软件。重点介绍哈萨克文辅助教学软件的设计、工作流程,以及简要说明该辅助教学软件的主要模块及实现方法。 相似文献
7.
OpenType字形技术研究与哈萨克文字库设计 总被引:1,自引:1,他引:0
在研究了OpenType字形技术基础上,结合哈萨克文字变形显现特点,总结出了哈萨克文字组合规律及变形显现替换规则,编写了哈萨克文OpenType字形描述脚本,通过连字替换表(SUB)和字型置位表(GPOS)控制实现哈萨克文字连字替换和字符复合,利用字模编辑软件与脚本编辑软件生成哈萨克文OpenType字库.经在WindowsXP等操作系统上安装测试,字形变形及组合完全符合哈萨克文文字变形规范. 相似文献
8.
该文主要对国内开展维吾尔、哈萨克、柯尔克孜等少数民族语言信息处理以来的相关研究工作进行了介绍和评价。在此基础上对维吾尔、哈萨克、柯尔克孜文信息处理的进一步发展进行了展望。目的是为了探讨如何加速推进维吾尔、哈萨克、柯尔克孜文信息处理技术的发展。通过对维、哈、柯文操作系统、信息技术标准、语言信息处理及综合应用等四个方面历史和现状的介绍及简单评价,对维、哈、柯语信息处理的发展方向做了相关描述。 相似文献
9.
袁保社 《计算机应用与软件》2010,27(9)
在手机中实现哈萨克文手写输入是新疆地区哈萨克族用户的需求.基于手机手写屏尺寸的局限性,哈萨克文在手机上以字母为单位输入.在研究了哈萨克文字母结构特征基础上,提出将哈萨克文字符分成主体笔画与附属笔画两部份.利用字符的笔画数做第一级分类,一笔以上的字符按附件二级分类.提取字符的笔画落笔抬笔象限、笔画x方向最大穿越次数、笔画环、笔画x、y方向变化次数及落笔、抬笔走势等20个特征为特征集.通过采集当前手写输入字符的xy坐标序列,提取相应的特征组成用二进制表示的特征数据,与样本库中的样本逐个异或运算比对,取运算后1的个数最少的样本为识别样本,经进一步检验后得到识别的字符及相近的侯选字符. 相似文献
10.
分词单位作为分词系统的基本单位,是研究分词理论的基础,要确立分词单位就必须有相应的理论体系。该文结合藏文已有的语法著作和汉语语义分类体系建立与分词单位相应的词类划分体系;参照《资讯处理用中文分词规范》和《信息处理用现代汉语分词规范》等标准,从藏文文本语料出发,建立切分分词单位的九项基本原则和三项辅助原则,以此词类划分体系和切分原则为理论依据对藏文的分词单位进行详细说明。 相似文献
11.
The paper presents some main progresses and achievements in Chinese information processing. It focuses on six aspects, i.e., Chinese syntactic analysis, Chinese semantic analysis, machine translation, information retrieval, information extraction, and speech recognition and synthesis. The important techniques and possible key problems of the respective branch in the near future are discussed as well. 相似文献
12.
13.
LINUX下维、哈、柯文多语种图形化处理平台的设计与实现 总被引:3,自引:2,他引:3
针对维吾尔文字、哈萨克文字、柯尔克孜文字(以下简称“维哈柯文”)的特点以及进行维哈柯文、西文等多语种混合处理时的特殊需求,本文通过对Linux的I18N体系中NLS(National Language Support)研究分析,提出了基于Linux的多语种图形化处理平台的设计目标与总体架构。该平台由维哈柯文本地化环境、维哈柯文显示、自适应维哈柯文输入和维哈柯文打印输出等4个子系统的十余个模块组成。本文详细介绍了各子系统主要模块的实现技术。通过在redhat linux 810、turbolinux上测试表明,该平台在桌面环境、编辑软件、网络浏览、数据库软件、多媒体软件、图形处理软件等应用中均能较好的实现维哈柯文、汉文、西文的混合输入、显示、编辑、排版、打印等功能。 相似文献
14.
15.
16.
17.
近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题。这些问题在一些领域相关文献检索中显得尤其重要,比如大规模的生物文献检索。本文提出了一种新的基于聚类的主题语言模型方法进行生物文献检索,这主要包括两个方面工作,一是采用本体库中的概念表示文档,并在此基础上进行模糊聚类,把聚类的结果作为数据集中的主题,文档属于某个主题的概率由文档与聚类的模糊相似度决定。二是采用EM算法来估计主题产生项的概率。把上述方法集成到语言模型中就得到本文的语言模型。本文的语言模型能够准确描述项在不同主题中的分布概率,以及文档属于某个主题的概率,并且利用本体中概念部分地解决了同义词问题,而且项可以由不同的主题产生,这也能够部分解决词的多义问题。本文的方法在TREC 2004/05 Genomics Track数据集上进行了测试,与简单语言模型以及现有主题语言模型相比,检索性能得到一定的提高。 相似文献