共查询到19条相似文献,搜索用时 62 毫秒
1.
提出了自动计算汉字对应声母编码的概念,分析了基于汉字ASCII码和汉字字符编码国标GB2312-80规则的具体实现思路及算法,并介绍了实现该算法的主要程序段。 相似文献
2.
3.
随着计算机技术的发展和普及,计算机病毒带来的危害日趋严重。传统N-Gram算法难以提取不同长度的特征,导致有效特征缺失,并产生庞大的特征集合,造成空间的浪费。针对这些问题,提出一种改进的基于N-Gram的特征码自动提取方法。该方法在原有N-Gram 特征提取算法的基础上引入变长N-Gram特征,提取不同长度的有效特征,生成不定长病毒特征码。综合考虑特征频率的相关性,利用特征浓度对N-Gram特征进行有向筛选,生成数据字典,节省存储空间。实验结果表明,与单纯使用定长N-Gram的算法相比,该方法能有效降低特征码自动提取的误报率。 相似文献
4.
对于像计算机行业这样年轻而又变化迅速的工业领域来说,标准尤其重要。它们使技术稳定并且能促进投资。计算机系统如果没有标准,我们现在可能还停留在采用配置专用键盘、纸张和色带的手工打字机阶段。 有许多例子可以说明标准的重要程度。例如,各种不同的信息源估测美国各行业每年在标准上的花费就在170亿美元到300亿美元之间。 关于标准 信息技术是相当复杂的,它尤其要依赖标准。 技术标准的表现形式是开发和制造人员所遵循的规范说明。它们可以是: ★正式标准,由官方标准制定组织,如IEEE 相似文献
5.
在大型的管理信息系统开发过程中,由于各种原因,经常会出现数据库结构设计不合理的情况。在系统打补丁过程中可能会导致客户使用的数据库版本不一致,在客户量较大,且比较分散的情况下,将客户的数据库升级到最终版本存在一定困难。为了解决这个问题,提出了一种基于Oracle的管理信息系统数据库自动升级方案,并且在PowerBuilder环境下给出了实现过程。 相似文献
6.
7.
8.
9.
10.
11.
文章介绍了立足于机读文本资源——机读《现代汉语词典》和机读《同义词词林》,分级建造以统一管理、共享数据资源为特征的汉语语义词典的研究工作。 相似文献
12.
为了提高现有基于词典的分词机制的次字查询效率,提出了一种全新的分词词典机制一次字拼音首字母哈希机制.首字查询仍使用成熟的基于逐字二分机制,在首字哈希表中增加该字的拼音首字母字段,次字按其拼音首字母散列到26个子表,子表中记录以首字开头的词组个数并设置次字索引表指针,第3字及其后的字串的匹配仍然采用目前成熟的词典机制.在次字查询时,可大大地缩小查询范围,从而加速了次字查询过程.实验测试表明,该机制在增加少量的存储空间情况下,时间效率提升了15%. 相似文献
13.
一种计算汉字串之间相关程度的新方法 总被引:3,自引:0,他引:3
本文提出了一种能更准确的反映两个汉字串之间相关程度的新概念——黏结度,并给出了其计算方法。该方法把需要计算相关程度的汉字串放在一个大环境中进行讨论,通过加入上下文信息来提高分词的准确度;另外,该方法在引用汉字词频时,增加了对动态词频的考虑,可以自动识别未登陆的专业词汇。文中同时给出了黏结度在分词领域中的应用实例。通过与前人提出的相关信息的方法相比较,这种计算方法能够解决分词中一些难于解决的问题并提高分词的精确度。 相似文献
14.
15.
维吾尔语单音节词复辅音声学分析 总被引:1,自引:0,他引:1
为了提高语音合成的自然度该文从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了带复辅音的63 个单音节词的声学参数,包括辅音时长和辅音强度,通过语音分析软件研究了维吾尔语复辅音的组合规律和声学规律,复辅音中两个辅音声学特征之间的声学区别等问题。从语言类型学的角度看,在现代维吾尔语带复辅音的单音节词中前辅音比后辅音短且前辅音比后辅音强是固定声学特征。可是复辅音的组合不是固定的,因为组成复辅音的音素有可能再增加。 相似文献
16.
17.
《信息交换用藏文编码字符集 基本集》奠定了研究藏文信息处理技术的基础,非常重要,但随着藏文信息处理技术研究的深入,也逐渐发现了《基本集》没能反映藏文构件的基本特征,增加了研究有关藏文工作的难度,同时,在使用中还存在藏文编码歧义等缺陷。针对上述问题提出了增加三个上加字的编码到BMP中,使得藏文编码能正确地反应藏文的构件特征,还提出用“界定藏文编码的使用方法”来消除《基本集》应用中存在的歧义以及正确理解几个字符的属性等问题。 相似文献
18.
一种新的句子相似度度量及其在文本自动摘要中的应用 总被引:7,自引:0,他引:7
本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的unigram ,还考虑了bi-gram 和tri-gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同时本文还提出了一种新的,利用句子间相似度以及句子的权重的抽句
式文摘算法,在抽取出句子的同时也去掉了冗余。DUC2003、DUC2004 (Document Understanding Conference 2003 ,2004) 的评测结果征明了方法的有效性。我们的系统在DUC2004 的评测中列第二位。 相似文献
19.
汉字输入编码优劣评测方法的探讨 总被引:1,自引:0,他引:1
字形编码的优劣必须进行科学的评测。编码规则的轻松性和速度潜力是评价字形编码优劣的两个关键指标。本文共分四部分,第一部分简单地陈述了什么是简单、规范、易学、轻松,提出了选择轻松的理由;第二部分通过具体的例子说明了导致轻松与不轻松的内在因素,提出了评测轻松的实验草案;第三部分分析了考核一种通用键盘汉字输入系统速度素质的现状,认为字形编码应将编码层次和软件层次分割开来进行性能考核,编码层次应评测编码规则的轻松性和速度潜力;第四部分从实践和理论两个方面分析了平均偏移量与速度潜力之间的关系,即平均偏移量越小,速度潜力就越大,并提出了反映速度潜力的参数指标。 相似文献