首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
由于居住在不同地区的哈萨克族长期受到不同文化、不同历史等因素的影响,我国哈萨克族使用的词汇与哈萨克斯坦哈萨克语词汇之间发音、术语、口语等方面均有所不同。处理这方面差异的方法是先将用户输入的词汇根据系统所构建的对照词典自动转换,如果词典里未找到该词汇,则根据哈萨克阿拉伯字母和哈萨克斯坦斯拉夫字母之间的对应关系自动转换,其系统词典是基于哈萨克语规则和首字Hash表的词典结构,具有较强的扩展性和使用性。  相似文献   

2.
为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法.针时首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题.实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标.  相似文献   

3.
为提高整词二分词典机制的分词效率,分析现有分词词典机制,提出一种基于全Hash的整词二分词典机制。该机制将首字相同的词条按字数分组,并进行全词Hash,对Hash值相同的词条进行二分查找,从而减少词条匹配的次数。理论分析和实验结果表明,该机制的分词效率较高。  相似文献   

4.
多次Hash快速分词算法   总被引:4,自引:1,他引:4  
中文分词是中文信息处理的一个重要的组成部分.一些应用不仅要求有较高的准确率,速度也是至关重要的.通过对已有分词算法的分析,尤其是对快速分词算法的分析,提出了一种新的词典结构,并根据新的词典结构提出新的分词算法.该算法不仅实现对词首字的Hash查找,也实现了词的其它字的Hash查找.理论分析和实验结果表明,该算法在速度上优于现有的其它分词算法.  相似文献   

5.
Web集群服务的请求分配算法大多使用Hash方法对请求URL进行散列,并按一定规则对请求内容进行负载均衡调度.提出了一种基于URL词典排序及全部URL按其词典序列分为k*n个集合的URLALLOC算法.该算法通过对URL进行词典序排序并将全部URL按其词典序列分为k*n个集合,依访问流量排序及分段互补等一系列方法将Web负载尽可能均匀地分布到多个后端服务器中.仿真实验结果表明:URLALLOC算法比现有的URL散列方法具有更好的负载均衡能力.  相似文献   

6.
为了提高现有基于词典的分词机制的次字查询效率,提出了一种全新的分词词典机制一次字拼音首字母哈希机制.首字查询仍使用成熟的基于逐字二分机制,在首字哈希表中增加该字的拼音首字母字段,次字按其拼音首字母散列到26个子表,子表中记录以首字开头的词组个数并设置次字索引表指针,第3字及其后的字串的匹配仍然采用目前成熟的词典机制.在次字查询时,可大大地缩小查询范围,从而加速了次字查询过程.实验测试表明,该机制在增加少量的存储空间情况下,时间效率提升了15%.  相似文献   

7.
机器翻译是一个古老而年轻的课题,它一直是人们梦寐以求的理想,本文实现一个英汉机器翻译系统主要和于翻译联机得到的内容,也可翻译实时输入的内容。本文设计了三部电子词典的数据结构,实现了词典数据库的管理软件,用户通过友好的人机交互界面,可以方便地生成自己的专用词典,本系统基于规则,实现了分析翻译综合模块,采用英汉对照方式输出原文及译文。本系统用C语言实现。  相似文献   

8.
本文介绍了一个基于TCP/IP的网络备份系统,并在此基础上引入散列算法(Hash),计算出需要备份和恢复的文件以及数据块的内容标示--指纹,建立起索引作用的树形结构。这种方法可以避免备份和恢复执行时的折衷处理,提高系统的数据安全性,减少数据一致性问题的产生。  相似文献   

9.
主要研究了基于内容的词典式图像库产生图像Hash编码的算法.建立一个词典结构的图像库,提取图像库中所有的块特征向量,并进行聚类分析,对聚类后的每一部分进行二进制编码,从而生成二进制索引(词典)库,将待查图像引入图像库进行匹配,生成一串二进制代码的路径,即Hash编码.实验证明,基于词典结构生成的Hash编码能够很好地反映视觉上的变化,但是,对视觉上相似的图像细微的变化反应并不剧烈,能够较好地表达图像的整体情况.  相似文献   

10.
电子词典是在机器翻译系统中包含的信息量最大的一个部件,电子词典包的质量和容量直接限定机器翻译的质量和应用范围。与一般的电子词典不同,机器翻译词典每个词条都要比一般的电子词典增加词类信息、语义类别信息和成语等。文章以频率统计和频率分布统计作为维汉机器翻译词典的词条收录原则,统计维吾尔文中常用的单词数目,论述维汉机器翻译词典的设计思想,用BNF形式语言和Jackson图描述维汉机器翻译词典应包含的词条信息,最后介绍词典的具体构造方法、词条排序原则、索引表和属性库的数据结构和词典信息的查找方法。试验表明该词典在解决维吾尔语词汇歧义、结构歧义、提高汉语译文准确率等方面较为有效。  相似文献   

11.
在远程教育评估系统中,被评估学院有很多数据表(学生信息表、教师信息表等等)要进行查询管理等处理,系统不可能针对每一个数据表写一个处理程序,而应该提供一个统一的通用接口来处理所有的数据表。文中采用基于数据字典的方法很好地实现了该接口,提供了良好的数据查询和管理功能,使数据管理部分具有灵活的可配置性、可扩展性和易管理性。  相似文献   

12.
基于Hash结构的逆向最大匹配分词算法的改进   总被引:8,自引:1,他引:7  
分析中文的语义,首先要对句子进行分词.中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果.对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词算法(RMM).该算法在重点考虑切分速度的同时兼顾了切分精度,在很大程度上消除了传统的最大匹配算法可能产生的歧义.实验结果表明,该分词算法在运行效率和结果的准确性方法有了很大的提高.  相似文献   

13.
谭兆信 《软件学报》1998,9(8):632-636
该文引入了散列高阶字典的概念,提出了一个使用散列高阶字典实现数据压缩的模型.实验数据表明,该模型比传统的数据压缩字典方法具有更高的数据压缩能力.  相似文献   

14.
汉语词典查询是中文信息处理系统的重要基础部分, 对系统效率有重要的影响. 国内自80年代中后期就开展了中文分词词典机制的研究, 为了提高现有基于词典的分词机制的查询效率, 对于词长不超过4字的词提出了一种全新的分词词典机制——基于汉字串进制值的拉链式哈希机制即词值哈希机制. 对每个汉字的机内码从新编码, 利用进制原理, 计算出一个词语的词值, 建立一个拉链式词值哈希机制, 从而提高查询匹配速度.  相似文献   

15.
基于散列表的CANopen对象字典的设计   总被引:1,自引:0,他引:1       下载免费PDF全文
对象字典的实现是整个CANopen协议的关键。对象字典的构建可以采用数组或链表的方式。数组方式占用大量内存空间并且不便于动态的更新,链表方式对于大数据量搜索效率较低。而散列表由于其自身的结构特点则可以克服这些缺点。该文采用散列表的方式构建对象字典,这种方式构建的对象字典具有可动态更新、搜索效率高和存储空间利用率高等优点。  相似文献   

16.
在基于内容的中文反垃圾邮件技术中,中文分词是必不可少的一个环节。面对大规模的邮件训练样本和大负载的邮件服务器,中文分词算法的时间效率成为中文垃圾邮件过滤技术中的一个瓶颈。对此,提出一种应用在中文垃圾邮件过滤系统中的实时分词算法。该算法采用一种TRIE树型结构作为词典载体并基于最大匹配的原则,同时,在实时分类阶段结合hash表进行特征查询,极大地提高了系统的时间效率。  相似文献   

17.
为了解决大规模数据集下传统视觉词袋模型生成时间长、内存消耗大且分类精度低等问题,提出了基于监督核哈希(Supervised Hashing with Kernels,KSH)的视觉词袋模型.首先,提取图像的SIFT特征点,构造特征点样本集.然后,学习KSH函数,将距离相近的特征点映射成相同的哈希码,每一个哈希码代表聚类中心,构成视觉词典.最后,利用生成的视觉词典,将图像表示为直方图向量,并应用于图像分类.在标准数据集上的实验结果表明,该模型生成的视觉词典具有较好的区分度,有效地提高了图像分类的精度和效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号