首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
分布式存储技术因其良好的可扩展性、高性价比在当前云存储系统和企业存储中心得到广泛应用.在分布式存储系统中进行内嵌删冗可以有效降低系统存储开销,提高数据存取效率,实现内嵌删冗的关键在于高性能和可扩展的元数据索引方法.该方法应确保删冗操作不影响存储性能.通过分析影响索引性能的关键因素,提出一种分布式相似文件元数据集合索引的构建方法.该方法使用位置敏感Hash函数,将具有相同数据片的相似文件元数据组成集合并建立索引,使一个文件所有数据片元数据检索只需要访问一次外存,有效提高元数据检索效率.并且所生成的索引具有良好可扩展性和很小的内存开销,适合在采用分布式存储结构的云存储系统或者企业存储系统中进行应用.  相似文献   

2.
对现有最大序列模式挖掘算法候选序列模式过多以及可扩展性差的缺点,提出了一种基于序列匹配的最大序列模式挖掘算法CSMS(compare sequence finding maximal sequential pattern).算法首先为所有频繁1序列构建位置信息表;然后利用纵向、横向结合搜索位置信息表的序列扩展匹配方法找到潜在最大序列模式;在进行序列匹配扩展的同时,把每个找到的潜在最大序列模式存储在改进的前缀树PStree(prefix sequential pattern tree)中,树中每个结点链接到索引Hash表,Hash表中保存了结点的位置信息,对于那些重复的序列可以直接从Hash表中找到其位置信息;最后通过对前缀树PStree进行剪枝,得到由最大序列模式组成的前缀树MPStree(maximal sequential pattern tree).实验结果表明算法CSMS具有较好的时间效率和扩展性.  相似文献   

3.
分析实际网络中的IPv6前缀分布规律与增长趋势,提出一种基于Hash和内容可寻址存储器(CAM)的IPv6路由查找算法。将长度能被8整除的前缀存储在8个Hash表中,发生Hash冲突的前缀存储在CAM中,长度不能被8整除的前缀按照一定的组织方式存储在随机存取存储器中。分析结果表明,该算法具有较高的存储利用率、查找速率及更新速率,并且易于扩展和硬件实现。  相似文献   

4.
在分析原有查找算法的基础上,结合IPv6地址结构和骨干路由表特点,提出一种新的快速IPv6路由查找算法。基于Hash表和多分支Trie树结构,将最常用到的路由前缀按前缀长度放置在Hash表中,并按前缀值有序存放在表结点中,不仅可以进行最常用前缀的二分查找,同时又是其他前缀匹配的索引。对于其他的前缀匹配问题,根据Hash表中的索引到相应的多分支Trie树完成最长前缀匹配。分析及测试证明该算法具有很好的时间效率,更新速度很快。  相似文献   

5.
目前,针对嵌套式数据集上的高效查询处理已成为Web数据检索的一个重要任务.不同于传统信息检索,嵌套式数据集既要存储数据又要存储结构,导致了针对该类数据集查询的低效性,特别是对如何保证精确查询效率更是一个挑战.结合列存储结构和倒排索引技术,首先定义了表达嵌套式数据集中数据位置信息的唯一路径UPath,提出一种新的支持嵌套式数据集精确查询的索引结构——Uni Hash.在此基础上,给出了生成数据值的唯一路径UPath以及基于MapReduce框架建立Uni Hash索引的相关算法.通过将其与XPath检索进行对比,验证了Uni Hash索引结构的有效性.实验表明,将嵌套式数据集进行列式存储并建立Uni Hash索引,能够明显地提高精确查询的效率.  相似文献   

6.
基于Hash表的数据库索引结构设计与实现   总被引:1,自引:0,他引:1  
索引结构的优劣对RDBMS的查询速度起着至关重要的作用,目前比较成熟的组织索引的数据结构有Hash表和B-Tree结构。基于Hash表给出了一种RDBMS索引以及存储结构的详细设计方案并加以实现。  相似文献   

7.
根据IPV6地址结构和骨干路由表特点,分析了原有路由查找算法,基于IPV6的掩码长度和分段地址,采用Hash表和多分支Trie树结构,提出了一种快速的IPV6路由查找算法。根据分段地址和掩码将最常用到的路由前缀按前缀长度设置Hash表,并将前缀值有序存放在表结点中。不仅可以进行前缀长度的二分查找,同时又是其它前缀匹配的索引。对于其他的前缀匹配问题,根据Hash表中的索引到相应的多分支Trie树完成最长前缀匹配。实践证明该算法具有较好的时空效率,可以较好地提高路由查找速度。  相似文献   

8.
为解决大量移动对象位置频繁更新所带来的性能下降问题,提出一种基于改进的Quadtree和Hash表的QH全时态索引结构。这种新的索引结构可以支持移动对象全时态索引,在Hash表中通过存储移动对象指针来支持移动对象标识查询,并对Quadtree的叶子节点采用适时合并的方法来防范分支太深而造成的查询效率低下。实验证明,QH索引与TPR-tree相比,移动对象的更新效率更高、对象标识查询较优、范围查询性能相近。  相似文献   

9.
在时空数据库中,频繁更新会导致TPR树更新与查询性能下降。针对该问题,提出MAH—TPR索引方法,分别对预处理过程、索引结构及更新算法进行优化。在构建索引及更新操作时,通过使用空间聚类来减少节点间空间区域的交叠几率。引入基于磁盘的Hash辅助存储结构,在直接访问叶节点的基础上进一步减少磁盘I/O的操作。引入基于内存的移动对象辅助存储结构,用于存储发出频繁更新请求,以避免主索引结构节点的合并和分裂。实验结果表明,MAH—TPR索引方法的查询性能优于HTPR方法和LGU方法,更新性能优于HTPR索引方法。  相似文献   

10.
为了提高IPv6地址查找效率,在分析IPv6路由前缀长度分布规律的基础上,提出了基于哈希表及树位图(Tree-bitmap)的两级IPv6地址查找算法.算法将长度为16,32,48和64比特的前缀分别存储在4个Hash表中,其余前缀的前16,32和48比特利用已有的Hash表存储,剩余的不足16比特的部分前缀利用树位图存储,并将树位图的入口地址保存在Hash表中.IP地址查找时在Hash表和树位图中进行两级查找.实验表明,该查找算法的平均内存访问次数为1~2,最坏情况下为7,适用于高速IPv6地址查找.  相似文献   

11.
针对通用数据库海量数据检索速度慢的缺点,文章提出了一个数据检索优化系统.该系统通过将海量数据拆分成短语和单词,利用哈稀算法和基数排序算法,将拆分的短语和单词重新组织成词典,并对每个短语和单词建立倒排表,利用该倒排表对通用数据库中的海量数据做索引.使用这种基于倒排表的数据索引能够将数据检索速度降低到毫秒级.  相似文献   

12.
针对现有文件数据同步传输方法效率低、局部更新困难的问题,提出一种哈希链构建及文件数据同步方法。将C/S架构中服务器端文件或目录的变化作为一系列哈希节点,根据时间先后顺序,通过哈希函数迭代文件或目录的哈希值,形成能够记录文件库所有操作状态的有序哈希链。客户端只需根据哈希链节点执行相同文件操作并进行同步更新,而不需要对每个文件数据进行同步认证,确保文件库的完整性、不可抵赖性、可溯源性和防篡改性。采用有序哈希链的同步方法对不同终端进行文件数据差异监视和一致性检测,以快速获取文件变化并进行逻辑同步。实验结果表明,该方法在文件库未变动模式下的平均同步加速比为94.85%,在文件库变动的模式下,相较于“quick check”策略和常规策略的Rsync算法,平均同步加速比分别为6.5%和69.99%。有效地减少了同步过程中时间和资源的消耗。  相似文献   

13.
We show how to extract plain text from PostScript files. A textual scan is inadequate because PostScript interpreters can generate characters on the page that do not appear in the source file. Furthermore, word and line breaks are implicit in the graphical rendition, and must be inferred from the positioning of word fragments. We present a robust technique for extracting text and recognizing words and paragraphs. The method uses a standard PostScript interpreter but redefines several PostScript operators, and simple heuristics are employed to locate word and line breaks. The scheme has been used to create a full-text index, and plain-text versions, of 40,000 technical reports (34 Gbytes of PostScript). Other text-extraction systems are reviewed: none offer the same combination of robustness and simplicity. © 1998 John Wiley & Sons, Ltd.  相似文献   

14.
为提高整词二分词典机制的分词效率,分析现有分词词典机制,提出一种基于全Hash的整词二分词典机制。该机制将首字相同的词条按字数分组,并进行全词Hash,对Hash值相同的词条进行二分查找,从而减少词条匹配的次数。理论分析和实验结果表明,该机制的分词效率较高。  相似文献   

15.
Hadoop的设计初衷是为了存储和分析大数据,其最擅长处理的是大数据集。但是在实际应用中,却存在着大量的小文件。一般情况下有四种处理海量小文件的方法,分别为默认输入格式TextInputFormat、为处理小文件而设计的CombineFileInputFormat输入格式、SequenceFile技术以及Harballing技术。为了比较在相同的Hadoop分布式环境下这四种技术处理大量小文件时的性能,选用了典型的数据集,利用词频统计程序,来比较四种小文件处理技术的性能差异。实验研究表明,在不同需求下处理大量小文件的时候,选用适当的处理方法能够在很大程度上提高大量小文件的处理效率。  相似文献   

16.
张悦  郑东  张应辉 《计算机应用》2015,35(4):964-967
针对传统的访问控制方法不支持动态授权和文件评价、且存在恶意再分享隐患,设计了一种支持动态授权和文件评价的访问控制机制(DAFE-AC)。DAFE-AC采用的动态授权机制能够对已授权用户进行实时监控,保证了用户之间的相互监督;采用的文件评价机制可以支持文件解锁阈值的动态更新。基于Hash/索引数据库,DAFE-AC确保了文件在系统中的唯一性。在DAFE-AC中,用户授权值会随着其他用户行为动态变化,且用户可以通过对文件进行评价以消除恶意再分享。  相似文献   

17.
针对Lucene自带中文分词器分词效果差的缺点,在分析现有分词词典机制的基础上,设计了基于全哈希整词二分算法的分词器,并集成到Lucene中,算法通过对整词进行哈希,减少词条匹配次数,提高分词效率。该分词器词典文件维护方便,可以根据不同应用的要求进行定制,从而提高了检索效率。  相似文献   

18.
P2P网络普遍采用Chord算法,该算法使用一致性哈希函数为关键字和节点分别分配一个m位的标识符,使关键字较均匀地分配到节点上,以获得一个负载均衡的环形结构。该文在Chord算法中引入连通度选择,根据对节点已收发信息的分析,建立信息连通键值,调整节点关键字序列,减少低效信息的查询与传输。仿真实验证明,改进后的算法具有更低盲点率、更高即效性和搜索能力。  相似文献   

19.
针对单一云存储服务提供商可能对数据进行垄断控制和现有云存储去重系统采用的收敛加密算法容易遭受暴力攻击等问题,提出了一种采用签名与哈希技术的云存储去重方案,通过在数据去重过程中采用双层校验机制对数据完整性进行审计,能够校验文件的完整性和精确地定位到损坏的数据块;同时构造Merkle哈希树来生成校验值,计算出去重标签,保证重复数据能够被检测;使用Mapbox和Lockbox结合的机制加密数据信息,保证非授权用户无法对文件进行访问。安全性分析及仿真实验结果表明,方案有效抵制暴力攻击,并能够降低去重标签的计算开销和减少存储空间。  相似文献   

20.
程节华 《微机发展》2008,(7):181-183
在基于FAQ的智能答疑系统中,分词处理是基础和关键。分词质量的好坏直接影响智能答疑系统的准确性。针对实际应用领域的需要,本系统分词模块采取普通词典和专业词典混合的词典设计方案,分词算法采用正向最大匹配的分词算法。为了提高词典的查找速度,分词词典采用Hash表和二维数组的数据结构,根据汉字的内码利用Hash方法,求得在内存的地址,然后计算其索引项的二维数组的下标,对于词典的搜索采用二分查找法。实验结果表明:该分词系统提高了智能答疑系统的效率和准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号