首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
针对大数据环境下,化学分子结构检索低效、通用图同构VF2算法检索量过大的缺陷,提出了基于预筛选的ASVF2算法,建立了基于分布式的分子检索模型。实验结果表明,在包含20万个化学结构的数据中,该方法可以快速准确地检索包含特定信息的分子,大幅降低了分子结构检索的复杂度,模型具有稳定的可扩展性。  相似文献   

2.
虚拟现实环境下,数据实时性和系统稳定性的高要求对服务器架构的设计和优化提出了新的挑战。针对虚拟现实环境下海量数据存储效率的提升和系统性能的优化,提出了一种新的分布式服务器架构,该架构基于分布式协调框架ZooKeeper、分布式缓存架构Redis以及MongoDB分片机制,并改进一致性Hash算法来优化Redis缓存架构,同时优化MongoDB分片的负载均衡机制。经过相应的仿真验证,该架构在虚拟现实环境下具有有效性。  相似文献   

3.
针对服饰图像都是小文件的特性,提出了一种HDFS和传统关系型数据库相结合的服饰图像及其特征数据的存储结构设计方法,实现了海量图像信息的快速存储和读取;改进了多特征点图像特征提取和匹配算法,并基于Map/Reduce框架实现了基于多特征的服饰图像数据分布式检索。实验结果表明,该方法能够均衡系统负载,提高资源利用率,扩展性强,有效地降低了海量服饰图像检索时间,是一种高效的服饰图像存储和检索的方法。  相似文献   

4.
海量数据电子地图的显示速度和使用成本是影响GPS导航系统性能和推广的重要因素,在不提高使用成本的基础上提高超大数据量电子地图信息检索和浏览速度是用户实用系统开发的关键。本文分析了现有的数据库检索方法和数据空间结构,综合运用Hash函数和金字塔数据库模型,建立了金字塔式查询结构的Hash查找算法(HRAPS),并采用矢量栅格化方法使图形显示速度更快。实验结果表明,该算法优于常规检索算法,为提高电子地图显示速度提供了一种新方法。  相似文献   

5.
针对传统的图像检索方法在处理海量数据时面临的问题,提出一种基于改进的分布式K-Means特征聚类的海量场景图像检索方法。对分布式K-Means算法进行改进,优化了初始聚类中心的选择和迭代过程,并将其应用与场景图像的特征聚类中;充分利用Hadoop分布式平台的海量存储能力和强大并行计算能力,提出了海量场景图像的存储和检索方案,设计了场景图像特征提取、特征聚类以及图像检索三个阶段分布式并行处理的Map和Reduce任务。多组实验表明,提出的方法数据伸缩率曲线平缓,取得了优良的加速比,效率大于0.6,检索的平均准确率达到了88%左右,适合海量场景图像数据的检索。  相似文献   

6.
针对海量数据环境下单机检索低效问题,建立了对海量化合物快速检索的分布式计算模型,提出了基于分治策略的分段哈希算法。对于如分子量、脂水分配系数(lggP)等不适于用哈希检索的连续数值型数据,设计了连续属性离散化模型进行离散化处理。实验结果表明,在对化合物大文件进行检索时,该模型可快速有效地检索范围信息,避免了对海量数据的重复检索,大幅降低了化合物检索的内存及时间,具有稳定的可扩展性和高效性。  相似文献   

7.
很多大企业采用Hadoop分布式文件系统来存储海量数据,而传统的病毒扫描主要针对单机系统环境。研究如何并行化病毒扫描中的核心特征匹配算法来处理分布式海量数据。在Hadoop平台下,基于MapReduce并行编程模型来实现大数据高效的病毒扫描,特别是针对Hadoop处理海量小文件效率低的问题,通过将小文件合并,再利用索引来提高海量小文件的处理效率。实验结果表明,提出的并行特征匹配算法可以显著降低处理时间,适用于大数据的病毒扫描。  相似文献   

8.
海量结构化数据存储检索系统   总被引:4,自引:0,他引:4  
Big Data是近年在云计算领域中出现的一种新型数据,传统关系型数据库系统在数据存储规模、检索效率等方面不再适用.目前的分布式No-SQL数据库可以提供分布式数据存储环境,但是无法支持多列查询.设计并实现分布式海量结构化数据存储检索系统(MDSS).系统采用列存储结构,采用集中分布式B+Tree索引和局部索引相结合的方法提高检索效率.在此基础上讨论复杂查询条件的任务分解机制,支持大数据的多属性检索、模糊检索以及统计分析等查询功能.实验结果表明,提出的分布式结构化数据管理技术和查询任务分解机制可以显著提高分布式条件下大数据集的查询效率,适合应用在日志类数据、流记录数据等海量结构化数据的存储应用场合.  相似文献   

9.
文档主题标引是当前个性化智能检索的重要前提,但面对大规模海量数据资源时,主题标引也成为性能瓶颈。当前在MapReduce框架上设计实现的主题标引算法,通常存在启动任务耗时长,中间数据过多地进行磁盘IO等缺陷。为了解决此类问题,采用YARN(yet another resource negotiator)作为底层分布式资源管理平台,选择更加合适的计算框架来改善计算性能。针对文档主题标引算法计算步骤多、阶段性强的特点,选择有向无环图(directed acyclic graph, DAG)计算模型进行算法实现,避免不必要的作业拆分,从而减少中间结果的磁盘IO。另外,考虑到MapReduce的排序策略耗时较多,而有些计算无需对结果排序,故可以改用基于Hash的数据归约策略来提高计算性能,但这又会带来随机读的问题。利用固态硬盘高速随机读的特性,设计相应的优化计算策略来解决随机读的问题。通过实验对比发现,以YARN为底层管理平台,在此基础上选择合适的计算框架并加以优化,可以有效改善分布式计算的性能。  相似文献   

10.
为解决使用传统集中式检索处理海量异构科技信息资源时存在单点故障、性能低、不易扩展等问题,提出一种在异构科技资源下应用的分布式高性能检索系统(DHRS),并对其核心技术进行重点研究和分析。针对检索结果资源访问开销大的问题,给出基于访问代价的评估算法。并结合实际应用场景对算法进行优化,优化后请求数减少了80%,实验环境下的性能平均提高了68%。同时通过真实数据集的测试,验证了DHRS检索海量科技资源的可行性,能够适用于对检索和扩展性能要求较高的场景。  相似文献   

11.
哈希技术被视为最有潜力的相似性搜索方法,其可以用于大规模多媒体数据搜索场合。为了解决在大规模图像情况下,数据检索效率低下的问题,提出了一种基于分段哈希码的倒排索引树结构,该索引结构将哈希码进行分段处理,对每段哈希码维护一个倒排索引树结构,并结合高效的布隆过滤器构建哈希索引结构。为了进一步提高检索准确性,设计了一种准确的排序融合算法,对多个哈希算法的排序结果分别构建加权无向图,采用PageRank的思想对基于多个哈希算法的排序列表的融合技术进行了详细的说明。实验结果表明,基于分段哈希码的倒排索引树结构能极大地提升数据的检索速度。此外,相比于传统的单个哈希算法排序技术,基于多个哈希算法的排序列表融合技术的检索准确率优势显著。  相似文献   

12.
The emergence of cloud datacenters enhances the capability of online data storage. Since massive data is stored in datacenters, it is necessary to effectively locate and access interest data in such a distributed system. However, traditional search techniques only allow users to search images over exact-match keywords through a centralized index. These techniques cannot satisfy the requirements of content based image retrieval (CBIR). In this paper, we propose a scalable image retrieval framework which can efficiently support content similarity search and semantic search in the distributed environment. Its key idea is to integrate image feature vectors into distributed hash tables (DHTs) by exploiting the property of locality sensitive hashing (LSH). Thus, images with similar content are most likely gathered into the same node without the knowledge of any global information. For searching semantically close images, the relevance feedback is adopted in our system to overcome the gap between low-level features and high-level features. We show that our approach yields high recall rate with good load balance and only requires a few number of hops.  相似文献   

13.
郑志蕴  刘博李伦  王振飞 《计算机科学》2015,42(7):234-239, 249
随着语义网数据的海量涌现,人们更加关注RDF图的数据查询效率,通过关键词匹配直接查询RDF数据图成为一个研究热点。针对关键词查询中普遍存在的结果冗余与偏离等问题,提出了一种基于关键词的RDF数据图查询模型。该模型首先采用提出的基于迭代的图查询算法(ISGR)对所查询关键词进行子图匹配,得到唯一且最大的结果子图集合;然后根据关键词图与结果子图之间的结构信息,利用统计语言模型,给出了一种结果子图排序方法(SimLM)。对比实验表明,提出的查询模型及排序方法在一致性和相关性方面的性能优于传统模型。  相似文献   

14.
基于HBase的气象地面分钟数据分布式存储系统   总被引:1,自引:0,他引:1  
针对气象地面分钟数据要素多样、信息量大、产生频次高等特点,传统的关系型数据库系统在存储和管理数据上出现负载饱满、读写性能不理想等问题。结合对分布式数据库HBase的存储模型的研究,行主键(row key)采用时间加站号的方式设计了气象分钟数据存储结构模型,实现对海量气象数据的分布式存储和元信息管理。对HBase的唯一索引在面对气象业务的复杂查询用例时响应时间过长的问题,使用搜索引擎solr提供的API接口并参考气象业务中的查询用例对相关字段建立辅助索引,来满足业务检索时效。实验结果表明,该系统具有很好的存储能力和检索效率,入库效率最高可达每秒34000条,并且在常规查询用例的结果返回时效达到毫秒级,能够满足大规模气象数据在业务应用中对存储和查询时效的性能要求。  相似文献   

15.
Wildcard Search in Structured Peer-to-Peer Networks   总被引:1,自引:0,他引:1  
We address wildcard search in structured peer-to-peer (P2P) networks, which, to our knowledge, has not yet been explored in the literature. We begin by presenting an approach based on some well-known techniques in information retrieval (IR) and discuss why it is not appropriate in a distributed environment. We then present a simple and novel technique to index objects for wildcard search in a fully decentralized manner, along with some search strategies to retrieve objects. Our index scheme, as opposed to a traditional IR approach, can achieve quite balanced loads, avoid hop spots and single point of failure, reduce storage and maintenance costs, and offer some ranking mechanisms for matching objects. We use the compact disc (CD) records collected in FreeDB (http://freedb.org) as the experimental data set to evaluate our scheme. The results confirm that our index scheme is very effective in balancing the load. Moreover, search efficiency depends on the information given in a query: the more the information, the higher the performance.  相似文献   

16.
随着云计算时代的到来,大型Web应用的不断发展,海量数据不断增加,集中式的数据检索已不再满足需求.如何在分布式的环境中高效地处理数据检索成为亟待解决的问题.传统的关系型数据存储也无法完全适应云环境,NoSQL(Not only SQL)作为一种云存储形式应运而生,其中Cassandra的应用较为广泛.以分布式的多节点架...  相似文献   

17.
张良  刘敬浩  李卓 《计算机工程》2014,(4):108-111,115
命名数据网络(NDN)是一种以内容为中心的新型网络架构,可有效提高网络资源的共享利用率。但与传统的IPv4、IPv6相比,NDN命名的长度更长且具有可变性,因此实现NDN中命名的快速检索对提高网络性能具有重要作用。为此,提出一种基于Hash映射的分治命名检索方法,将命名分解为组件并进行CRC32映射后分别存储在相应的Hash表中,对Hash表中的数据进行快速排序后使用二分查找定位Hash值,并利用排序后Hash表的递增数据结构进行Hash冲突的快速检测,通过对Hash值添加标志位的方法解决冲突问题。实验结果表明,相比建立命名前缀树的检索方法,该分治命名检索方法可将NDN命名的存储空间压缩近65%,并且大幅提升了检索速度。  相似文献   

18.
戴厚乐  杨庚  闵兆娥 《计算机应用》2019,39(10):2948-2954
对于可搜索加密需要均衡数据的安全性和检索效率。针对SSE-1密文检索方案中检索性能低、单关键词检索模式不足和传统单服务器架构中的单机资源局限性等问题,设计并实现了一种多关键词并行密文检索系统。该系统采用不同的索引加密方式提高密文检索性能;通过对密文倒排索引的切分实现倒排索引的分块检索,克服了单机资源的局限性并提高了检索效率;通过结合分布式特点扩展了传统单机检索架构并实现了多关键词的并行检索。实验结果表明,与SSE-1方案相比,在保证密文数据安全性的前提下所提方案能够提高检索、更新等操作的效率,实现多关键词的检索,同时动态扩展系统分布式架构以提高系统负载能力。  相似文献   

19.
针对不同CAD系统对包含回转面的同一零件的B-rep模型表示存在拓扑和几何上的差异,导致基于图匹配的三维CAD模型局部检索不能有效检索局部结构这一问题,提出一种基于回转面归并的局部检索算法。首先从用户输入的局部结构和待匹配的CAD模型中识别出由两个半面组成的回转面,利用欧拉操作将两个半面归并成一个整面。然后分别建立局部结构和待匹配的CAD模型的属性邻接图,则局部检索问题被转换成子图同构问题。最后利用CAD模型的面特征将图顶点有效地细分,并根据已匹配顶点之间的邻接关系动态裁剪搜索空间,实现了快速的同构匹配。实验结果表明,该算法能消除不同CAD系统生成模型的拓扑异构,实现局部结构的准确匹配,并且检索的效率满足实际要求。  相似文献   

20.
钱江波  胡伟  陈华辉  董一鸿 《控制与决策》2019,34(12):2567-2575
基于哈希的近邻查找技术在图像检索、文本匹配、数据挖掘等信息检索领域均有广泛应用.该技术将原始数据通过哈希函数压缩成低维的二进制编码,然后在海明距离下排序检索,具有快速高效且维度不敏感的优势.但是,目前学术界针对流数据的实时在线哈希学习方法的研究很少,而且基本没有讨论哈希函数的更新频率和稳定性问题.针对这一问题,通过增加置信区间来减少更换哈希函数的频率,并构造在线学习的目标函数,使得算法尽可能保持稳定,且快速收敛.为了验证所提出算法的效率和有效性,在公开数据集上与同类的OSH、OKH在线哈希算法进行比较,比较结果表明,所提出的算法在平均准确率和训练时间上有一定优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号