首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对区块链环境中海量高维的数据使得推荐性能低下的问题,通过对局部敏感哈希算法的优化,降低其在近邻搜索过程中带来的额外计算和存储开销.利用数据分布的主成分减少传统LSH中不良捕获的投影方向,同时对投影向量权重进行量化,以减少哈希表和哈希函数的使用;通过对哈希桶的间隔进行调整,并且根据冲突次数的大小进一步细化查询结果集,以...  相似文献   

2.
文中介绍了一个基于内容的图像检索系统的设计和实现,它利用改进的几何散列技术能够获得快速而且准确的相似形状检索。系统包括四个主要部分:特征获取模块,查询管理模块,搜索引擎和一个散列表。特征信息收藏在散列表中,查询管理器接收用户的查询并从查询图像中提取出轮廓。特征获取模块对图像轮廓进行变换和量化,形成散列表的入口。给定一个视觉查询,查询代理通过使用多数投票算法对散列表进行搜索,得到一个形状具有潜在相似性的图像表。大量的实验表明该算法提供了一个可行的并且实用的相似性形状检索方法。  相似文献   

3.
令牌是一种具有生命周期的结构体,它从创建、运行到消亡形成一个完整的生命周期.令牌的创建是生成一个六元组,为要完成的任务设置各项参数.令牌的运行即执行各项命令,完成相关任务并返回执行结果,最后取消并回收令牌,以达到更好的效率.应用这种结构设计了一种新的关联规则发现算法,该算法通过创建并发送令牌完成对数据集的一次扫描,在扫描过程中对数据对象进行标记,然后完成数据的收集和规则模式的生成.实验结果表明,该算法具有线性的时间和空间复杂性,在增量挖掘方面具有良好的性能.  相似文献   

4.
5.
目的 视觉检索需要准确、高效地从大型图像或者视频数据集中检索出最相关的视觉内容,但是由于数据集中图像数据量大、特征维度高的特点,现有方法很难同时保证快速的检索速度和较好的检索效果。方法 对于面向图像视频数据的高维数据视觉检索任务,提出加权语义局部敏感哈希算法(weighted semantic locality-sensitive hashing, WSLSH)。该算法利用两层视觉词典对参考特征空间进行二次空间划分,在每个子空间里使用加权语义局部敏感哈希对特征进行精确索引。其次,设计动态变长哈希码,在保证检索性能的基础上减少哈希表数量。此外,针对局部敏感哈希(locality sensitive hashing, LSH)的随机不稳定性,在LSH函数中加入反映参考特征空间语义的统计性数据,设计了一个简单投影语义哈希函数以确保算法检索性能的稳定性。结果 在Holidays、Oxford5k和DataSetB数据集上的实验表明,WSLSH在DataSetB上取得最短平均检索时间0.034 25 s;在编码长度为64位的情况下,WSLSH算法在3个数据集上的平均精确度均值(mean average precision,mAP)分别提高了1.2%32.6%、1.7%19.1%和2.6%28.6%,与几种较新的无监督哈希方法相比有一定的优势。结论 通过进行二次空间划分、对参考特征的哈希索引次数进行加权、动态使用变长哈希码以及提出简单投影语义哈希函数来对LSH算法进行改进。由此提出的加权语义局部敏感哈希(WSLSH)算法相比现有工作有更快的检索速度,同时,在长编码的情况下,取得了更为优异的性能。  相似文献   

6.
Cross-media retrieval is an imperative approach to handle the explosive growth of multimodal data on the web. However, existing approaches to cross-media retrieval are computationally expensive due to high dimensionality. To efficiently retrieve in multimodal data, it is essential to reduce the proportion of irrelevant documents. In this paper, we propose a fast cross-media retrieval approach (FCMR) based on locality-sensitive hashing (LSH) and neural networks. One modality of multimodal information is projected by LSH algorithm to cluster similar objects into the same hash bucket and dissimilar objects into different ones and then another modality is mapped into these hash buckets using hash functions learned through neural networks. Once given a textual or visual query, it can be efficiently mapped to a hash bucket in which objects stored can be near neighbors of this query. Experimental results show that, in the set of the queries’ near neighbors obtained by the proposed method, the proportions of relevant documents can be much boosted, and it indicates that the retrieval based on near neighbors can be effectively conducted. Further evaluations on two public datasets demonstrate the efficacy of the proposed retrieval method compared to the baselines.  相似文献   

7.
Martin  M.M.K. Hill  M.D. Wood  D.A. 《Micro, IEEE》2003,23(6):108-116
Commercial workload and technology trends are pushing existing shared-memory multiprocessor coherence protocols in divergent directions. Token coherence provides a framework for new coherence protocols that can reconcile these opposing trends. The token coherence framework directly enforces the coherence invariant by counting tokens (requiring all of a block's tokens to write and at least one token to read). This token-counting approach enables more obviously correct protocols that do not rely on request ordering and can operate with alternative policies that seek to improve the performance of future multiprocessors.  相似文献   

8.
In a database, a similar information search means finding data records which contain the majority of search keywords. Due to the rapid accumulation of information nowadays, the size of databases has increased dramatically. An efficient information searching scheme can speed up information searching and retrieve all relevant records. This paper proposes a Hilbert curve-based similarity searching scheme (HCS). HCS considers a database to be a multidimensional space and each data record to be a point in the multidimensional space. By using a Hilbert space filling curve, each point is projected from a high-dimensional space to a low-dimensional space, so that the points close to each other in the high-dimensional space are gathered together in the low-dimensional space. Because the database is divided into many clusters of close points, a query is mapped to a certain cluster instead of searching the entire database. Experimental results prove that HCS dramatically reduces the search time latency and exhibits high effectiveness in retrieving similar information.  相似文献   

9.
一种哈希表快速查找的改进方法   总被引:4,自引:1,他引:3       下载免费PDF全文
哈希表由于其速度快的优点在数据查询中有着广泛的应用。本文在结合冲突解决机制和数据元素被查找的先验概率的基础上,提出了一种提高哈希表查找效率的优化方法,并对该方法在链地址法处理哈希冲突的情况下进行了理论分析,与原哈希表方法相比,该方法降低了冲突时执行查询的查找长度,从而使查询响应时间更短。最后对该方法进行行了实例验证,实验结果表明,新方法是有效并且简便的。  相似文献   

10.
ViewFinder is a graphical tool for browsing in databases that provides a flexible, yet intuitive environment for exploratory searches. The design approach has been to provide maximum functionality and generality without sacrificing simplicity. The constructs of ViewFinder’s external model are essentially object-oriented: class and token objects, membership relationships between tokens and classes, generalization relationships between classes, inheritance, and so on. This external model is based on an internal model which resembles a semantic network. Such a network may be extracted from a variety of data models, including object-oriented, entity-relationship and extended relational models. This architecture gives ViewFinder a large degree of model independence. The main construct of the external model are displays of objects (either classes or tokens), called views. Commands are available for efficient traversal of the database, displaying views of any class or token. To speed up repetitive searches, views may be synchronized: the user sets up several views, linked in a tree-like structure, so that when the information displayed in the root view is modified (e.g. scrolled by the user), the contents of the other views change automatically. Additional commands are available to search, order, aggregate and select the information displayed in a view, thus providing a simple query facility.  相似文献   

11.
基数估计是实现数据库多表连接(JOIN)查询优化的重要手段之一。对数据量较大的数据表进行基数估计时常用数据抽样来获得较小的样本,从而估计各种查询负载下所需的数据基数。在单表上利用数据抽样来完成基数估计的方法已经得到广泛研究,但在多个数据表的抽样样本总体存储预算存在限制时,目前仍缺乏有效的多表间样本数划分方法使得整体基数估计达到较优。为此,提出一种面向多表JOIN查询优化的基数估计方法,针对一组给定的含有复杂多JOIN操作的查询负载,为其合理分配数据库中每个表的抽样率,从而在满足样本大小总和限制的同时使得基数估计准确率达到最高。将上述过程抽象为一个抽样率分配搜索问题,在数据库数据抽样问题中引入贝叶斯优化搜索算法,利用该算法快速搜索出不同表之间抽样样本大小的分配比例,使得有限时间内获得的样本分配方案对应的基数估计准确率最高,从而达到查询优化的目的。在TPC-H数据集上的实验结果表明,在相同时间内确定多JOIN操作查询负载下基数估计准确率最高的抽样比例方案时,相比随机搜索算法,贝叶斯优化算法所得方案对应的基数估计误差率降低54.8%~60.2%。  相似文献   

12.
基于曙光4000A的BLAST并行算法   总被引:1,自引:0,他引:1  
对BLAST启发式算法的实现做了优化:引入批处理的概念、并对整个库文件建立哈希表,实现了I/O延迟掩藏,提高了整个比对过程的速度,同时降低了内存消耗。优化的算法有利于并行化的实现:在并行系统中,将库文件广播到各个计算节点,由节点在局部分别建立哈希表。然后将查询文件分割发送到各个计算节点并行比对。计算结果可以在节点直接输出,不需要主结点收集,减少了通信开销。  相似文献   

13.
王茜  李安颖  葛新  王浩 《微机发展》2013,(12):59-61,65
最短路径查找的效率决定了跨域数据交换的效率。针对通道较少(e〈n(n-1))的跨域数据交换最短路径查找的问题,文中实现了一种基于图的最短路径查找方法。设计了域标识模型、域表和通道表,建立了域表与通道表的关系模型,根据面向对象的方法基于邻接表存储结构构造了域及通道的邻接表。基于深度优先搜索遍历原理,定义邻接表对象、路径集合,记录域访问历史、路径长度,以递归的方式实现了跨域最短路径的查找。实现了电子政务跨域数据交换时域间最短路径的查找,证实了文中方法的有效性。  相似文献   

14.
目前提出的频繁项目集挖掘算法大多基于Apriori算法思想,但这类算法会产生巨大的候选集并且重复扫描数据库.本文针对这一问题,给出了一种基于FC-tree的频繁闭项目集挖掘算法Max-FCIA,该算法将频繁项目集存储在哈希表中,节省了程序的搜索时间.此外,利用广度优先搜索和有效的剪枝策略,大大限制了候选项目集的生成,缩小了搜索空间从而提高了程序的性能.实验结果表明该算法是快速有效的.  相似文献   

15.
化学家利用Internet通用资源搜索引擎如Yahoo、Google获取Internet资源时,检索结果常包含大量相关性较小的内容。Internet化学资源导航系统如ChemDex用人工方法收集和组织资源使资源内容质量和相关性比通用搜索引擎有所提高,但进行细致的分类仍比较困难。由中国科学院过程工程研究所建立、Internet化学化工资源导航系统ChIN的维护工具ChIN-Manag-er采用把两个内容相关的资源简介页互链来表示资源之间的密切相关关系,目前维护人员主要通用测览分类目录来确定相关资源,但这种方式在被索引的资源数量日益增大时其可用性降低。本论文开发了一种新的基于ChIN数据库检索的链接两个关系密切的相关简介页的方法。该方法针对ChIN数据库中简介页的组织特点设计了面向不同资源类型数据表的多种检索策略,这些策略侧重于被检索字段的确定;并为20余种不同类型的资源描述表建立了实现相应检索策略的检索界面。这些检索界面无缝集成到了ChIN-Manager相应的资源编辑界面中,为ChIN提供了一种快速确定被索引资源的密切相关资源的方法。  相似文献   

16.
开源软件在化学数据库分子结构检索中的应用   总被引:2,自引:2,他引:0  
分子结构检索是化学数据库必备的检索手段,利用开源化学软件是实现分子结构检索的有效途径.不同于商业软件的解决方案,开源本身就体现了经济性和可重复开发的特点.本文利用Java开源化学软件开发工具包如Chemistry Development Kit(CDK)、JOELib的基本构件,基于JSP Servlet Bean MySQL技术搭建了一个网络化学数据库结构检索平台.其中包括分子全结构和子结构检索,并实现了在线提交分子和化合物结构的三维显示等.对包含12万化合物结构信息的数据库的测试表明,该系统在经过预处理和一系列优化措施下,实现了较好的检索性能.  相似文献   

17.
胡海苗  姜帆 《软件学报》2015,26(S2):228-238
提出了一种可扩展的局部敏感哈希索引(SLSH),以解决高维动态数据索引中,由于数据集大小及分布特征无法确定而导致索引效率降低的问题.SLSH架构于E2LSH之上,继承了其对高维数据索引速度快,并可直接对欧式空间上的数据点进行索引的特点.为了使得哈希索引具有动态的相似性区分能力,SLSH修改了E2LSH的哈希族,通过哈希桶容量约束自适应调节哈希参数.因此对于分布密度动态变化的数据空间,SLSH也能够给出鲁棒的划分.  相似文献   

18.
作为一种重要的认证数据结构,认证跳表在数据认证机制中有着广泛的应用。由于哈希模式对认证跳表的代价有显著的影响,因此提出哈希模式和数据存储模式分离的思想,设计了一种新的认证哈希模式—有向哈希树,并在其基础上设计了新的认证跳表算法。应用分层数据处理、概率分析等数学方法对所提出算法的代价进行了理论分析,并与已有的认证跳表算法做了性能比较。结果表明,本算法在时间、通信和存储代价方面有了较大的改进。  相似文献   

19.
对等网络所面临的两个最基本的问题是如何进行信息有效查找、定位以及如何进行网络的自我管理。文中介绍了一种基于混合式拓扑结构的分布式信息查找(DHH)体制。该体制可以实现信息的高效查找和节点的自我管理,同时达到可扩展性,有效性,可靠性,负载均衡和用户匿名性等指标。  相似文献   

20.
目前海量时空轨迹数据近邻查询算法中存在计算时间复杂度较高的问题,因此提出了一种结合领域POI数据和E2LSH算法的轨迹KNN查询算法。首先利用GeoHash技术对地理空间进行编码,然后结合POI数据实现向量空间的初步降维,进而根据停留时间构建每条轨迹的向量,采用局部敏感哈希函数运算结果建立轨迹索引,最后对查询返回的相似轨迹集合分别进行距离计算,经过排序得到距离最近的K个查询结果。对于增量的轨迹数据,利用E2LSH算法计算哈希值,直接添加轨迹索引,从而避免了复杂的计算过程以及对现有轨迹索引的影响。基于合成数据及真实数据集的实验结果表明,该方法在海量时空轨迹数据的近邻查询中,虽然牺牲了一定的准确率,但有效提升了算法效率,并能够高效简便地处理增量的时空轨迹数据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号