首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
有效管理生物数据并提供高效的查询方法是生物信息处理的重要研究内容.BioSeg是一个新的生物序列数据模型.查询优化研究是生物数据库管理系统开发的重要内容之一.研究当前生物数据索引技术,针对BioSeg数据模型的特点和生物序列相似性查询需求设计了一种新的生物序列数据索引BioIndex,并设计相应的查询算法.首先,使用MEME(Multiple EM for Moeif Elicitation)算法挖掘生物序列集中的序列模式作为索引建立索引序列库;之后,在索引序列库中查找与查询序列最相似的索引序列,将其对应的序列集作为候选集;再在候选集中查找与查询序列最相似的序列.在真实生物序列数据集上的实验表明使用新的生物序列数据索引BioIndex的序列查询算法提高了序列查询的效率.  相似文献   

2.
传统的子图查询算法大多只在图数据库上进行一次挖掘算法,即在图数据库上建立稳定的数据库索引后将不再对索引进行更新.随着查询兴趣的改变或数据库的频繁更新,原有的数据库索引将不再能提供有用的信息来减少查询过程中候选图的数量.为此,提出一种双索引的子图查询算法,同时在数据库和查询流上挖掘频繁子图并建立索引.子图查询和查询流索引的建立同步进行,即使查询兴趣改变,查询流索引也能自适应地更新索引信息来优化查询效率.针对数据库的频繁更新,查询流索引已提供实时的有效信息,数据库索引无需重新建立.实验结果表明,双索引的结合能有效提高查询子图的处理效率.  相似文献   

3.
何婧  吴跃  杨帆  尹春雷  周维 《计算机应用》2014,34(11):3218-3221
针对云存储系统大多基于键值对模型存储数据,多维查询需要对整个数据集进行完全扫描,查询效率较低的问题,提出了一种基于KD树和R树的多维索引结构(简称KD-R索引)。KD-R索引采用双层索引模式,在全局服务器建立基于KD树的多维全局索引,在局部数据节点构建R树多维本地索引。基于性能损耗模型,选取索引代价较小的R树节点发布到全局KD树,从而优化多维查询性能。实验结果表明:与全局分布式R树索引相比,KD-R索引能够有效提高多维范围查询性能,并且在出现服务器节点失效的情况下,KD-R索引同样具有高可用性。  相似文献   

4.
大数据作为新的战略资源,在信息领域发挥着重要作用。大数据的检索规模往往达到十亿甚至百亿级,导致传统的查询机制效率低下成为常态。因此,提高大数据的查询效率、降低查询负担成为大数据研究的重要方面。为 此提出了一种面向批量处理的大数据检索过滤模型IMFM,介绍了其核心思想及工作原理,论证了IMFM对于多维查询的支持,并给出了IMFM的部署策略。在大数据索引结构中的适当位置部署该模型,在检索请求通过节点时对检索请求进行快速过滤,避免无关请求对节点下方索引结构的操作,从而降低检索对性能的消耗。实验证明,在大数据批量处理环境下,该模型可以有效缩短大数据一维和多维查询的路径长度,提高检索效率,大幅减轻大数据存储和处理平台的负担。  相似文献   

5.
云计算环境下支持复杂查询的多维数据索引机制   总被引:1,自引:0,他引:1  
针对云计算环境下分布式存储系统的数据索引不支持复杂查询的问题,提出了一种多维数据索引机制M-Index,采用金字塔技术(pyramid-technique)将数据的多维元数据描述成一维索引,在此基础上首次提出前缀二叉树(prefix binary tree,PBT)的概念,通过提取一维索引和PBT有效节点的前缀作为数据在存储系统中的主键.数据根据主键和一致性Hash机制发布到存储节点组成的覆盖网络.设计了基于M-Index的数据查询算法,将复杂查询请求转换成一维查询键值,有效支持多维查询和区间查询等复杂查询模式.理论分析和实验表明,M-Index在复杂查询模式下具有良好的查询效率和负载均衡.  相似文献   

6.
为了改善常规存储方式模糊查询性能较低的问题,提出一种针对大文本文档数据的高效模糊查询方法。通过对文档建立倒排索引,将索引以及部分文档信息提取到内存中以降低磁盘输入和输出(Input/Output, I/O)。根据内存中的倒排索引和数据库中主键形成的映射查询数据,然后通过相关度算法对这些数据进行排序,并以字典树作为搜索提示,实现高效的全文检索。实验结果表明:与ElasticSearch使用相同词集时,随着测试数据量的变化,所设计的全文检索引擎的查询效率是ElasticSearch效率的80~1 200倍,其效率优势随着数据量增加呈现反比例关系变化,并且在17 919条文档数据下,其内存占用不超过2.5 GB,适合用于海量文档数据检索。  相似文献   

7.
XML目前正在成为各种数据库特别是文档的首选格式,然而由于数据模型的差异.利用关系数据库查询处理XML数据给传统数据库技术带来新的挑战.通过一种基于DTD的XML关系数据库存储方法.该方法分别针对DTD和XML文档建立独立的表结构和索引,从而提高查询效率.  相似文献   

8.
针对用户在大规模云对等网络环境下多维区间查询问题,将基于m叉平衡树的索引架构引入到云对等网络环境下,在该架构上实现集中式环境下支持多维数据索引的层次化树结构,例如R树,QR树等。多维区间查询算法保证查询从树的任意位置开始,避免了根节点引起的系统性能瓶颈问题。通过计算和实验验证,对于N个节点的网络,多维区间查询效率为O(logmN)(m>2)(m表示扇出),由此可见,查询效率和维数d无关,查询效率不会随着维数d的增加而降低。最后建立基于扇出m的代价模型,并且计算出了最优的m值。  相似文献   

9.
目前,个人和组织的信息呈现急剧增长趋势,且非结构化数据所占比重在不断增加,这些属于某个主体的海量、分布、异构和共存的数据构成了一个异构数据空间,如何为用户提供高效、便捷和多样化的搜索查询服务是数据空间面临的巨大挑战,为数据空间中异构数据构建高效的索引方法是解决这一问题的基础。对iMeMex数据模型的特点和数据空间中查询方法进行了分析,在此基础上通过扩展倒排列表方法,提出了一种基于iMeMex数据模型的索引方法,来提高对数据空间中异构数据的搜索查询效率。新的索引方法通过扩展倒排列表的关键字列和链表节点信息索引资源视图,来支持和提高关键字查询、谓词查询和路径查询的处理效率。实验结果表明,该索引方法能够有效、可行地解决数据空间中异构数据索引和查询效率问题。  相似文献   

10.
随着XML技术研究与应用的深入,涌现出了大量XML文档.为了对XML文档进行管理和查询,大多数RDBMS扩充了处理XML数据的功能.这种方式将XML数据映射到关系表中,会破坏XML数据的树型结构.查询时,需要多次的表连接,降低了查询效率.原生XML数据库以XML文档作为基本的逻辑存储单位,建立底层的物理存储模型.提出了一种原生XML数据库的后端实现策略--XBackend,包括存储策略、索引策略、数据库恢复策略. XBackend底层存储是专门为XML数据设计的,配合适当的索引,具有更高的存储和查询效率.数据库恢复策略保证了原生XML数据库数据的一致性状态.实验结果表明XBackend具有很好的性能.  相似文献   

11.
目前,关系数据库中的分区技术应用相当广泛,但是用分区策略管理海量要素图层数据的存储与索引没有比较系统的技术方法。采用不同管理方式、不同分区粒度、不同索引方式及其组合的分区技术来系统地管理海量空间图层数据,进一步研究了不同的分区粒度及索引方式对查询效率的影响,并通过实验验证了关系数据库中的分区技术对海量要素图层数据的存储与管理具有优化作用。结果表明,在不使用分区键作为查询条件时,分区粒度越大查询效率越高;使用分区键作为查询条件时,本地分区索引查询效率更高等。利用合理的分区方案使得海量要素图层数据存储和管理得以优化,对矢量大数据的存储和管理研究具有重要意义,为更好地应用分区技术来解决实际遇到的存储与检索效率问题提供决策支持。  相似文献   

12.
An efficient peer-to-peer indexing tree structure for multidimensional data   总被引:4,自引:1,他引:3  
As one of the most important technologies for implementing large-scale distributed systems, peer-to-peer (P2P) computing has attracted much attention in both research and industrial communities, for its advantages such as high availability, high performance, and high flexibility to the dynamics of networks. However, multidimensional data indexing remains as a big challenge to P2P computing, because of the inefficiency in search and network maintenance caused by the complicated existing index structures, which greatly limits the scalability of applications and dimensionality of the data to be indexed.We propose SDI (Swift tree structure for multidimensional Data Indexing), a swift index scheme with a simple tree structure for multidimensional data indexing in large-scale distributed systems. While keeping the query efficiency in O(logN) in terms of routing hops, SDI has extremely low maintenance costs which is proved through theoretical analysis. Furthermore, SDI overcomes the root-bottleneck problem existing in most other tree-based distributed indexing systems. Extensive empirical study verifies the superiority of SDI in both query and maintenance performance.  相似文献   

13.
为了能够从多个角度查询财务数据,以支持分析和决策,提出了基于MDX(多维表达式)技术的财务分析器,实现从源数据库建立多维数据集,并利用MDX技术从多个维度查询财务数据,以及对结果进行数据分析的功能.在此基础上实现了结果导出Excel、用户和组管理、可访问数据库设置、表项别称设定等模块,以帮助管理、使用和支持决策.并通过实例测试与传统SQL查询进行比较,结果表明该分析器在效率上更加优秀且更适合于帮助分析决策.  相似文献   

14.
Incomplete data accompanies our life processes and covers almost all fields of scientific studies, as a result of delivery failure, no power of battery, accidental loss, etc. However, how to model, index, and query incomplete data incurs big challenges. For example, the queries struggling with incomplete data usually have dissatisfying query results due to the improper incompleteness handling methods. In this paper, we systematically review the management of incomplete data, including modelling, indexing, querying, and handling methods in terms of incomplete data. We also overview several application scenarios of incomplete data, and summarize the existing systems related to incomplete data. It is our hope that this survey could provide insights to the database community on how incomplete data is managed, and inspire database researchers to develop more advanced processing techniques and tools to cope with the issues resulting from incomplete data in the real world.  相似文献   

15.
大数据具有传统数据所不具有的数量大、种类多、速度快、真实性等特点,传统的数据查询技术满足不了日益增长的大数据查询需求,大数据查询技术应运而生并迅速发展。从大数据查询的角度出发,着重分析大数据存储技术、大数据处理平台以及大数据查询引擎等。分别对比介绍传统关系型数据库、NoSQL、NewSQL和它们在大数据查询处理上的应用,介绍当前流行的大数据处理平台以及在这些平台上运行的大数据查询引擎,对其优缺点进行了综合阐述。   相似文献   

16.
试飞数据是民机飞行试验的重要产物,具有测量参数数量大,数据体量大,飞行试验数据与试飞任务信息关联性强等特征,支撑飞机型号取证与设计优化等任务。试飞数据平台数据架构对多源异构数据集成接入、多类形态数据存储管理、多种层次数据处理分析等技术进行了研究,采用湖仓一体的关键技术和方法打造试飞数据全集。试飞数据接入采用流批一体的数据处理技术,融合Spark和Flink主流数据处理引擎,具备试飞数据快速入库能力。提出按秒聚合方法,具备PB级多维度试飞数据压缩存储功能,存储性能提升近10倍;采用以秒为索引条件支持快速检索,强化数据湖查询能力。研究数据仓库技术,设计试飞数据多层数据模型,具备多维信息精细查询,多层数据灵活钻取,多功能自定义函数集成等功能,并成功应用在某型国产民机的飞行试验数据管理中,服务于试飞数据用户,提高了试飞数据管理效率与试飞数据应用价值。  相似文献   

17.
针对水利普查数据海量、多维的特点,研究近年来在“大数据”概念下发展迅速的Hadoop与Hive,结合传统数据仓库在多维数据分析方面的成熟技术,提出基于Hive的水利普查数据仓库的构建方法,描述数据仓库系统的架构,并根据Hive的设计特点,通过分桶、消减维度表和冗余事实表的方法来改进传统的多维分析模型,最后搭建集群系统对水利普查数据集进行查询与分析测试。测试结果表明该数据仓库可以满足海量多维水利普查数据的存储与查询要求。   相似文献   

18.
王佳英  王斌  杨晓春 《软件学报》2016,27(7):1715-1728
随着下一代,第三代等测序技术的快速发展,DNA 等生物序列数据快速增长.如何高效的处理这些大数据是目前的一个挑战.研究发现这些生物序列数据尽管很大,但是不同数据之间具有高相似性.因此可以通过保存这些基因串同一个基准序列之间的差异来减少存储的代价.最新的研究发现可以在这些压缩的数据上直接进行查询,而不需要解压缩.本文研究的目标是进一步提高索引和查询的可伸缩性,从而满足日益增长的大数据需要.本文首先在现有方法基础之上,对基准序列进行了压缩存储.基于该压缩数据,本文提出了一系列优化查询方法来高效的支持任意长度序列的精确和近似查询.在此基础上,本文进一步对原有方法进行改进,利用并行计算来提高对大数据的查询效率.最后,实验研究展示了本文提出的方法的高效性.  相似文献   

19.
In the data retrieval process of the Data recommendation system, the matching prediction and similarity identification take place a major role in the ontology. In that, there are several methods to improve the retrieving process with improved accuracy and to reduce the searching time. Since, in the data recommendation system, this type of data searching becomes complex to search for the best matching for given query data and fails in the accuracy of the query recommendation process. To improve the performance of data validation, this paper proposed a novel model of data similarity estimation and clustering method to retrieve the relevant data with the best matching in the big data processing. In this paper advanced model of the Logarithmic Directionality Texture Pattern (LDTP) method with a Metaheuristic Pattern Searching (MPS) system was used to estimate the similarity between the query data in the entire database. The overall work was implemented for the application of the data recommendation process. These are all indexed and grouped as a cluster to form a paged format of database structure which can reduce the computation time while at the searching period. Also, with the help of a neural network, the relevancies of feature attributes in the database are predicted, and the matching index was sorted to provide the recommended data for given query data. This was achieved by using the Distributional Recurrent Neural Network (DRNN). This is an enhanced model of Neural Network technology to find the relevancy based on the correlation factor of the feature set. The training process of the DRNN classifier was carried out by estimating the correlation factor of the attributes of the dataset. These are formed as clusters and paged with proper indexing based on the MPS parameter of similarity metric. The overall performance of the proposed work can be evaluated by varying the size of the training database by 60%, 70%, and 80%. The parameters that are considered for performance analysis are Precision, Recall, F1-score and the accuracy of data retrieval, the query recommendation output, and comparison with other state-of-art methods.  相似文献   

20.
针对多媒体数据库中具有时态特性的媒体对象,提出一种基于区间的索引机制,目的是为了提高时间检索的性能。这种时态索引可以快速查找任意时间段中的时态对象,它能有效地支持多种时态关系操作符;支持多种时态集函数;支持时态JOIN操作等等。该索引支持媒体展示过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号