首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
李战怀  于戈  杨晓春 《软件学报》2020,31(3):597-599
大数据时代,数据规模庞大,数据管理应用场景复杂,传统数据库和数据管理技术面临很大的挑战.人工智能技术因其强大的学习、推理、规划能力,为数据库系统提供了新的发展机遇.专刊强调数据管理与人工智能的深度融合,研究人工智能赋能的数据库新技术和新型系统,包括两方面:(1)传统数据管理、数据分析技术及系统与人工智能相结合,将会焕发新的生机;(2)大数据管理与分析是新一代人工智能技术发展的基石.因此,围绕传统数据管理的不同技术层面,需要新的理论和系统经验.  相似文献   

2.
张洲  金培权  谢希科 《软件学报》2021,32(4):1129-1150
索引是数据库系统中用于提升数据存取性能的主要技术之一.在大数据时代,随着数据量的不断增长,传统索引(如B+树)的问题日益突出:(1)空间代价过高.例如,B+树索引需要借助O(n)规模的额外空间来索引原始的数据,这对于大数据环境而言是难以容忍的.(2)每次查询需要多次的间接搜索.例如,B+树中的每次查询都需要访问从树根到叶节点路径上的所有节点,这使得B+树的查找性能受限于数据规模.自2018年来,人工智能与数据库领域的结合催生了“学习索引”这一新的研究方向.学习索引利用机器学习技术学习数据分布和查询负载特征,并用基于数据分布拟合函数的直接式查找代替传统的间接式索引查找,从而降低索引的空间代价并提升查询性能.首先对学习索引技术的现有工作进行了系统梳理和分类;然后,介绍了各种学习索引技术的研究动机与关键技术,对比分析了各种索引结构的优劣;最后,对学习索引的未来研究方向进行了展望.  相似文献   

3.
<正>以数字技术为标志的新一轮科技革命方兴未艾,将人类带入数字经济时代.全球各行各业数据量呈现爆炸式增长,数据类型和数据格式也呈现多种形式,例如结构化关系表、半结构化JSON/XML、非结构化文本/图像/视频,以及图数据、流数据和时序数据等.这要求数据库系统能够同时高效地管理多种不同类型的数据.多模态数据管理与分析成为亟需解决的问题.目前的方法主要通过拓展现有的数据库或通过集成各种不同模态数据管理引擎来支持多模态数据管理与分析,缺少新颖的理论、方法与技术的支撑.本专题围绕多模态数据管理与分析的整个生命周期,通过结合大数据技术和人工智能方法探讨新型数据库系统理论、方法和技术,包括多模态数据统一建模、存储与索引、查询与挖掘、并发控制、多模态数据库系统构建及其典型应用等主题,赋予数据库系统新的管理能力,形成多模态数据管理与分析在各行各业的最新应用成果.  相似文献   

4.
数据库是数据分析、人工智能、云计算和大数据等领域的关键工作负载,是提高系统整体性能的关键。传统数据库系统查询执行效率偏低,并且CPU通常需要优先处理事务性负载,使数据查询逐渐成为制约整个数据库系统性能和效率提升的瓶颈。为了提高数据库在大规模并发访问时的数据处理能力,提出了一种CPU+FPGA加速数据库查询的异构体系结构,通过使用异构缓存一致性加速接口将加速器集成到CPU中,在FPGA内定制可配置的多引擎查询方式,对数据库查询进行加速。聚焦常用的SQL查询语句SELECT,详细分析了系统在延迟和简化的软件堆栈方面的优势,最后使用浪潮F37X加速卡和浪潮服务器对加速模型功能和性能进行了验证。实验结果表明,与使用POWER 9 CPU进行同样的查询操作相比,数据库系统整体处理速度提高了3~9倍,这种先进的异构计算加速结构可应用在未来数据库硬件专业化的设计中。  相似文献   

5.
内存列存储数据库中优化的混合自适应索引   总被引:2,自引:0,他引:2  
薛忠斌  周烜  张延松  周新  王珊 《计算机科学》2015,42(11):28-31, 36
分析型数据库在现代企业中得到广泛应用,在使用过程中对查询处理速度的要求逐渐提高。大数据环境下,分析型数据库面临一系列新的挑战:首先,数据复杂性与日俱增,使得数据库系统的初始配置任务更加繁重,例如索引创建等;其次,在分析过程中,由于查询负载模式无法预知,需要对某些属性反复构建索引,以满足查询的时间要求。显然,传统的索引构建维护技术不能完全满足新的应用环境。数据库分裂技术提出了一种不同的策略去解决这些问题。使用数据库分裂技术,DBA不需要对数据库进行细粒度的系统配置。在查询执行过程中,数据库能自动调整以适应查询负载;随着查询负载的变化,系统自动调整索引。近年来,一系列数据库分裂算法被提出,但已有的算法都各有优缺点。因此给出了一个cache conscious的数据库分裂代价模型,并基于该模型构建了一个新的自适应索引,其可以综合不同数据库分裂算法的优势。通过大量实验验证了这种新自适应索引技术的有效性。  相似文献   

6.
建立高效的索引结构是提升数据库存取性能的关键技术之一.在数据呈爆发式增长、海量聚集、高维复杂的大数据环境下,传统索引结构(例如B+树)处理海量数据时面临空间代价高、查询效率低、存取开销大等难题.学习型索引技术通过对底层数据分布、查询负载等特征进行建模和学习,有效的提升了索引性能,并减少了访存空间开销.本文从学习型索引技术的基础模型入手,对RMI基础模型实现原理、构造和查询过程进行了分析,并总结了基础模型的优点和存在的问题;以此为基础,按照索引结构特点对学习型索引技术进行分类,从索引创建方式和更新策略两方面对学习型索引技术进行了系统梳理,并对比分析了典型学习型索引技术的优点及不足之处.另外,本文总结了学习型索引技术的扩展研究.最后,对学习型索引的未来研究方向进行了展望.  相似文献   

7.
李国良  周煊赫 《软件学报》2020,31(3):831-844
大数据时代下,数据库系统主要面临3个方面的挑战:首先,基于专家经验的传统优化技术(如代价估计、连接顺序选择、参数调优)已经不能满足异构数据、海量应用和大规模用户对性能的需求,可以设计基于学习的数据库优化技术,使数据库更智能;其次,AI时代,很多数据库应用需要使用人工智能算法,如数据库中的图像搜索,可以将人工智能算法嵌入到数据库,利用数据库技术加速人工智能算法,并在数据库中提供基于人工智能的服务;再者,传统数据库侧重于使用通用硬件(如CPU),不能充分发挥新硬件(如ARM、AI芯片)的优势.此外,除了关系模型,数据库需要支持张量模型来加速人工智能操作.为了解决这些挑战,提出了原生支持人工智能(AI)的数据库系统,将各种人工智能技术集成到数据库中,以提供自监控、自配置、自优化、自诊断、自愈、自安全和自组装功能;另一方面,通过使用声明性语言,让数据库提供人工智能功能,以降低人工智能的使用门槛.介绍了实现人工智能原生数据库的5个阶段,并给出了设计人工智能原生数据库的挑战.以自主数据库调优、基于深度强化学习的查询优化、基于机器学习的基数估计和自主索引/视图推荐为例,展示了人工智能原生数据库的优势.  相似文献   

8.
数据库索引是关系数据库系统实现快速查询的有效方式之一.智能索引调优技术可以有效地对数据库实例进行索引调节,从而保持数据库高效的查询性能.现有的方法大多利用了数据库实例的查询日志,它们先从查询日志中得到候选索引,再利用人工设计的模型选择索引,从而调节索引.然而,从查询日志中产生出的候选索引可能并未实际存在于数据库实例中,因此导致这些方法不能有效地估计这类索引对于查询的优化效果.首先,设计并实现了一种面向关系数据库的智能索引调优系统;其次,提出了一种利用机器学习方法来构造索引的量化模型,根据该模型,可以准确地对索引的查询优化效果进行估计;接着设计了一种高效的最优索引选择算法,实现快速地从候选索引空间中选择满足给定大小约束的最优的索引组合;最后,通过实验测试不同场景下智能索引调优系统的调优性能.实验结果表明,所提出的技术可以在不同的场景下有效地对索引进行优化,从而实现数据库系统查询性能的提升.  相似文献   

9.
分布武内存数据库已经成为了当今数据库的研究热点,而索引能够极大地提高数据库操作的性能.T-树索引是数据库系统中广泛使用索引技术之一.在T-树的基础上设计一种新的索引结构,在处理区间查询操作时其效率有明显的提高,也能够很好地解决数据插入、删除操作所造成的数据溢出问题.  相似文献   

10.
航天实时内存数据库存取机制MCacheTree的研究   总被引:1,自引:0,他引:1  
考虑到空间环境探测、空间科学实验所产生的数据时效性比较强,为了对它们进行有效的管理,研究了提高实时性能的索引技术.由于IO速度较慢、外存延迟时间难以预测,实时数据库系统通常采取内存数据库技术.基于此,提出了一种新的适合航天实时内存数据库系统的索引结构:MCacheTree,它将内存缓存和检索树有机地结合起来,并应用延迟写和延迟删除的优化技术,有效地降低了查询时间,提高了实时性能.最后通过实验验证了该设计的高效性.  相似文献   

11.
知识图谱数据管理研究综述   总被引:2,自引:0,他引:2  
王鑫  邹磊  王朝坤  彭鹏  冯志勇 《软件学报》2019,30(7):2139-2174
知识图谱是人工智能的重要基石.各领域大规模知识图谱的构建和发布对知识图谱数据管理提出了新的挑战.以数据模型的结构和操作要素为主线,对目前的知识图谱数据管理理论、方法、技术与系统进行研究综述.首先,介绍知识图谱数据模型,包括RDF图模型和属性图模型,介绍5种知识图谱查询语言,包括SPARQL、Cypher、Gremlin、PGQL和G-CORE;然后,介绍知识图谱存储管理方案,包括基于关系的知识图谱存储管理和原生知识图谱存储管理;其次,探讨知识图谱上的图模式匹配、导航式和分析型3种查询操作.同时,介绍主流的知识图谱数据库管理系统,包括RDF三元组库和原生图数据库,描述目前面向知识图谱的分布式系统与框架,给出知识图谱评测基准.最后,展望知识图谱数据管理的未来研究方向.  相似文献   

12.
丁光耀  徐辰  钱卫宁  周傲英 《软件学报》2024,35(3):1207-1230
计算机视觉因其强大的学习能力,在各种真实场景中得到了广泛应用.随着数据库的发展,利用数据库中成熟的数据管理技术来处理视觉分析应用,已成为一种日益增长的研究趋势.图像、视频和文本等多模态数据的相互融合处理,也促进了视觉分析应用的多样性和准确性.近年来,因深度学习的兴起,支持深度学习的视觉分析应用开始受到广泛关注.然而,传统的数据库管理技术在深度学习场景下面临着复杂视觉分析语义难以表达、应用执行效率低等问题.因此,支持深度学习的视觉数据库管理系统得到了广泛关注.综述了目前视觉数据库管理系统的研究进展:首先,总结了视觉数据库管理系统在不同层面上面临的挑战,包括编程接口、查询优化、执行调度和数据存储;其次,分别探讨了上述4个层面上的相关技术;最后,对视觉数据库管理系统未来的研究方向进行了展望.  相似文献   

13.
基于循环神经网络的数据库查询开销预测   总被引:1,自引:0,他引:1  
数据库负载管理、性能调优中,开销预测模型是提高其效率的关键技术。首先,由于数据库系统的复杂性和计算机资源的竞争,很难精确地估计不同操作的开销。其次,由于查询计划结构的复杂性,现有研究更多使用笼统的查询信息,而很少利用查询计划中操作层面的信息,并依据这些信息来获得开销模型。另外,现有的研究大多没有真正预测查询的执行时间,而是预测了类似查询优化器中开销模型生成的开销。为了减少负载管理的复杂性,本文提出了基于循环神经网络的精细模型来预测查询开销,以查询计划中的操作行为和其实际运行时间作为特征提取的来源。特别地,考虑到查询计划结构的复杂性,本文采用一种特殊的循环神经网络,长短期记忆(Long-Short Term Memory,LSTM)。给一个特定的查询计划,在该计划实际执行之前,模型就能产生其预测的执行时间。这会比现有数据库的查询优化器产生的开销预估结果(任意单位)更具有参考性;也优于需要在执行开始之后才能预测的查询进度指示器。本文提出的这种创新方法来预测查询执行时间,可以用于解决数据库负载管理中的关键问题。通过实验验证,模型的正确率高于71%,一定程度上证明了方法的可行性。  相似文献   

14.
With the rise of artificial intelligence, case-based health knowledge management systems (CBHKS) have been widely adopted in hospitals. CBHKS are data-driven intelligent platforms that integrate latest technologies, such as artificial intelligence and cloud computing. As an integral part of smart hospitals, CBHKS can support decision processes at different levels in hospitals. However, researchers have not yet clearly addressed how CBHBKS improves hospital management outcomes. Based on group effectiveness and leadership performance-maintenance theories, we develop a conceptual model to explain the role of CBHKS in hospital management. To test the research hypotheses in the conceptual model, we collected survey data from 214 doctors, and performed data analysis using partial least squares (PLS)-based structural equation modeling. The empirical testing results show that the CBHKS implementation significantly and positively influences group performance, group members’ satisfaction, group learning, and external satisfaction; and group members’ satisfaction and external satisfaction significantly and positively affect management performance and maintenance.  相似文献   

15.
传统关系型数据库通过人工方式进行索引推荐,已无法适应日益增长的数据需求,而机器学习技术可以有效地解决数据库索引选择问题。针对以往仅在静态数据库下进行索引推荐且无法及时更新索引配置的局限性,提出了一种基于强化学习算法实现为数据库数据动态变化情况下的一组工作负载推荐最佳多属性索引配置的方法(multi-attribute index intelligent recommendation approach, MIRA)。在公开的TPC-H数据集上的实验结果表明,该方法不仅能有效地为一组工作负载推荐最佳的索引配置,而且优于自定义的比较基线和相关强化学习方法。  相似文献   

16.
大数据时代丰富的信息来源促进了机器学习技术的蓬勃发展,然而机器学习模型的训练集在数据采集、模型训练等各个环节中存在的隐私泄露风险,为人工智能环境下的数据管理提出了重大挑战.传统数据管理中的隐私保护方法无法满足机器学习中多个环节、多种场景下的隐私保护要求.分析并展望了机器学习技术中隐私攻击与防御的研究进展和趋势.首先介绍了机器学习中隐私泄露的场景和隐私攻击的敌手模型,并根据攻击者策略分类梳理了机器学习中隐私攻击的最新研究;介绍了当前机器学习隐私保护的主流基础技术,进一步分析了各技术在保护机器学习训练集隐私时面临的关键问题,重点分类总结了5种防御策略以及具体防御机制;最后展望了机器学习技术中隐私防御机制的未来方向和挑战.  相似文献   

17.
Knowledge graph is an important cornerstone of artificial intelligence, which currently has two main data models: RDF graphs and property graphs. There are several query languages on these two data models, including SPARQL on RDF graphs and Cypher on property graphs. Over the last decade, various communities have developed different data management methods for RDF graphs and property graphs. Inconsistent data models and query languages hinder the wider application of knowledge graphs. In this paper, we propose a knowledge graphy database (KGDB) system with unified data model and query language. (1) We work out a unified storage scheme based on the relational model that supports the efficient storage of RDF graphs and property graphs, catering to the smooth storage and query of knowledge graph data. (2) The characteristic set-based clustering is used in KGDB for the storage of typeless entities. (3) It realizes the interoperability of SPARQL and Cypher by enabling them to operate on the same knowledge graph. Extensive experiments on real-world datasets and synthetic datasets reveal that KGDB is more efficient than existing knowledge graph database management systems in storage management and query efficiency. KGDB saves 30% of the storage space on average compared with gStore and Neo4j. In addition, KDGB is two orders of magnitude faster than gStore and Neo4j in the query of the real-world datasets, seen from experiments on the query of basic graph pattern matching.  相似文献   

18.
张少敏  蔡盼  李翠平  陈红 《软件学报》2023,34(5):2413-2426
在数据量与数据复杂度不断增加的时代,大数据处理与分析成为当前的热门研究内容,高维空间数据的使用越来越频繁,数据检索和访问速度成了衡量数据处理系统性能的重要指标.因此,如何设计实现一种高效的高维索引结构,提高查询访问速率、降低内存占用,变得至关重要.近年, Kraska等人提出了学习型索引的方法.实验证明该方法在真实数据集上表现良好.之后机器学习与深度学习在数据库系统中的运用越来越广泛.众多研究者尝试在高维数据上构建学习型索引,来提升高维数据的查询速度.但是目前的高维学习型索引采用的方法并不能将数据分布的信息有效利用起来,而且过于复杂的深度学习模型使得索引初始化开销过大.结合空间区域划分与降维两种技术,提出一种新颖的高维学习型索引.它能更有效地利用数据分布信息提高索引的查询效率,并利用多段线性模型在保证查找精确度的前提下尽可能减少索引初始化的开销.分别在随机生成的数据集和开源街区地图数据集上进行实验验证.结果表明,与现有的高维索引相比,其在索引构建、查询效率、以及内存占用方面都有显著提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号