共查询到20条相似文献,搜索用时 62 毫秒
2.
针对大数据新型处理框架Spark执行Apriori算法存在速率低、内存负荷高等不足,提出一种改进的Apriori优化算法.基于字典表压缩存储的机制,结合Spark框架中列式存储模式对多维多属性值的数据集进行压缩,通过Spark集群进行数据并行处理.实验表明,该算法比原算法执行速率提高23%以上,且在数据量越大的情况下其... 相似文献
3.
4.
介绍了Oracle的应用程序接口OCI,分析了SQL的执行过程。针对常规数据存储方法在海量数据存储和系统并发用户较多时效率低下的问题,定义一种简洁的数据结构,创建存储过程并完成对SQL信息的压缩。对比优化前后的实验数据,可以发现此方法能显著提高Oracle的数据存储效率。 相似文献
5.
6.
一种基于关系数据库XML 存储方案的数据库模型 总被引:1,自引:0,他引:1
存储方案是XML数据管理研究领域的核心问题之一。底层的存储表达在性能上对上层的查询和优化有着重要的影响,因此有效地建立XML文档的存储方案是首要问题。以关系数据库为基础,提出了一种基于边模型映射的XML存储方案的数据库模型。在该模型中,首先依据文档中的结点类型对XML文档树进行结构细化;其次采用联合表来存储结点的值,并在该表中采用结点序号和路径相结合的方式,仅记录每一个元素结点的路径;最后在这种新的存储模式的基础上,实现了针对该模型的数据库操作。实验表明,该模型在查询速度和存储空间方面较以往的工作都有明显的改善。 相似文献
7.
8.
从2002年起,某金融机构积累了大量的银行卡支付日志数据。随着业务的不断增长,数据集高速增长,原生的Hive的查询性能已经不能令人满意。文章研究了大数据及存储的现状,提出了一种基于存储日志的分析的Hive存储格式优化方法,通过该优化方法从查询时间和存储空间利用率两方面使系统性能得到提升,提升了查询效率。论文对该金融机构原有Hive存储系统通过基于存储日志分析的Hive存储格式优化方法进行改进,通过实际数据,充分证明了该方法的可行性。 相似文献
9.
在电网数据中台的运营过程中,为了加强成本控制,确保其稳定运行,需要针对数据存储进行资源优化。本文从冷数据归档、拉链表优化、无效数据清理等方式对中台数仓存储开展了优化设计,实施并评估了解决方案的成效。通过以上存储优化措施,可有效解决冷数据、无效数据占用数据中台存储问题,帮助企业降低成本,提升运营效率,提高存储资源利用率、生产率和客户满意度,辅助电网数据中台健康稳定运营,助力业务方开展电网大数据应用工作。 相似文献
10.
一种基于对象存储的文件系统的设计 总被引:1,自引:0,他引:1
随着存储技术的飞速发展,对象存储设备面临如何高效存储并管理TB级容量数据的问题.针对Linux通用文件系统Ext2在处理大文件和巨型目录结构时存在的局限性,采用B 树结构设计并实现了一种基于连续块的对象文件系统.对该文件系统进行的测试结果表明,该文件系统的读写效率较高,而且随着文件的增大,性能保持稳定. 相似文献
11.
一种基于RDBMS的XML数据的存储方法 总被引:1,自引:0,他引:1
XML作为一种数据交换的标准在互联网上推出,使得XML数据和数据库的相互交换成为必要:一是因为WEB中大量的多样化数据需要进行有效的存储和管理;二是因为在现有的数据库中存储有大量的数据并且需要将这些数据转换为XML发布到WEB中。论文提出了一个基于关系数据库的数据转换框架,基于数据的完整性讨论XML数据存储策略。建立一个XML通用数据模型,把文档树分解成多个节点,根据一定的映射规则存储到关系表中,从而不用考虑文档的模式信息(DTD、XMLSchema)。最后通过一个具体的文档实例来说明这种策略的有效性。 相似文献
12.
13.
随着本体种类和资源的增加,本体的结构越来越复杂,为了合理地存储各种结构类型的本体、支持高效的本体查询,本文提出了一种基于关系数据库的OWL本体存储方法。该方法通过细致考虑OWL的基本元素,采用与传统的本体分解存储模式不同的构词分类方法,将OWL本体中的类、属性、实例、属性特征和属性约束分别存储在一张二维表中,从而解决了资源与属性值之间的复杂关系问题,并保证了OWL本体存储到关系数据库后语义信息的完整性。最后,利用关系数据库管理系统高效的检索和匹配速度以及SQL语言的高度非过程化,将检索和匹配OWL本体转换成检索关系数据库,弥补了OWL本体数据查询效率低的不足之处。 相似文献
14.
现有的关系学习研究都是基于完备数据进行的,而现实问题中,数据通常是不完备的.提出一种从不完备关系数据中学习概率关系模型(probabilistic relational models,简称PRMs)的方法——MLTEC(maximum likelihood tree and evolutionary computing method).首先,随机填充不完备关系数据得到完备关系数据.然后从每个随机填充后的数据样本中分别生成最大似然树并作为初始PRM网络,再利用进化过程中最好的网络结构反复修正不完备数据集,最后得到概率关系模型.实验结果显示,MLTEC方法能够从不完备关系数据中学习到较好的概率关系模型. 相似文献
15.
16.
17.
一种基于测试需求约简的测试用例集优化方法 总被引:17,自引:1,他引:17
测试用例集优化的目标是用尽可能少的测试用例充分满足给定的测试目标.针对给定的测试目标,获得精简的测试需求集有助于提高测试用例集优化的效率和效果.从测试需求约简的角度考虑测试用例集优化,首先给出可以精确描述测试需求间相互关系的测试需求约简模型;基于此模型,提出一种测试需求约简方法,可以获得精简测试需求集,作为测试用例集生成和约简的基础,从而实现测试用例集优化.实验结果表明,测试需求约简有助于获得规模较小的测试用例集,实现系统、科学、有效的测试. 相似文献
18.
分级存储系统通过将数据在不同性能设备间动态迁移以达到高性能.已有分级存储系统未能充分利用负载信息导致数据迁移严重影响应用性能.提出了一种分级存储系统中的数据自动迁移方法AutoMig,目标是提高前台应用的I?O性能.AutoMig综合文件访问历史、文件大小、设备利用情况等参数,对文件进行动态分级,并使用LRU队列维护快速存储设备中的文件状态;挖掘关联文件用于自动预取;针对不同文件迁移操作采取不同的速率控制策略.对降级操作,根据负载变化动态调整迁移速率,对回迁操作则采取尽力而为的策略.在分级存储系统中的应用表明,与已有方法相比,AutoMig有效缩短了前台I?O响应时间. 相似文献
19.
数据库索引是关系数据库系统实现快速查询的有效方式之一.智能索引调优技术可以有效地对数据库实例进行索引调节,从而保持数据库高效的查询性能.现有的方法大多利用了数据库实例的查询日志,它们先从查询日志中得到候选索引,再利用人工设计的模型选择索引,从而调节索引.然而,从查询日志中产生出的候选索引可能并未实际存在于数据库实例中,因此导致这些方法不能有效地估计这类索引对于查询的优化效果.首先,设计并实现了一种面向关系数据库的智能索引调优系统;其次,提出了一种利用机器学习方法来构造索引的量化模型,根据该模型,可以准确地对索引的查询优化效果进行估计;接着设计了一种高效的最优索引选择算法,实现快速地从候选索引空间中选择满足给定大小约束的最优的索引组合;最后,通过实验测试不同场景下智能索引调优系统的调优性能.实验结果表明,所提出的技术可以在不同的场景下有效地对索引进行优化,从而实现数据库系统查询性能的提升. 相似文献
20.
《计算机科学与探索》2018,(2):218-230
溯源是描述一个数据对象的历史操作的元数据。溯源提高了数据本身所描述的价值,给出了"对象是如何创建的?它依赖了哪些其他对象?这两个对象的历史操作有何不同?"等问题的答案。分析了对象存储系统存储管理溯源信息的优势,研究并实现了如何利用对象存储系统架构来收集和存储溯源。通过在对象存储客户端利用系统状态文件获取系统内核信息,调用JHOVE应用程序来分析和封装文件格式,使用Linux系统的审计功能对普通应用程序进行监听,并将收集到的溯源信息封装成对象,存储到对象存储设备端Berkeley DB数据库或日志文件中。测试结果表明,基于对象的溯源存储系统在不同溯源信息的收集、存储和查询方面都具有较好的性能。 相似文献