排序方式: 共有54条查询结果,搜索用时 15 毫秒
1.
区块链系统中的分布式数据管理技术——挑战与展望 总被引:6,自引:0,他引:6
区块链是在数字加密货币的应用基础之上发展起来的一种分布式数据库技术.区块链系统具有去中心化、不可篡改、分布共识、可溯源和最终一致性等特点,这使其可以用于解决不可信环境下数据管理问题.区块链独特的数据管理功能已经成为各领域应用中发挥区块链价值的关键.本文基于对比特币、以太坊、超级账本等代表性区块链系统的研究分析,阐述区块链系统中分布式数据管理技术.首先,深入讨论区块链系统与传统分布式数据库系统之间的异同点,从分布式部署模式、节点角色、链拓扑结构等多个方面给出区块链的分类.然后,详细分析各类区块链系统所使用的数据存储结构、分布式查询处理与优化技术及其优缺点.最后,总结区块链系统的分布式数据管理技术在各专门领域应用中所面临的挑战和发展趋势. 相似文献
2.
近年来随着互联网的普及和相关技术的日益成熟,大规模图数据处理成为新的研究热点.由于传统的如Hadoop等通用云平台不适合迭代式地处理图数据,研究人员基于BSP模型提出了新的处理方案,如Pregel,Hama,Giraph等.然而,图处理算法需要按照图的拓扑结构频繁交换中间计算结果而导致巨大的通信开销,这严重地影响了基于BSP模型的系统的处理性能.首先从降低消息通信的角度分析当前主流BSP系统的处理方案,然后提出了一种基于边聚簇的垂直混合划分策略(EC-VHP),并建立代价收益模型分析其消息通信优化的效果.在EC-VHP的基础上,提出了一个点-边计算模型,并设计了简单Hash索引和多队列并行顺序索引机制,进一步提高消息通信的处理效率.最后,在真实数据集和模拟数据集上的大量实验,验证了EC-VHP策略和索引机制的正确性和有效性. 相似文献
3.
针对大数据环境下完整性查询时间代价消耗过高的问题,提出了一种采用近似完整性查询方法的系统——Probery。Probery所采用的近似完整性查询方法不同于传统的近似查询,其近似性主要体现为数据查全的可能性,是一种新型的数据查询方法。Probery首先将存入系统的数据划分为多个数据分段;然后,根据概率放置模型将各个数据分段的数据存储在分布式文件系统中;最后,对于给定的查询条件,Probery采用一种启发式查询方法进行概率查询。通过与其他主流的非关系型数据管理系统的查询性能进行比较,对Probery进行验证,Probery在损失8%查询完整性的情形下,查询时间较HBase相比节约了51%,较Cassandra相比节约了23%,较MongoDB相比节约了12%,较Hive相比节约了3%。实验结果表明,Probery可以适当地损失查询完整性来提高数据的查询性能,具有较好的通用性、适应性和可扩展性。 相似文献
4.
封闭数据立方是一种有效的无损压缩技术,它去掉了数据立方中的冗余信息,从而有效降低了数据立方的存储空间、加快了计算速度,而且几乎不影响查询性能.Hadoop的MapReduce并行计算模型为数据立方的计算提供了技术支持,Hadoop的分布式文件系统HDFS为数据立方的存储提供了保障.为了节省存储空间、加快查询速度,在传统数据立方的基础上提出封闭直方图立方,它在封闭数据立方的基础上通过编码技术进一步节省了存储空间,通过建立索引加快了查询速度.Hadoop并行计算平台不论从扩展性还是均衡性都为封闭直方图立方提供了保证.实验证明:封闭直方图立方对数据立方进行了有效压缩,具有较高的查询性能,根据Hadoop的特点通过增加节点个数明显加快了计算速度. 相似文献
5.
最小生成树(minimum spanning tree,MST)是图论中最为经典算法之一.基于MST结构的聚类、分类和最短路径查询等复杂图算法,在效率和结果质量方面均有显著提高.然而,随着互联网的迅猛发展,图数据规模也变得越来越大,包含千万甚至上亿个顶点的大图数据越发常见.因此,如何在大图数据上实现查询处理和数据挖掘算法已成为亟待解决的问题之一.除此之外,由于大图数据的动态性特征,如何动态地维护算法结果也势必成为最受关注的问题之一.针对目前集中式的最小生成树算法无法解决海量和动态图数据的问题,首先提出了分区Prim(partition Prim,PP)算法,基于此提出了顶点驱动的并行MST算法——PB(PP Boru。vka)算法,并论证了PB算法的正确性.另外,基于MapReduce和BSP框架实现了PB算法.针对只删除动态图特征,提出了MST维护算法,以实现高效的增量计算.对提出的计算和维护算法进行了代价分析和比较.最后,使用真实和模拟数据集,验证了PB算法和维护算法的有效性、高效性和可扩展性. 相似文献
6.
7.
云数据管理系统能耗基准测试与分析 总被引:2,自引:0,他引:2
云数据管理系统是一种新兴的数据管理系统.为了研究云数据管理系统的能耗优化,实现"绿色计算",首先要定义能耗的度量模型和基准测试方法,分析系统的能耗特点.目前云数据管理系统的基准测试主要集中在性能方面,对能耗方面的评估和优化工作很少;对测量仪器、测试手段、测试用例以及能耗基本规律的研究存在空白.文中提出了一种能耗的度量模型和数学表达;定义了一组数据装载、查询和分析用例来测试云数据管理系统的能耗;设计了系统能耗的测量方法;分析了若干云数据管理系统在执行数据装载、读取、查询、聚集和连接等操作时的能耗特征,提出了通过降低"等待能耗"而进行云数据管理系统的能耗优化.大量实验数据证明,尽管云计算被认为是一种绿色计算,但文中测试的云数据管理系统在能耗方面差异较大,需要对部分系统进行进一步的优化. 相似文献
8.
数据仓库环境下以用户为中心的数据清洗过程模型 总被引:7,自引:1,他引:7
数据清洗是数据仓库和数据挖掘中非常重要的一个环节。本文首先分析总结了数据清洗的有关概念,给出了数据清洗中需要解决的质量问题,并总结了解决这些问题的技术和方法。在此基础上提出了以人为中心的数据清洗过程模型。该模型集成了工作流技术、数据集成、数据转换和数据挖掘技术。给出了每个工具箱应该提供的基本功能。 相似文献
9.
支持Internet上个性化信息重组与发布的Web挖掘关键技术的研究 总被引:1,自引:0,他引:1
Internet上个性化信息的重组与发布是Web个性化技术的一个重要组成部分,这一领域目前存在的主要问题是:并非没有信息重组和发布的工具,而是缺乏能够使这类工具高效工作的支持技术。本文提出一种将流数据处理技术引入Web点击流、IP地址流及页面文本流挖掘和分析过程,研究基于Web数据流挖掘的用户行为和需求分析方法;将本体和领域知识引入Web内容挖掘过程,研究领域知识指导下的Web内容挖掘方法;将基于Web数据流挖掘的用户行为和需求分析与领域知识指导下的Web内容挖掘相结合,研究Internet上Web信息模式和Web用户模型及其相互关系的建立;将上述研究成果应用于实际,以期达到高效地支持Internet上满足用户个性化要求的信息重组与发布的目的。 相似文献
10.
星链ER模型:一种数据仓库概念设计模型 总被引:5,自引:0,他引:5
对于流程工业中的数据仓库建设,存在一贯性质量分析的需求,即前一个工序的工艺可能影响下一个工序的产品质量.针对这种需求,提出了一种数据仓库的概念设计模型,星链ER模型.其中引入了链式事实主题结构的概念,并把度量细分为传递型度量与非传递型度量,给出了星链ER模型的图形表示法以及由概念模型到逻辑模型的转换规则.该模型可以方便地转化成多种逻辑模型如星型模式、雪花模式以及星座模式. 相似文献