首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
为了分析DBLP数据中的多种类型的实体信息, 挖掘其中特定的知识, 首先根据异质网络Graph OLAP(图联机分析处理)模型, 建立相应的数据仓库模型; 然后依据实体维的概念, 构建多维异质图立方模型; 最后针对 Graph OLAP处理异质网络能力不足的问题, 补充了旋转和拉伸操作, 并完善了Graph OLAP原型系统Liter Miner。实证表明设计的原型系统可以有效地对DBLP数据中的多维异质网络进行分析, 挖掘出研究人员需要的知识。  相似文献   

2.
在联机分析处理(OLAP)中,有效地维度模型对海量数据的即席复杂分组聚集查询起着关键的作用.在偏序和映射的基础上,通过定义层次有序维,提出一种基于层次有序维的分组聚集算法.该算法利用维属性之间的聚集关系,通过约束层次链中的元素次序,实现了分组聚集计算中多表连接转换为维范围的查询,提高了连接和聚集效率.最后,实验结果验证了该算法的有效性.  相似文献   

3.
对信息网络数据集进行面向主题、多维、多层次的在线分析处理(on-line analytical processing,OLAP)面临数据规模爆炸,问题复杂性剧增等技术难题,传统OLAP技术不再适用。提出了面向信息网络的在线图处理(on-line graphic processing,OLGP)模型,OLGP包含节点集合、边集合、信息维集合,每个节点包含拓扑维集合;设计并实现了OLGP模型的核心操作(信息维上卷、拓扑维上卷、异步上卷)算法。对含有17431位作者的12499篇ACM论文的真实合作者网络数据集进行了相关分析处理,结果表明,信息维上卷仅需要113ms,拓扑维上卷仅需要61ms。  相似文献   

4.
为了使列存储OLAP(on-line analytical processing)操作中I/O和CPU开销较大的扫描、连接、聚集操作实现有效的共享和复用,提出了一个多查询优化技术。根据列存储以及OLAP操作的特点,提出了一系列转换规则,为OLAP查询请求产生的一组相关查询语句生成一个单一全局查询计划。为了达到共享复用的目的,在全局计划中引入新的过滤结点、分组结点、合并结点和聚集结点。同时,借用MuGA(multiply group by algo-rithm)算法,通过分组结点、合并结点、连接结点实现维表及事实表元组的分组序号标记,从而实现列扫描、列连接的共享。并为聚集结点提出了一个多阶段聚集算法,结合最终生成的事实表复合分组序号,实现聚集操作的复用。在SSB(star schema benchmark)数据集上设计实验,证明了该多查询优化策略的有效性。  相似文献   

5.
张延松  张宇  黄伟  王珊  陈红 《软件学报》2009,20(Z1):165-175
根据OLAP查询的特点和内存数据库的性能特征提出了由多个内存数据库组成的并行OLAP查询处理系统,将OLAP应用中的多维聚集查询分布到各个计算节点并行进行聚集计算,并将聚集计算的结果进行合并输出.与其他并行处理方法相比,该算法充分利用OLAP DB结构中维表远小于事实表的特性,根据数据库中事实表的数据量和节点的数据处理能力进行水平数据库分片,并根据聚集函数的可分布计算特性提高查询处理的并行度,延迟并行查询处理中的合并过程,充分利用节点的并行处理能力,减少并行查询处理过程中的数据通信量,提高系统并行查询处理性能.该算法易于实现,具有较好的可扩展性和性能,适用于企业级海量数据处理领域的需求.  相似文献   

6.
基于OLAP的数据挖掘,是数据挖掘的一个新的发展方向。对于如何把OLAP(联机分析处理技术)和DM(数据挖掘)统一起来,从而在数据库或数据仓库的不同层次进行挖掘,提出了OLAP数据挖掘系统的结构。通过研究数据挖掘方法和OLAP操作的特点,以及数据立方的构建和物化,对传统的DM算法进行了改进,设计并实现了更能适应OLAP数据挖掘引擎的算法。  相似文献   

7.
一种基于维层次编码的OLAP聚集查询算法   总被引:8,自引:2,他引:8  
联机分析处理(OLAP)查询往往需在海量数据上进行即席的复杂分组聚集查询,在其SQL语句中通常包含多表连接和分组聚集操作,因而减少多表连接和压缩关键字,以及对查询数据进行有效地分组聚集操作,成为ROLAP查询处理的关键问题。提出了一种基于维层次编码的新型预分组聚集算法DHEPGA.DHEPGA算法充分利用了编码长度较小的维层次编码及其前缀,来快速检索出与查询关键字相匹配的维层次编码,求得维层次属性的查询范围,减少了I/O开销,提高了OLAP查询效率。理论分析和实验结果表明,DHEPGA算法性能是非常有效的。  相似文献   

8.
大数据分析的分布式MOLAP技术   总被引:1,自引:0,他引:1  
大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对这一挑战.提出了大数据环境中一种基于Hadoop分布式文件系统(HDFS)和MapReduce编程模型的分布式MOLAP技术,称为DOLAP(distributed OLAP).DOLAP采用一种特殊的多维模型完成维和度量的映射;采用维编码和遍历算法实现维层次上的上卷下钻操作;采用数据分块和线性化算法将维和度量保存在分布式文件系统中;采用数据块选择算法优化OLAP的性能;采用MapReduce编程模型实现OLAP操作.描述了DOLAP在科学数据分析的应用案例,并与主流的非关系数据库系统进行性能对比.实验结果表明,尽管数据装载性能略显不足,但DOLAP的性能要优于基于HBase,Hive,HadoopDB,OLAP4Cloud等主流非关系数据库系统实现的OLAP性能.  相似文献   

9.
现实生活中大量数据都可以使用多维网络进行建模,如何更好地对多维网络进行分析至今仍是研究人员关注的重点.OLAP(联机分析处理)技术已被证实是对多维关系数据进行分析的有效工具,但应用OLAP技术管理和分析多维网络数据以支持有效决策仍旧是一项巨大的挑战.本文设计并提出了一种新的图立方体模型:路径-维度立方体,并针对提出的立方体模型将物化过程划分为关系路径物化与关联维度物化两部分,分别提出了物化策略并基于Spark框架设计了相关算法;在此基础上,我们针对网络数据设计并细化了相关的GraphOLAP(图联机分析处理)操作,丰富了框架的分析角度,提高了对多维网络的分析能力;最后,在Spark上实现了相关算法,通过对多个真实应用场景中的数据构建多维网络,在分析框架上进行了分析,实验表明我们提出的图立方体模型和物化算法具有一定有效性和可扩展性.  相似文献   

10.
在数据仓库、大量交易记录系统、移动计算、联机分析处理系统(OLAP)等许多领域中聚集数据的处理是一个非常重要的核心问题。该文首先分析了聚集数据查询的特点,引入了聚集查询语言和聚集查询重写;其次对于聚集查询环境下如何实现快速查询,给出了一个基于聚集数据的近似查询计算模型;最后将该计算模型应用于人口统计系统,从而实现对统计信息类数据进行快速的查询处理,获得有效的查询结果。  相似文献   

11.
半监督图核降维方法   总被引:1,自引:0,他引:1       下载免费PDF全文
基于图结构的数据表示和分析,在机器学习领域正得到越来越广泛的关注。以往研究主要集中在为图数据定义一个度量其相似性关系的核函数即图核,一旦定义出图核,就可以用标准的支持向量机(SVM)来对图数据进行分类。将图核方法进行扩充,先利用核主成分分析(kPCA)对图核诱导的高维特征空间中的数据进行降维,得到与原始图数据相对应的低维向量表示的数据,然后对这些新得到的数据用传统机器学习方法进行分析;通过在kPCA中利用图数据中的成对约束形式的监督信息,得到基于图核的半监督降维方法。在MUTAG和PTC等标准图数据集上的实验结果验证了所提方法的有效性。  相似文献   

12.
图划分是大规模分布式图处理的首要工作,对图应用的存储、查询、处理和挖掘起基础支撑作用.随着图数据规模的不断扩大,真实世界中的图表现出动态性.如何对动态图进行划分,已成为目前图划分研究的热点问题.从不同动态图划分算法的关注点和特点出发,系统性地介绍当前可用于解决动态图划分问题的各类算法,包括流式图划分算法、增量式图划分算法和图重划分算法.首先介绍图划分的3种不同的划分策略及问题定义、图的两种不同的动态性来源以及动态图划分问题;然后介绍3种不同的流式图划分算法,包括基于Hash的划分算法、基于邻居分布的划分算法以及基于流的优化划分算法;其次介绍单元素增量式划分和批量增量式划分这两种不同的增量式图划分算法;再次,分别介绍针对图结构动态的重划分算法和针对图计算动态的重划分算法;最后,在对已有方法分析和比较的基础上,总结目前动态图划分面临的主要挑战,提出相应的研究问题.  相似文献   

13.
针对现存的基于自适应邻域的多视图聚类算法没有考虑噪声和共识图信息损失的问题,提出一种基于自适应邻域的鲁棒多视图聚类(RMVGC)算法。首先,为了避免噪声和异常值对数据的影响,通过鲁棒主成分分析模型(RPCA)从原始数据中学习多个干净的低秩数据;其次,用自适应邻域学习直接融合多个干净的低秩数据来得到一个干净的共识关系图,从而减少图融合过程中的信息丢失。实验结果表明,所提RMVGC算法的标准化互信息(NMI)在MRSCV1、BBCSport、COIL20、ORL和UCI digits数据集上比目前流行的多视图聚类算法分别提升了5.2、1.36、27.2、4.66和5.85个百分点。同时,该算法保持了数据局部结构,增强了对原始数据的鲁棒性,提高了关系图质量,在多视图数据集上具有较好的聚类性能。  相似文献   

14.
赵港  王千阁  姚烽  张岩峰  于戈 《软件学报》2022,33(1):150-170
图神经网络(GNN)是一类基于深度学习的处理图域信息的方法,它通过将图广播操作和深度学习算法结合,可以让图的结构信息和顶点属性信息都参与到学习中,在顶点分类、图分类、链接预测等应用中表现出良好的效果和可解释性,已成为一种广泛应用的图分析方法.然而现有主流的深度学习框架(如TensorFlow、PyTorch等)没有为图...  相似文献   

15.
The data generated from non-Euclidean domains and its graphical representation (with complex-relationship object interdependence) applications has observed an exponential growth. The sophistication of graph data has posed consequential obstacles to the existing machine learning algorithms. In this study, we have considered a revamped version of a semi-supervised learning algorithm for graph-structured data to address the issue of expanding deep learning approaches to represent the graph data. Additionally, the quantum information theory has been applied through Graph Neural Networks (GNNs) to generate Riemannian metrics in closed-form of several graph layers. In further, to pre-process the adjacency matrix of graphs, a new formulation is established to incorporate high order proximities. The proposed scheme has shown outstanding improvements to overcome the deficiencies in Graph Convolutional Network (GCN), particularly, the information loss and imprecise information representation with acceptable computational overhead. Moreover, the proposed Quantum Graph Convolutional Network (QGCN) has significantly strengthened the GCN on semi-supervised node classification tasks. In parallel, it expands the generalization process with a significant difference by making small random perturbations of the graph during the training process. The evaluation results are provided on three benchmark datasets, including Citeseer, Cora, and PubMed, that distinctly delineate the superiority of the proposed model in terms of computational accuracy against state-of-the-art GCN and three other methods based on the same algorithms in the existing literature.  相似文献   

16.
本文从决策的角度出发,结合马尔可夫决策过程理论,建立了计算最短路径树(SPT)的有限阶段决策模型.引入一个辅助图:反转图,结合它修改了模型的理论求解算法,提出了SPT反转递归迭代算法,并证明了算法的正确性.在此基础上,又提出了不使用反转图的改进模型和算法.算法的时间和空间复杂度分析表明:本文提出的算法具有分布式并行计算的特点,可以均衡各节点的工作负载,降低时间和空间复杂度,并可以有效防止环路的产生,因此可以有效应用于资源匮乏的嵌入式互连环境和对等网络环境中.  相似文献   

17.
近年来,图计算在诸多领域发挥着越来越重要的作用。连通分量算法是图计算的重要基础算法,可以应用于可达性查询、一致性检测等众多场景。面向大规模图遍历Graph500标准测试,对连通分量算法进行了算法和数据结构优化。主要有以下创新:(1)对并查集提出了捷径向量算法,并测试了算法和数据结构的配合程度; (2)利用多线程迭代轮转对算法实现并行加速;(3)从多个维度比较了不同实现方法的优缺点。基于优化方法,对性能进行了评估分析,当scale=25(包含225个节点)时,捷径向量算法对基于二维向量和链表的按秩合并算法的加速比分别是1.38倍和1.40倍,对BFS和DFS的加速比分别为4.76倍和4.70倍,且空间占用为该2 个算法的4.1%~4.6%,此外,并行对串行的加速比为1.57倍。  相似文献   

18.
对赋权图上经典优化问题的DNA计算方法进行探讨,改进原有DNA计算模型中的权值编码方法,提出一些新的DNA编码方法及DNA算法.具体地说,通过设计赋权无向图的相对长度图给出了旅行商问题的一种相对长度DNA编码方法及DNA算法,通过设计赋权无向图的广义边图给出了中国邮递员问题的一种广义边图DNA编码方法及DNA算法,通过选取DNA序列的最佳逆补比对给出了最小生成树问题的一种基于逆补比对的DNA编码方法及DNA算法,通过设计从顶点覆盖问题到Hamilton回路问题的一种改进多项式变换给出了顶点覆盖问题的一种基于多项式变换的DNA编码方法及DNA算法.所设计的DNA计算方法提高了DNA计算中表示数值和处理数值的能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号