首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
潘敏佳  李荣华  赵宇海  王国仁 《软件学报》2020,31(12):3823-3835
时序图数据是一类边上带有时间戳信息的图数据.在时序图数据中,时序环是边满足时间戳递增约束的回路.时序环枚举在现实中有着很多应用,它可以帮助挖掘金融网络中的欺诈行为.此外,研究时序环的数量对于刻画不同时序图的特性也有重要作用.基于2018年由Rohit Kumar等人提出的时序环枚举算法(2SCENT算法),提出一种通过添加环路信息来削减搜索空间的新型时序环枚举算法.所提出的算法为一个两阶段的算法:1)首先,通过遍历原图获得所有可能会形成环路的节点,以及相应的时间和长度信息;2)然后,利用以上信息进行动态深度优先搜索,挖掘所有的满足约束条件的环.在4个不同的真实时序图数据集上进行了大规模的实验,并以2SCENT算法作为基准对算法进行了对比.实验结果表明,所提出的算法较之前最好的2SCENT算法要快50%以上.  相似文献   

2.
张宇  刘燕兵  熊刚  贾焰  刘萍  郭莉 《软件学报》2014,25(9):1937-1952
对包含亿万个节点和边的图数据进行高效、紧凑的表示和压缩,是大规模图数据分析处理的基础.图数据压缩技术可以有效地降低图数据的存储空间,同时支持在压缩形式的图数据上进行快速访问.通过深入分析该技术的发展现状,将该技术分为基于传统存储结构的压缩技术、网页图压缩技术、社交网络图压缩技术、面向特定查询的图压缩技术4类.分别对每类技术详细分析了其代表方法并比较了它们之间的性能差异.最后对该技术进行了总结和展望.  相似文献   

3.
在社会网络分析中,介数中心度用于衡量顶点对网络结构的贡献大小,是一种广泛使用的顶点重要度衡量指标.该指标主要通过计算经过顶点的最短路径数来表明顶点的重要性.目前研究的介数中心度算法主要聚焦在普通图上,针对时态图的研究工作较少.普通图介数中心度计算方法主要依据Brandes算法设计,Brandes算法有效的关键理论是最短路径的子路径依然是最短路径,即最优子结构特性.然而时态图包含时态信息,时态路径类型多样,并且时态最短路径并不满足此特性,因此普通图介数中心度计算理论与方法不再适用于时态图.鉴于此,定义了严格(时态递增)和非严格(时态非递减)2种时态路径类型,并研究了时态图介数中心度计算理论与方法.提出了一种高效的基于消息传播的2阶段迭代计算框架.第1阶段采用自顶向下的广度优先遍历方式计算时态最短路径;第2阶段采用自底向上的方式计算顶点的后继节点和孩子节点对其介数中心度的贡献值,并设计了基于消息传播机制的迭代累积计算方法.为了提高效率和可扩展性,实现了基于OpenMP(open multiprocessing)框架的多线程并行算法FTBC(fast temporal betweenness...  相似文献   

4.
社会网络中的节点对采样可用于大规模社会网络的好友预测和用户兴趣识别.当整个网络的拓扑结构不完全或者随机选择用户的代价很高时,传统的均匀顶点采样方法的性能迅速下降.为此,提出了一种基于随机游走的大规模图中节点对采样算法.首先对社会网络的节点对采样进行了系统分析,对不同跳数下的节点对进行了定义;然后将社会网络转换成等价的网络图.新图中的顶点是原图中的边,新图中边的两个顶点是原图中含有相同顶点的两条边.最后,在新图上应用随机游走模型对节点对进行采样.实验结果表明,提出的方法统计误差小、执行效率高,性能明显优于均匀节点采样的相关算法.  相似文献   

5.
应用合适的压缩技术对包含上亿个节点和边的图数据进行紧凑准确的表示和存储是对大规模图数据进行分析和操作的前提。紧凑的图数据表示不仅可以降低图数据的存储空间,而且还可以支持在图数据上的高效操作。从图数据的存储角度出发对图数据管理中关于图数据压缩技术的研究进展进行综述,将重点介绍以下3种压缩技术:基于邻接矩阵的图数据压缩技术、基于邻接表的图数据压缩技术和基于形式化方法的图数据压缩技术,以及相关的代表性算法、适用范围和优缺点。最后对图数据压缩技术的现状和面临的问题进行了总结,并给出了未来图数据压缩技术的发展趋势。  相似文献   

6.
目前基因拼接软件中应用最广泛的技术是基于De Bruijn图的基因拼接算法,需要对长达数十亿BP长度的基因组测序数据进行处理.针对海量的基因测序数据,快速、高效和可扩展的基因拼接算法非常重要.虽然已出现一些并行拼接算法(如YAGA)开始研究这些问题,但是拼接过程中时间、空间消耗较大的构图和单链化简这两大步骤在海量数据的挑战下仍然是最主要的计算瓶颈.这是因为现有工作在处理这几个步骤时通常使用了并行的表排序(list ranking),而该方法需要多次对De Bruijn图的海量顶点信息进行分布式的排序,产生了大量的计算节点间的通信.单链化简可由1次De Bruijn 图深度优先遍历完成而不再需要表排序,于是提出一种基于分布式海量图遍历方法对单链化简进行优化,极大地减少了处理器间的通信和计算节点之间的数据移动,因而取得较好的扩展性,其算法复杂度为O(g/p),通信复杂度为O(g),这里g为参考序列的长度,p为处理器的核数.当对E.coli和Yeast数据集进行测试,处理器的核数从8个增加到512个时,算法可以得到13倍和10倍的加速比;当对C.elegans和人类1号染色体(chr1)数据集进行测试,处理器的核数从32个增加到512个时,算法可以得到7倍和10倍的加速比.  相似文献   

7.
针对大图结构特征如何影响划分效果这一问题,提出一种通过顶点度分布特征来描述大图结构特征的方法。首先,基于真实的图数据产生若干顶点数和边数相同、但结构特征不同的仿真数据集,通过实验计算真实图与仿真图之间的相似度,证明该方法对描述真实大图结构特征的有效性。然后,通过Hash和点对交换划分算法,验证图结构特征与划分效果之间的关系。当点对交换划分算法执行到5万次时,划分一个有6301个顶点和20777条边的真实图其交叉边数比Hash划分算法降低了54.32%,划分仿真图数据集中结构特征差异明显的两个图时,交叉边数分别为6233和316。实验结果表明,点对交换划分算法能够减少交叉边数,图的顶点度分布差异越大,划分后交叉边数越少,划分效果越好,因此大图结构特征影响其划分效果,这为建立图的结构特征与划分效果之间的关系模型研究奠定了基础。  相似文献   

8.
针对支持向量机(SVM)、长短期记忆(LSTM)网络等智能算法在股市波动预测过程中股票评价特征选择困难及时序关系维度特征缺失的问题,为能够准确预测股票波动、有效防范金融市场风险,提出了一种基于改进遗传算法(IGA)和图神经网络(GNN)的股市波动预测方法——IGA-GNN。首先,利用相邻交易日间的时序关系构建股市交易指标图数据;其次,通过评价指标特性优化交叉、变异概率来改进遗传算法(GA),从而实现节点特征选择;然后,建立图数据的边与节点特征的权重矩阵;最后,运用GNN进行图数据节点的聚合与分类,实现了股市波动预测。在实验阶段,所研究的股票总评价指标数为130个,其中IGA在GNN方法下提取的有效评价指标87个,使指标数量降低了33.08%。应用所提IGA在智能算法中进行特征提取,得到的算法与未进行特征提取的智能算法相比,预测准确率整体提升了7.38个百分点;而与应用传统GA进行智能算法的特征提取相比,应用所提IGA进行智能算法的特征提取的总训练时间缩短了17.97%。其中,IGA-GNN方法的预测准确率最高,相较未进行特征提取的GNN方法的预测准确率整体提高了19.62个百分点;而该方法与用传统GA进行特征提取的GNN方法相比,训练时间平均缩短了15.97%。实验结果表明,所提方法可对股票特征进行有效提取,预测效果较好。  相似文献   

9.
图数据是一种特殊的数据形式,由节点和边组成.在这种数据中,实体被建模为节点,节点之间可能存在边,表示实体之间的关系.通过分析和挖掘这些数据,人们可以获得很多有价值的信息.因此,对于图中各个节点来说,它也带来了隐私信息泄露的风险.为了解决这个问题,本文提出了一种基于负数据库(NDB)的图数据发布方法.该方法将图数据的结构特征转换为负数据库的编码形式,基于此设计出一种扰动图(NDB-Graph)的生成方法,由于NDB是一种保护隐私的技术,不显式存储原始数据且难以逆转.故发布的图数据能确保原始图数据的安全.此外,由于图神经网络在图数据中关系特征处理方面的高效性,被广泛应用于对图数据的各种任务处理建模,例如推荐系统,本文还提出了一种基于NDB技术的图神经网络的推荐系统,来保护每个用户的图数据隐私.基于Karate和Facebook数据集上的实验表明,与PBCN发布方法相比,本文的方法在大多数情况下表现更优秀,例如,在Facebook数据集上,度分布最小的L1误差仅为6,比同隐私等级下的PBCN方法低约2.6%,最坏情况约为1400,比同隐私等级下PBCN方法低约46.5%.在基于LightGCN的协同过滤实验中,也表明所提出的隐私保护方法具有较高的精度.  相似文献   

10.
蔡瑞初  李烁  许柏炎 《计算机应用研究》2021,38(9):2635-2639,2645
在机器学习领域,与传统的神经网络相比,图神经网络在社交推荐等任务中发挥着越来越重要的作用,但是目前工作中大多数都使用静态图.针对现有静态图神经网络方法难以考虑社交用户动态特性的问题,通过引入动态图模型提出了一种基于异构动态图模型的社交网络节点分类方法.该方法在动态图建模的基础上,通过基于点边交互的节点特征更新机制和基于循环神经网络的时序聚合方法,实现了高效的动态社交网络节点分类.在多个真实数据集上的实验结果表明,提出方法在动态社交网络数据的节点分类方面有较好的效果,对比静态图和动态图的基准方法有显著的提升.  相似文献   

11.
科技论文数据的知识表征是一个有待解决的问题,而如何学习科技论文异质网络中论文节点的表示是解决这一问题的核心。文中提出了一种基于无监督集群级的科技论文异质图节点表示学习方法(Unsupervised Cluster-level Scientific Paper Heterogeneous Graph Node Representation Learning Method, UCHL),以获取科技论文异质图中节点(作者、机构与论文等)的表示。基于科技论文异质图表示对整个异质图进行链接预测,获取节点之间边的关系,即论文与论文之间的关联关系。实验结果表明,在真实的科技论文数据集上,所提方法在多项评测指标上都取得了更优的性能。  相似文献   

12.
节点或边不可靠网络的可靠度分析问题是NP-hard问题,网络节点和边都不可靠的假设更接近现实。基于网络节点和边二元状态的假设,构建了节点和边不可靠网络的形式化模型,给出了分析节点和边不可靠网络可靠度的NEF_MDD算法。该算法将单个节点与其未访问邻接边划分为一个集合,通过枚举节点和边的不同组合,合并导致子网同构的冗余状态,获得简化后的状态向量和可靠度向量,并用一个多值决策图变量来表述。通过使用自定义的MDD操作算子,构建整个网络的MDD,遍历MDD节点,计算网络的可靠度。与二元决策图方法相比,该方法能够降低决策图层数和节点规模,有助于节点和边不可靠网络的可靠度分析。  相似文献   

13.
图表示学习是实现各类图挖掘任务的基础。现实当中的图数据,不仅包含复杂的网络结构,还包括多样化的节点信息。如何将网络结构和节点信息更加有效地融入图的表示学习中,是一个重要的问题。为了解决这一问题,本文基于深度学习提出了融合节点先验信息的图表示学习方法。该方法将节点特征作为先验知识,要求学习到的表示向量同时保持图数据中的网络结构相似性和节点特征相似性。该方法的时间复杂度为O(|V|),其中|V|为图节点数量,表明该方法适用于大规模图数据分析。同时,在多个数据集上的实验结果表明,所提出的方法相比目前流行的几种基线方法,在分类任务上能够获得良好而稳定的优势。  相似文献   

14.
时序图是一种边上带有时间戳的图结构,其中边上的时间戳表示该边出现时间,即图随时间变化不断变化.图数据中的稠密子图挖掘问题具有非常强烈的现实意义.目前,时序图中大多数现有的工作都集中在稠密子图检测问题,该问题目标是找到时序图中所有的目标子图.然而,当时序图的规模过大时,这一问题将变得极其复杂且收效甚微.旨在研究在时序图中...  相似文献   

15.
基于边采样的网络表示学习模型   总被引:1,自引:0,他引:1  
陈丽  朱裴松  钱铁云  朱辉  周静 《软件学报》2018,29(3):756-771
近年来,以微博、微信、Facebook为代表的社交网络不断发展,网络表示学习引起了学术界和工业界的广泛关注。传统的网络表示学习模型利用图矩阵表示的谱特性,由于其效率低下、效果不佳,难以应用到真实网络中。近几年,基于神经网络的表示学习方法因算法效率高、能较好保存网络结构信息,逐渐成为网络表示学习的主流算法。网络中的节点因为不同类型的关系而相互连接,这些关系里隐藏了非常丰富的信息(如兴趣、家人),但所有现存方法都没有区分节点之间边的关系类型。本文提出一个能够编码这种关系信息的无监督网络表示学习模型NEES,首先通过边采样得到能够反映边关系类型信息的边向量,其次利用边向量为图中每个节点学习到一个低维表示。我们分别在几个真实网络数据上进行了多标签分类、边预测等任务,实验结果表明NEES方法能取得超过现存最好算法的优异效果,且其是可规模化的,可以很好地应用于大型网络的表示与计算。  相似文献   

16.
动态故障树分析对于复杂系统来说是一种重要的可靠性分析技术,但是二叉决策图等传统模块化方法存在严重的状态空间爆炸问题.本文系统介绍了边值决策图的动态故障树分析方法,其中边值多值决策图相对于其它现有的决策图具有更紧凑的表示函数,通过状态数的缩减,缩短了计算时间,有效缓解状态空间爆炸问题.实例证明了边值多值决策图在多状态系统和多功能系统中使用的方法和优势.  相似文献   

17.
李瑞远  洪亮 《软件学报》2018,29(6):1792-1812
子图匹配是图论中最基本的操作.研究子图匹配的一个变种,即:在一个节点拥有若干元素的大图数据库中,找到与给定查询图结构同构并且对应节点元素的加权集合包含度大于给定值的所有子图,称作基于包含度的子图匹配(subgraph matching with inclusion degree,简称SMID).该查询能够应用于多种场景,包括论文检索、社区发现、企业招聘等.为高效实现SMID,设计了同时包含节点元素和图结构信息的数据签名与查询签名,在离线处理阶段,利用数据签名为数据图建立动态签名树(DS-Tree),以加快在线处理时图节点的匹配过程.为解决DS-Tree占用空间大的问题,设计了一种DS-Tree压缩方法,在对查询效率影响不大的情况下减小了索引空间.为进一步加快查询效率,还提出了支配子图查询算法.在真实数据和人工数据上的实验结果表明,所提出的方法在效率和扩展性方面优于现有其他方法.  相似文献   

18.
方法压缩率较高,图压缩算法无法直接被用于下游任务分析的问题,提出一种图摘要与图压缩的融合算法,即基于节点相似性分组与图压缩的图摘要算法(GSNSC)。首先,初始化节点为超节点,并根据相似度对超节点分组;其次,将每个组的超节点合并,直到达到指定次数或指定节点数;再次,在超节点之间添加超边和校正边以恢复原始图;最后,对于图压缩部分,判断对每个超节点的邻接边压缩和摘要的代价,并选择二者中代价较小的执行。在Web-NotreDame、Web-Google和Web-Berkstan等6个数据集上进行了图压缩率和图查询实验。实验结果表明,在6个数据集上,与SLUGGER(Scalable Lossless sUmmarization of Graphs with HiERarchy)算法相比,所提算法的压缩率至少降低了23个百分点;与SWeG(Summarization of Web-scale Graphs)算法相比,所提算法的压缩率至少降低了13个百分点;在Web-NotreDame数据集上,所提算法的度误差比SWeG降低了41.6%。以上验证了所提算法具有更好的图压缩率和图查询准确度。  相似文献   

19.
针对数据结构课程教学中顶点数受限的最短路径问题,提出一种基于图分层的改进SPFA算法——K_SPFA。借鉴图分层思想,将原图拓展为层数与顶点限制数相等的图层,将原图中的边拓展成图层间的边。利用2个同步循环的FIFO队列和贪心策略,对SPFA算法的数据存储结构和最短路径更新操作进行改进,从而实现原图中顶点数受限的最短路径寻找。实验结果表明,K_SPFA具有较低的平均时间复杂度。  相似文献   

20.
在很多的机器学习和数据挖掘任务中,特征子集选择是重要的数据预处理步骤之一。提出一种基于图方法的无监督式特征选择方法(GBFS),构造一个以样本数据为顶点,数据间相似性作为边的图,再根据各特征的得分优先选择那些具有局部信息保持和全局区分能力的特征。实验结果表明,基于该方法选择的特征子集,在大多数情况下都能取得较好的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号