首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
张健雄  宋坤  何鹏  李兵 《计算机科学》2021,48(12):149-158
软件系统中通常存在一些在拓扑结构上处于核心位置的关键类,这些类上的缺陷往往会给系统带来极大的安全隐患,识别关键类对工程师理解或维护一个软件系统至关重要.针对这一问题,提出一种基于图神经网络的关键类识别方法.首先利用复杂网络理论,将软件系统抽象为软件网络;其次结合无监督网络节点嵌入学习以及邻域聚合的方式,构建一个编码-解码(encoder-decoder)框架,提取软件系统中类节点的表征向量;最后利用Pairwise排序学习实现网络中节点的重要性排序,从而实现软件系统中关键类的识别.为验证所提方法的有效性,选取4个Java开源软件作为实验对象,并与常用的5种节点重要性度量方法以及2个已有工作进行对比分析.实验结果表明:与介数中心性、K-core、接近中心性、节点收缩法和PageRank等方法相比,该方法识别关键类的效果更好;另外,相比已有工作,在前15%的关键类节点中,所提方法的召回率和准确率的提高幅度均在10%以上.  相似文献   

2.
何鹏  卫操  吕晟凯  曾诚  李兵 《软件学报》2023,34(11):5029-5041
软件系统是一个复杂的人工制品,类之间的交互关系对软件质量有着潜在影响,如软件缺陷的级联传播效应就是一个典型.如何准确预测软件系统中类之间合理关系,优化设计结构是软件质量保障的一个开放问题.从软件网络观的视角,综合考虑软件系统中类与类之间关系(外部图),以及每个类内部方法之间关系(内部图),将软件系统抽象成一个图中图结构的软件网络,并在此基础上提出一种基于图中图卷积神经网络的类交互关系预测方法.首先对每个类内部图进行卷积得到类节点的初始特征,再通过外部图的卷积更新类节点的表征向量,最后通过计算类节点对的评估值进行交互预测.根据在6个Java开源项目上的实验结果显示,图中图结构有助于提高软件系统结构的表征能力,且所提方法与常规网络嵌入方法相比, AUC值和AP值的平均增长率超过5.5%.与此同时,和两种同行方法相比, AUC值和AP值的平均增长率分别在9.36%和5.22%以上.  相似文献   

3.
利用h指数及其衍生度量识别关键类   总被引:1,自引:0,他引:1       下载免费PDF全文
在维护不熟悉的软件系统时,需要花费大量的时间去理解系统的架构和功能。为帮助人们进行程序理解,在指数度量的基础上开发了一种轻量级的、自动化的关键类识别方法。软件维护人员可以从该方法识别出来的关键类入手,熟悉系统的架构和功能。首先根据类间的依赖关系构建类之间的依赖图,然后在依赖图的基础上计算h指数及其衍生指数度量值评价类的重要性。在两个开源软件系统上的实验结果表明,与先前的工作相比,该方法能够在保证识别准确性的情况下快速识别出系统中的关键类。  相似文献   

4.
刘成斌  郑巍  樊鑫  杨丰玉 《计算机应用》2019,39(12):3633-3638
针对软件系统模块间具有依赖关系的问题,通过对软件系统网络结构进行分析,构建了基于网络表征学习的混合缺陷预测模型。首先,将软件系统以模块为单位转换成软件网络;然后,使用网络表征技术来无监督学习软件网络中每个模块的系统结构特征;最后,结合系统结构特征和卷积神经网络学习的语义特征构建一个混合缺陷预测模型。实验结果表明:在Apache三个开源软件poi、lucene和synapse上所提混合缺陷预测模型具有更好的缺陷预测效果,其F1指标比最优模型——基于卷积神经网络(CNN)的缺陷预测模型分别提高了3.8%、1.0%、4.1%。软件网络结构特征分析为缺陷预测模型的构建提供了有效的研究思路。  相似文献   

5.
中文命名实体识别在机器翻译、智能问答等下游任务中起着重要作用。提出一种新的基于gazetteers和句法依存树的中文命名实体识别方法,旨在解决由于字符向量缺少词信息和词之间的句法依赖结构信息而导致的错误传递问题。该方法将句子中的gazetteers信息和句法依存树信息形成图,再通过自适应门控图神经网络(adapted gated graph neural networks,AGGNN)将其融入到字符向量中,从而使得每个字向量很好地获取词汇间的语义关系,提升识别准确率。通过在Ecommerce、Resume、QI等数据集的验证,新的方法可以使得中文实体识别的准确率得到较大提升。  相似文献   

6.
软件代码提交是最重要的软件版本演化数据之一,被广泛应用于软件审查和软件理解中.对于程序员,提交的理解难度随着受影响的类数量、修改的代码量的增加而增加.本文通过对大量数据的分析发现,识别出提交中核心的修改类(关键类),以及为了完成这个核心修改所进行的依赖性改动的类(非关键类),能够辅助代码提交的理解.受机器学习技术在分类领域有效性的启发,本文提出一种基于机器学习的关键类识别方法,将判定提交中的关键类建模为二分类问题(即:关键和非关键类),从软件演化过程中产生的海量提交数据中抽取可判别性特征来度量类的关键性.在多个数据集上的实验结果表明,我们的方法判定关键类的综合准确率达到了87%;相比于开发人员直接理解提交,使用关键类信息提示来辅助理解提交能够显著提高开发人员的效率和正确率.  相似文献   

7.
软件漏洞逐年递增,安全问题愈发严重。在软件项目的交付阶段对原始代码进行漏洞检测可以有效避免后期运行时的安全漏洞,而代码漏洞检测依赖于有效的代码表征。传统的基于软件度量的表征方法与漏洞关联性较弱,难以对漏洞信息进行有效表征。近年来,机器学习为漏洞的智能化发现提供了新的思路,但该方法同样可能遗漏关键的代码特征信息。针对以上问题,文中在传统抽象语法树(AST)上增加控制依赖、数据依赖和语句序列边生成增强抽象语法树(EXAST)图结构,对原始代码进行表征以更好地处理代码结构化信息,并采用词向量嵌入算法(Word2Vec)将代码信息初始化为机器能够识别和学习的数值向量。同时,在传统的图神经网络(GNN)中引入门控循环单元(GRU),构建图识别模型,以缓解梯度消失并加强图结构中长期信息的传播,从而增强了代码执行的时序关系,提高了漏洞检测的准确度。最后在SARD公开数据集上对模型进行对比测试,实现了函数粒度的代码漏洞检测,相比传统的漏洞检测方法,准确率和F1分值分别最大提高了32.54%和44.99,实验结果证明了所提方法对代码漏洞检测的有效性。  相似文献   

8.
随着网络结构数据持续、快速的增长,各种复杂网络数据分析与应用层出不穷.近年来,网络表征学习已经成为各类网络分析任务的主流方法.网络表征学习的主要目标是依据节点间连接关系,学习高质量的节点表征向量,从而辅助分析下游任务.然而,现有的表征学习方法未考虑节点在网络中的位置信息.为了解决这一问题,提出了一种位置感知网络表征学习模型PMI,该模型通过最大化每个中心节点与各阶邻居之间的互信息,从而将节点的位置信息学入表征向量中.在表征训练过程中,PMI模型激励每个中心节点记住并识别其每阶的邻居节点,从而间接记录其位置信息.在4个不同领域的真实数据集上进行了多标签分类、网络重构、链接预测等多个代表性网络分析任务实验,实验结果表明提出的PMI模型可以学到高质量的节点表征向量,与现有的表征学习模型相比,PMI模型能够在多个下游任务上有较大幅度提升.此外,还设计邻居对齐任务对PMI模型进行进一步的分析,结果表明PMI模型学到的节点表征能够有效识别不同阶的邻居节点并捕获自身的位置信息,从而为各种下游任务生成合理有效的表征.  相似文献   

9.
为有效提升基于微服务架构的遗留软件系统重构的自动化水平,根据存在依赖关系的两个类所操作的资源数据之间存在着一定相关性的原则,提出了一种资源约束下基于类依赖关系的微服务识别方法。首先,根据遗留软件程序中的类依赖关系构建类依赖关系图,并设置每个类的资源实体标签;然后,设计了基于资源实体标签的类依赖关系图划分算法,用以划分原软件系统和得到候选微服务;最后,合并依赖程度较高的候选微服务,从而得到最终的微服务集合。基于GitHub的4个开源项目的实验结果表明,所提方法具有高于90%的微服务划分准确率,证实了同时考虑不同类之间的依赖关系和资源约束对于微服务识别是合理和有效的。  相似文献   

10.
针对于传统方法中存在的文本特征表示能力差、模型主题识别准确率低等问题,提出一种融合SENet与卷积神经网络的文本主题识别方法.将每个词对应的Word2vec词向量与LDA主题向量进行融合,并依据词语对主题的贡献度完成文档加权向量化处理;构建SECNN主题识别模型,使用SENet对卷积层输出的特征图进行权值的重标定,依靠...  相似文献   

11.
异质网络是包含多种类型节点和边的复杂信息网络,因此异质网络的可视化通常涉及异质信息的有效处理与可视技术,传统的网络可视化技术对于异质网络可视化来说布局效果混乱、异质信息难以体现。为此提出一种基于动态投影嵌入的多维度异质网络可视化方法。该方法从异质网络的表示学习方法入手,提出动态投影嵌入模型来学习异质网络的节点表示,在此基础上,提出了多维度(空间)的可视化方法,将异质网络节点根据不同属性映射至不同关系空间中进行可视化分析,从而挖掘出潜在的语义信息。实验结果表明,提出的方法不仅使异质网络表示学习的评价指标(MRR)提升了10%,而且从多维度(空间)对异质网络进行可视化,有效地展示和挖掘了网络中的异质信息与潜在语义信息。  相似文献   

12.
Network representation learning called NRL for short aims at embedding various networks into lowdimensional continuous distributed vector spaces. Most existing representation learning methods focus on learning representations purely based on the network topology, i.e., the linkage relationships between network nodes, but the nodes in lots of networks may contain rich text features, which are beneficial to network analysis tasks, such as node classification, link prediction and so on. In this paper, we propose a novel network representation learning model, which is named as Text-Enhanced Network Representation Learning called TENR for short, by introducing text features of the nodes to learn more discriminative network representations, which come from joint learning of both the network topology and text features, and include common influencing factors of both parties. In the experiments, we evaluate our proposed method and other baseline methods on the task of node classification. The experimental results demonstrate that our method outperforms other baseline methods on three real-world datasets.  相似文献   

13.
服务推荐过程中,为充分利用用户标签标注关系与用户的社交关系信息,提升推荐结果的准确性,提出一种基于异质用户网络嵌入的方法,通过将用户节点映射为一个低维的向量,再利用得到的用户向量进行协同推荐。在公开数据集Delicious上进行了实证分析,实验结果表明,相对已有的2个方法,该方法的推荐精度可分别提高18.1%和16.6%,且发现在学习用户表征向量时,节点之间的直接关系与"朋友的朋友"关系对表示用户节点结构信息同等重要;同时,推荐过程中为目标用户返回的相似用户在25个最为适宜。  相似文献   

14.
随着信息技术的快速发展,信息网络无处不在,例如社交网络、学术网络、万维网等.由于网络规模不断扩大以及数据的稀疏性,信息网络的分析方法面临巨大挑战.作为应对网络规模及数据稀疏挑战的有效方法,信息网络表征学习旨在利用网络的拓扑结构、节点内容等信息将节点嵌入到低维的向量空间中,同时保留原始网络固有的结构特征和内容特征,从而使...  相似文献   

15.
Guo  Kun  Wang  Qinze  Lin  Jiaqi  Wu  Ling  Guo  Wenzhong  Chao  Kuo-Ming 《Applied Intelligence》2022,52(9):9919-9937

The Network representation learning methods based on random walk aim to learn a low-dimensional embedding vector for each node in a network by randomly traversing the network to capture the features of nodes and edges, which is beneficial to many downstream machine learning tasks such as community detection. Most of the existing random-walk-based network representation learning algorithms emphasize the neighborhood of nodes but ignore the communities they may form and apply the same random walk strategy to all nodes without distinguishing the characteristics of different nodes. In addition, it is time-consuming to determine the most suitable random walk parameters for a given network. In this paper, we propose a novel overlapping community detection algorithm based on network representation learning which integrates community information into embedding vectors to improve the cohesion degree of similar nodes in the embedding space. First, a node-centrality-based walk strategy is designed to determine the parameters of random walk automatically to avoid the time-consuming manual selection. Second, two community-aware random walk strategies for high and low degree nodes are developed to capture the characteristics of the community centers and boundaries. The experimental results on the synthesized and real-world datasets demonstrate the effectiveness and efficiency of our algorithm on overlapping community detection compared with the state-of-the-art algorithms

  相似文献   

16.
廖祥文  刘德元  桂林  程学旗  陈国龙 《软件学报》2018,29(10):2899-2914
观点检索是自然语言处理领域中的一个热点研究课题.现有的观点检索模型在检索过程中往往无法根据上下文将词汇进行知识、概念层面的抽象,在语义层面忽略词汇之间的语义联系,观点层面缺乏观点泛化能力.因此,提出一种融合文本概念化与网络表示的观点检索方法.该方法首先利用知识图谱分别将用户查询和文本概念化到正确的概念空间,并利用网络表示将知识图谱中的词汇节点表示成低维向量,然后根据词向量推出查询和文本的向量并用余弦公式计算用户查询与文本的相关度,接着引入基于统计机器学习的分类方法挖掘文本的观点.最后利用概念空间、网络表示空间以及观点分析结果构建特征,并服务于观点检索模型,相关实验表明,本文提出的检索模型可以有效提高多种检索模型的观点检索性能.其中,基于统一相关模型的观点检索方法在两个实验数据集上相比基准方法在MAP评价指标上分别提升了6.1%和9.3%,基于排序学习的观点检索方法在两个实验数据集上相比于基准方法在MAP评价指标上分别提升了2.3%和14.6%.  相似文献   

17.
基于深度自编码器的网络表示,可以捕获高度非线性的网络结构,但当链接稀疏时学到的表示不够准确。针对这一问题,提出一种基于深度自编码的局部增强属性网络表示学习模型,以提高表示学习的准确度。该模型首先利用链接与属性特征,采用多个深度自编码器,学习保持网络拓扑结构及属性特征的低维网络表示。之后,基于节点间近邻结构及属性相似性,对学出的低维网络表示进行节点约束,实现网络局部结构增强,达到最大程度保持原始结构信息及属性特征的目的。在五个真实属性网络上的实验结果表明,提出的模型在聚类与分类任务中,效果均优于目前流行的表示学习方法。  相似文献   

18.
网络已被广泛用作抽象现实世界系统以及组织实体之间关系的数据结构;网络嵌入模型是将网络中的节点映射为连续向量空间表示的强大工具;基于图卷积(GCN,graph convolutional neural, GCN)的网络嵌入方法因受其模型迭代过程参数随机优化和聚合函数的影响,容易造成原始节点特征信息丢失的问题;为有效提升网络嵌入效果,针对于图神经网络模型在网络嵌入中节点表征学习的局限性,提出了一种基于二阶邻域基数保留策略的图注意力网络(SNCR-GAT,second-order neighborhood cardinality retention strategy graph attention network),通过聚合二阶邻域特征基数的方式,解决网络节点潜在特征学习过程中重要信息保留问题;通过在节点分类和可视化两个网络嵌入应用任务上进行实验,结果表明,SNCR-GAT模型在网络嵌入上的性能表现相比较基准方法更具优越性。  相似文献   

19.
现有大多数网络嵌入方法仅保留了网络的局部结构信息,而忽略了网络中的其他潜在信息.为了保留网络的社区信息,并体现网络社区结构的多粒度特性,提出一种融合多粒度社区信息的网络嵌入方法(EMGC).首先,获得网络的多粒度社区结构,并初始化节点嵌入和社区嵌入;然后,根据上一粒度上的节点嵌入和本层粒度的社区结构,更新社区嵌入,进而...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号