首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
现实世界中的社交网络、合作者网络、邮件网络等诸多复杂系统均可抽象为动态信息网络。动态信息网络具有时序、复杂、多变的特征,分析其网络结构随时间演化的过程,尤其演化过程中出现的异常现象,对理解复杂系统的行为倾向于演化趋势具有重要意义。致力于动态信息网络中异常结构演化过程的发现,通过角色定义刻画网络的结构特征,提出了角色演化异常(role evolving outliers,REOutliers)的概念,并给出了基于模式挖掘的角色演化异常发现算法(pattern-based role evolving outliers detection,P-REOD)。该算法挖掘整个网络中角色随时间演化的频繁模式,通过比较节点到频繁模式的相异程度进行REOutliers发现。实验表明,该算法能够进行有效的角色演化异常发现。  相似文献   

2.
基于频繁模式的离群点挖掘在入侵检测中的应用   总被引:1,自引:0,他引:1  
王茜  唐锐 《计算机应用研究》2013,30(4):1208-1211
针对网络安全数据高维度的特征,对传统离群点检测不能有效发现的网络数据中入侵行为细节进行检测。提出一种基于频繁模式的算法,通过检测数据项的频繁模式和关联规则,剥离数据流中或安全日志数据中的噪声和异常点,计算安全数据的加权频繁离群因子,精确定位离群点,最后从中自动筛选出异常属性。实验证明,该方法在较好的空间复杂性与时间复杂性下,能有效地发现在高维安全数据中异常的属性。  相似文献   

3.
发现离群点并合理地解释离群点对数据挖掘结果的运用有重要意义,通过对离群点属性的检测可以发现其离群特性,进而更加准确地解释聚类结果。针对在聚类结果中出现的不同离群点及其特性,提出将层次聚类算法应用于离群点分析,通过元胞自动机距离变换算法实现凝固层次聚类,实现了簇间距离的度量;定义了演化周期上的平均度量距离,能够发现不同聚类层次上的离群点及其离群特性。该算法能够在得到聚类结果的同时,有效地解释离群点的属性,并具有较低的计算复杂度和并行计算以及向高维空间扩展的特性。通过试验数据进行了实证研究,验证了算法的有效性。  相似文献   

4.
高维空间中的离群点发现   总被引:35,自引:2,他引:33  
在许多KDD(knowledge discovery in databases)应用中,如电子商务中的欺诈行为监测,例外情况或离群点的发现比常规知识的发现更有意义.现有的离群点发现大多是针对数值属性的,而且这些方法只能发现离群点,不能对其含义进行解释.提出了一种基于超图模型的离群点(outlier)定义,这一定义既体现了"局部"的概念,又能很好地解释离群点的含义.同时给出了HOT(hypergraph-based outlier test)算法,通过计算每个点的支持度、隶属度和规模偏差来检测离群点.该算法既能够处理数值属性,又能够处理类别属性.分析表明,该算法能有效地发现高维空间数据中的离群点.  相似文献   

5.
离群点检测和分析离群模式隐含的特征是离群点挖掘的重要研究内容.现有离群点检测算法存在两个明显的不足:根据离群度检测离群点,难以确定离群点的数量;忽略了与离群点邻接的聚类信息,不能提供解析离群模式的有效证据.为此,提出一种基于共享反K近邻的离群点检测算法,首先定义了一种对密度和维数变化不敏感的共享反K近邻相似度,然后应用聚类方法将数据集划分为聚类簇和包含离群点的离群簇,从而获取数据集中的离群点及解析离群点的聚类结构.仿真结果表明,反K近邻算法比现有方法更能精确地检测数据集中的局部离群点,具有很好的控制性能.  相似文献   

6.
离群点检测(又称为异常检测)是找出其行为很不同于预期对象的过程。离群点检测在医疗处理、公共安全、工业损毁检测、图像处理、传感器、视频网络监视和入侵检测等有非常重要的应用。提出了一种离群点检测的非参数方法。  相似文献   

7.
针对窃电行为现场查证具有难以克服的现实困难,提出一种基于离群数据挖掘的窃电行为检测方法。该离群算法基于密度聚类算法,采用基于用电量波动的不同方向识别不同的用电模式,基于用电频率、离群距离以及异常规则关联度的计算挖掘潜在离群数据点,并通过基于评价矩阵确定离群阈值对离群数据点存在窃电行为的可能性进行确定性分析,实现对窃电行为的数据化检测。最后通过仿真测试证明该算法在针对混杂不同用电模式的用电数据的窃电检测方面相对于其他数据挖掘算法具有更好的性能表现。  相似文献   

8.
离群点检测是数据挖掘领域的重要研究方向之一,可以从大量数据中发现少量与多数数据有明显区别的数据对象。在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术。为了提高离群点检测准确度,文中在局部离群测度(SLOM)算法的基础上,作了一些改进,提出了一种基于密度的局部离群点检测算法ESLOM。引入信息熵确定数据对象的离群属性,并对对象距离采用加权距离,以提高离群点检测准确度。理论分析和实验表明该算法是可行有效的。  相似文献   

9.
基于距离的不确定离群点检测   总被引:4,自引:0,他引:4  
在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术.这项技术在确定性数据中已经得到了深入的研究,但在新兴的不确定数据领域却是一项新的研究课题.在无线传感器网络、数据集成和数据挖掘等技术中使用不确定数据模型更能真实反映现实世界,进一步提高这些技术的实际可行性.针对不确定数据,提出新的离群点定义.提出基于距离的不确定数据离群点检测的高效过滤方法,包括基础过滤方法b-RFA和改进方法o-RFA,最后提出高效概率计算方法DPA.b-RFA方法利用非离群点的过滤性质,减少检测次数.o-RFA方法通过挖掘数据分布信息对b-RFA方法作出改进,进一步提高过滤效率.DPA方法找到概率求解中的递推规律,极大提高了单点检测效率.实验结果显示:提出的方法可以有效地减少候选集,降低搜索空间,改善在不确定数据上的查询性能.  相似文献   

10.
基于k均值分区的数据流离群点检测算法   总被引:10,自引:0,他引:10  
离群知识发现是数据挖掘研究的一个重要方面,数据流离群点挖掘更因其挖掘对象具有动态性、不可复读性、数据量大等特点而成为离群知识发现研究的一个难点.提出一种基于k均值分区的流数据离群点发现算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后在这些均值参考点中,根据离群点的定义找出可能存在的离群点.理论分析和实验结果表明,算法可以有效解决数据流离群点检测问题,算法是有效可行的.  相似文献   

11.
Antagonistic communities refer to groups of people with opposite tastes, opinions, and factions within a community. Given a set of interactions among people in a community, we develop a novel pattern mining approach to mine a set of antagonistic communities. In particular, based on a set of user-specified thresholds, we extract a set of pairs of communities that behave in opposite ways with one another. We focus on extracting a compact lossless representation based on the concept of closed patterns to prevent exploding the number of mined antagonistic communities. We also present a variation of the algorithm using a divide and conquer strategy to handle large datasets when main memory is inadequate. The scalability of our approach is tested on synthetic datasets of various sizes mined using various parameters. Case studies on Amazon, Epinions, and Slashdot datasets further show the efficiency and the utility of our approach in extracting antagonistic communities from social interactions.  相似文献   

12.
The network structure exhibits a variety of changes over time. Fusing this structure and the development of communities in dynamic networks plays an important role in analyzing the evolution and development of the entire network. How to ensure the division of the community structure in social network big data, as well as ensure the continuity of the community between the current time and previous time period, are issues that need to be explored. This problem can be solved by fusing the three characteristics of temporal variability, stability, and continuity in dynamic social network communities, and by adopting the multi-objective optimization method to detect community structures in dynamic networks. The probability fusion method is added to the initial step of the algorithm to generate suitable network partitions and ensure fast convergence and high accuracy. Two neighboring fusion strategies are proposed that are suitable for communities: the neighbor diversity strategy and the neighbor crowd strategy. These two strategies make different changes to the candidate network partitions. A continuity metric for dynamic community evolution is formulated to compare the similarity of the dynamic network communities of two consecutive time steps. Experiments on synthetic datasets and actual datasets prove that the proposed method in this paper provides better performance than existing methods.  相似文献   

13.
针对传统离群点检测算法在类极度不平衡的高维数据集中难以学习离群点的分布模式,导致检测率低的问题,提出了一种生成对抗网络(generative adversarial network,GAN)与变分自编码器(variational auto-encoder,VAE)结合的GAN-VAE算法。算法首先将离群点输入VAE训练,学习离群点的分布模式;然后将VAE与GAN结合训练,生成更多潜在离群点,同时学习正常点与离群点的分类边界;最后将测试数据输入训练后的GAN-VAE,根据正常点与离群点相对密度的差异性计算每个对象的离群值,将离群值高的对象判定为离群点。在四个真实数据集上与六个离群点检测算法进行对比实验,结果表明GAN-VAE在AUC、准确率和F;值上平均提高了5.64%、5.99%和13.30%,证明GAN-VAE算法是有效可行的。  相似文献   

14.
提出了一种无需参数设置的社区演化跟踪算法CommTracker,它有效利用社区中核心点来为两个处于不同时间段的社区之间建立演化关系。这种方法非常适合于大规模数据集。当社区之间的演化关系建立后,利用CommTracker来鉴定演化路径中存在的分裂点和融合点。重点分析了社区演化路径之间的关系:路径相交和社区重生。最后,通过实验,验证了CommTracker的正确性和有效性。  相似文献   

15.
Although a large body of work is devoted to finding communities in static social networks, only a few studies examined the dynamics of communities in evolving social networks. In this paper, we propose a dynamic stochastic block model for finding communities and their evolution in a dynamic social network. The proposed model captures the evolution of communities by explicitly modeling the transition of community memberships for individual nodes in the network. Unlike many existing approaches for modeling social networks that estimate parameters by their most likely values (i.e., point estimation), in this study, we employ a Bayesian treatment for parameter estimation that computes the posterior distributions for all the unknown parameters. This Bayesian treatment allows us to capture the uncertainty in parameter values and therefore is more robust to data noise than point estimation. In addition, an efficient algorithm is developed for Bayesian inference to handle large sparse social networks. Extensive experimental studies based on both synthetic data and real-life data demonstrate that our model achieves higher accuracy and reveals more insights in the data than several state-of-the-art algorithms.  相似文献   

16.
一种基于增量式谱聚类的动态社区自适应发现算法   总被引:6,自引:0,他引:6  
蒋盛益  杨博泓  王连喜 《自动化学报》2015,41(12):2017-2025
针对当前复杂网络动态社区发现的热点问题, 提出一种面向静态网络社区发现的链接相关线性谱聚类算法, 并在此基础上提出一种基于增量式谱聚类的动态社区自适应发现算法. 动态社区发现算法引入归一化图形拉普拉斯矩阵呈现复杂网络节点之间的关 系,采用拉普拉斯本征映射将节点投影到k维欧式空间.为解决离群节点影响谱聚类的效果和启发式确定复杂网络社区数量的问题, 利用提出的链接相关线性谱聚类算法发现初始时间片的社区结构, 使发现社区的过程能够以较低的时间开销自适应地挖掘复杂网络社区结构. 此后, 对于后续相邻的时间片, 提出的增量式谱聚类算法以前一时间片聚类获得的社区特征为基础, 通过调整链接相关线性谱聚类算法实现对后一时间片的增量聚类, 以达到自适应地发现复杂网络动态社区的目的. 在多个数据集的实验表明, 提出的链接相关线性谱聚类算法能够有效地检测出复杂网络中的社区结构以及基于 增量式谱聚类的动态社区自适应发现算法能够有效地挖掘网络中动态社区的演化过程.  相似文献   

17.
基于结构的社会网络分析   总被引:2,自引:0,他引:2  
互联网的发展和社交网站的流行为研究社会网络提供了大规模的实验平台.主要使用DBLP和Facebook数据集构建网络,采取角色连接轮廓方法从结构上进行划分,发现它们属于外围串类型;验证了社会网络的一些统计性质,比如无标度分布、稠化定律和直径缩减等;发现社会网络中存在紧密连接且直径较小的核心结构,规模中等的社区主要呈现星型结构;基于事件框架研究了社会网络中社区结构的进化,发现社区间的融合很大程度上取决于社区间直接连接的节点所构成网络的聚类系数,而社区的分裂则与该社区的聚类系数相关.  相似文献   

18.
Recently, social networking sites are offering a rich resource of heterogeneous data. The analysis of such data can lead to the discovery of unknown information and relations in these networks. The detection of communities including ‘similar’ nodes is a challenging topic in the analysis of social network data, and it has been widely studied in the social networking community in the context of underlying graph structure. Online social networks, in addition to having graph structures, include effective user information within networks. Using this information leads to enhance quality of community discovery. In this study, a method of community discovery is provided. Besides communication among nodes to improve the quality of the discovered communities, content information is used as well. This is a new approach based on frequent patterns and the actions of users on networks, particularly social networking sites where users carry out their preferred activities. The main contributions of proposed method are twofold: First, based on the interests and activities of users on networks, some small communities of similar users are discovered, and then by using social relations, the discovered communities are extended. The F-measure is used to evaluate the results of two real-world datasets (Blogcatalog and Flickr), demonstrating that the proposed method principals to improve the community detection quality.  相似文献   

19.
SimRank方法是一种基于图的拓扑结构信息来衡量任意两个对象间相似程度的方法,针对在真实的大规模社交网络中节点与节点之间的迭代计算过程需要消耗大量的时间,提出了一种基于SimRank全局矩阵平滑收敛的网络社区发现方法(SimRank global smooth convergence,SGSC)。首先,该算法通过经典度量来识别网络中的初始核心节点;然后利用矩阵平滑收敛来计算SimRank得到最终核心节点;最后,基于全局收敛矩阵,将社区聚集在核心节点周围,使用Closeness指数合并两个社区,通过递归的重复该过程,聚类出最终社区。在3种真实的不同规模的社交网络中将SGSC和其他2种具有代表性的方法进行比较,并验证了提出的算法在不同规模的社交网络中社区划分的准确率和算法运行的时间性能上有所提升。  相似文献   

20.
Community search is an important problem in network analysis, which has attracted much attention in recent years. As a query-oriented variant of community detection problem, community search starts with some given nodes, pays more attention to local network structures, and gets personalized resultant communities quickly. The existing community search method typically returns a single target community containing query nodes by default. This is a strict requirement and does not allow much flexibility. In many real-world applications, however, query nodes are expected to be located in multiple communities with different semantics. To address this limitation of existing methods, an efficient spectral-based Multi-Scale Community Search method (MSCS) is proposed, which can simultaneously identify the multi-scale target local communities to which query node belong. In MSCS, each node is equipped with a graph Fourier multiplier operator. The access of the graph Fourier multiplier operator helps nodes to obtain feature representations at various community scales. In addition, an efficient algorithm is proposed for avoiding the large number of matrix operations due to spectral methods. Comprehensive experimental evaluations on a variety of real-world datasets demonstrate the effectiveness and efficiency of the proposed method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号