首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 209 毫秒
1.
为提高数据一致性以及检索效率,提出一种基于聚类算法的多维数据库一致性检测与恢复方法。计算数据指标均值与标准差,标准化处理数据;利用K-means算法衡量不同数据属性的相似特征,建立特征簇,选择聚类特征;通过稀疏图描述数据间关系,利用多级图分割算法获取多个子图,通过凝聚层次聚类方法,判断子图间相似度,设定合并阈值聚类子图,根据聚类结果判断数据库的一致性;针对一致性较差的数据库,采用等价类算法构建恢复模型,实现多维数据库一致性检测与恢复。实验结果证明:所提方法检测速度快,恢复后数据库一致性较好。  相似文献   

2.
徐森  皋军  徐秀芳  花小朋  徐静  安晶 《控制与决策》2018,33(12):2208-2212
将二部图模型引入聚类集成问题中,使用二部图模型同时建模对象集和超边集,充分挖掘潜藏在对象之间的相似度信息和超边提供的属性信息.设计正则化谱聚类算法解决二部图划分问题,在低维嵌入空间运行K-means++算法划分对象集,获得最终的聚类结果.在多组基准数据集上进行实验,实验结果表明所提出方法不仅能获得优越的结果,而且具有较高的运行效率.  相似文献   

3.
随着频繁模式挖掘的深入研究,图模型被广泛地应用于为各种事务建模,因此图挖掘的研究显得越来越重要.文中针对唯一标识的有向连通图模型,基于频繁模式树结构,改进了频繁模式增长算法挖掘频繁连通闭合子图.使用生物代谢路径数据集的实验证明,这种算法能有效地挖掘出唯一标识的有向连通图集中的频繁闭图集,一次运算可以挖掘出多个阈值的最大频繁子图集.这种算法适用于以唯一标识的有向连通图建模的网络或图集,可以应用到基于图简化模型的生物网络的子图挖掘任务中.  相似文献   

4.
挖掘数据网络中有价值的、具有稳定性的社区,对网络信息的获取、推荐及网络的演化预测具有重要的价值。针对现有异质网络聚类方法难以在同一维度有效整合网络中异质信息的问题,提出了一种基于图正则化非负矩阵分解的异质网络聚类方法。通过加入图正则项,将中心类型子空间和属性类型子空间的内部连接关系作为约束项,引入到非负矩阵分解模型中,从而找到高维数据在低维空间的紧致嵌入,成功消除了异质节点之间的部分噪声,同时,对反映不同子网络共有潜在结构的共识矩阵进行优化,有效整合异质信息,并且在降维过程中较大限度地保留了异质信息的完整性,提高了异质网络聚类方法的精度,在真实世界数据集上的实验结果也验证了该方法的有效性。  相似文献   

5.
针对传统的Single-Pass聚类算法对数据输入顺序过于敏感和准确率较低的问题,提出一种以子话题为粒度,考虑新闻文本动态性、时效性和上下文语义特征的增量文本聚类算法(SP-HTD).首先通过解析LDA2Vec主题模型,联合训练文档向量和词向量,获得上下文向量,充分挖掘文本的语义特征及重要性关系.然后在SinglePass算法基础上,根据提取到的热点主题特征词,划分子话题,并设置时间阈值,来确认类簇中心的时效性,将挖掘的语义特征和任务相结合,动态更新类簇中心.最后以时间特性为辅,更新话题质心向量,提高文本相似度计算的准确性.结果表明,所提方法的F值最高可达89.3%,且在保证聚类精度的前提下,在漏检率和误检率上较传统算法有明显改善,能够有效提高话题检测的准确性.  相似文献   

6.
针对谱聚类融合模糊C-means(FCM)聚类的蛋白质相互作用(PPI)网络功能模块挖掘方法准确率不高、执行效率较低和易受假阳性影响的问题,提出一种基于模糊谱聚类的不确定PPI网络功能模块挖掘(FSC-FM)方法。首先,构建一个不确定PPI网络模型,使用边聚集系数给每一条蛋白质交互作用赋予一个存在概率测度,克服假阳性对实验结果的影响;第二,利用基于边聚集系数流行距离(FEC)策略改进谱聚类中的相似度计算,解决谱聚类算法对尺度参数敏感的问题,进而利用谱聚类算法对不确定PPI网络数据进行预处理,降低数据的维数,提高聚类的准确率;第三,设计基于密度的概率中心选取策略(DPCS)解决模糊C-means算法对初始聚类中心和聚类数目敏感的问题,并对预处理后的PPI数据进行FCM聚类,提高聚类的执行效率以及灵敏度;最后,采用改进的边期望稠密度(EED)对挖掘出的蛋白质功能模块进行过滤。在酵母菌DIP数据集上运行各个算法可知,FSC-FM与基于不确定图模型的检测蛋白质复合物(DCU)算法相比,F-measure值提高了27.92%,执行效率提高了27.92%;与在动态蛋白质相互作用网络中识别复合物的方法(CDUN)、演化算法(EA)、医学基因或蛋白质预测算法(MGPPA)相比也有更高的F-measure值和执行效率。实验结果表明,在不确定PPI网络中,FSC-FM适合用于功能模块的挖掘。  相似文献   

7.
社交网络中积累的海量信息构成一类图大数据,为防范隐私泄露,一般在发布此类数据时需要做匿名化处理.针对现有匿名方案难以防范同时以结构和属性信息为背景知识的攻击的不足,研究一种基于节点连接结构和属性值的属性图聚类匿名化方法,利用属性图表示社交网络数据,综合根据节点间的结构和属性相似度,将图中所有节点聚类成一些包含节点个数不小于k的超点,特别针对各超点进行匿名化处理.该方法中,超点的子图隐匿和属性概化可以分别防范一切基于结构和属性背景知识的识别攻击.另外,聚类过程平衡了节点间的连接紧密性和属性值相近性,有利于减小结构和属性的总体信息损失值,较好地维持数据的可用性.实验结果表明了该方法在实现算法功能和减少信息损失方面的有效性.  相似文献   

8.
现有的子空间聚类方法大多只适用于单层网络,或者仅对多层网络中每层的聚类结果简单地进行平均,未考虑每层网络中包含信息量不同的特点,致使聚类性能受限。针对该问题,提出一种面向多层网络的稀疏子空间聚类方法。将距离正则项和非负约束条件集成到稀疏子空间聚类框架中,从而在聚类时能够同时利用数据的全局信息和局部信息进行图学习。此外,通过引入稀疏约束使学习到的图具有更清晰的聚类结构,并设计迭代算法进行优化求解。在多个真实数据集上的实验结果表明,该方法能够挖掘网络不同层的互补信息,得到准确的一致性联合稀疏表示,有效提高社团聚类性能。  相似文献   

9.
随着社交网络用户数的快速增加,大规模单图上频繁子图挖掘的需求越来越强烈.单机算法对大规模图的运行效率较低,难以支撑支持度较低的频繁子图的挖掘;现有的分布式环境下单图的频繁子图挖掘算法不支持子图增长模式的挖掘,它们所使用的Hadoop框架也不适合运行迭代式算法.提出了一种基于Spark的大规模单图频繁子图挖掘算法FSMBUS,通过次优树构建并行计算的候选子图,在给定最小支持度时挖掘出所有的频繁子图,并利用非频繁检测和搜索顺序选择实现优化,还设计了一种名为Sorted-Greedy的轻量级数据划分方法.实验结果表明,FSMBUS的效率要比现有单图上最新的算法快一个数量级,并支持更低最小支持度阈值以及更大规模图数据的挖掘,同时FSMBUS比其Hadoop的移植版要快2~4倍.  相似文献   

10.
Metapath2vec和Metapath2vec++异质网络表示学习方法只保持了网络原有的拓扑结构,没有考虑异质网络自身存在的聚类结构,从而降低网络中节点表示的准确性。针对此问题,基于元路径随机游走策略提出两种保持聚类结构的异质网络表示学习模型:HINSC和HINSC++。模型将网络中节点的one-hot表示作为前馈神经网络的输入,经过隐层的非线性变换,使其在输出层保持网络中节点的近邻拓扑结构和聚类结构,利用随机梯度下降算法学习异质网络节点的低维表示。在两个真实异质网络上的实验结果表明:相比Metapath2vec和Metapath2vec++,HINSC和HINSC++学到的表示在聚类任务上NMI值提高12.46%~26.22%,在分类任务上Macro-F1、Micro-F1值提高9.32%~17.24%。  相似文献   

11.
Presents a method for finding patterns in 3D graphs. Each node in a graph is an undecomposable or atomic unit and has a label. Edges are links between the atomic units. Patterns are rigid substructures that may occur in a graph after allowing for an arbitrary number of whole-structure rotations and translations as well as a small number (specified by the user) of edit operations in the patterns or in the graph. (When a pattern appears in a graph only after the graph has been modified, we call that appearance "approximate occurrence.") The edit operations include relabeling a node, deleting a node and inserting a node. The proposed method is based on the geometric hashing technique, which hashes node-triplets of the graphs into a 3D table and compresses the label-triplets in the table. To demonstrate the utility of our algorithms, we discuss two applications of them in scientific data mining. First, we apply the method to locating frequently occurring motifs in two families of proteins pertaining to RNA-directed DNA polymerase and thymidylate synthase and use the motifs to classify the proteins. Then, we apply the method to clustering chemical compounds pertaining to aromatic compounds, bicyclicalkanes and photosynthesis. Experimental results indicate the good performance of our algorithms and high recall and precision rates for both classification and clustering  相似文献   

12.
In recent years, many information networks have become available for analysis, including social networks, road networks, sensor networks, biological networks, etc. Graph clustering has shown its effectiveness in analyzing and visualizing large networks. The goal of graph clustering is to partition vertices in a large graph into clusters based on various criteria such as vertex connectivity or neighborhood similarity. Many existing graph clustering methods mainly focus on the topological structures, but largely ignore the vertex properties which are often heterogeneous. Recently, a new graph clustering algorithm, SA-cluster, has been proposed which combines structural and attribute similarities through a unified distance measure. SA-Cluster performs matrix multiplication to calculate the random walk distances between graph vertices. As part of the clustering refinement, the graph edge weights are iteratively adjusted to balance the relative importance between structural and attribute similarities. As a consequence, matrix multiplication is repeated in each iteration of the clustering process to recalculate the random walk distances which are affected by the edge weight update. In order to improve the efficiency and scalability of SA-cluster, in this paper, we propose an efficient algorithm In-Cluster to incrementally update the random walk distances given the edge weight increments. Complexity analysis is provided to estimate how much runtime cost Inc-Cluster can save. We further design parallel matrix computation techniques on a multicore architecture. Experimental results demonstrate that Inc-Cluster achieves significant speedup over SA-Cluster on large graphs, while achieving exactly the same clustering quality in terms of intra-cluster structural cohesiveness and attribute value homogeneity.  相似文献   

13.
结构-属性平衡图节点相似度测量算法   总被引:1,自引:0,他引:1       下载免费PDF全文
摘  要:节点相似度是图聚类算法的重要基础,在基于结构-属性图聚类现有方法中,由于传统图模型的限制,需要多次矩阵相乘来调整属性边的权值,算法执行效率低。为解决这一问题,提出了结构-属性平衡图的概念,并采用随机游走模型策略统一度量结构-属性平衡图GB中顶点间的相似度。与现有方法相比,该方法不但能测量直接相连的顶点之间的相似度,还可测量不直接相连而存在不同长度的路径的顶点之间的相似度,且没有增加原相似度矩阵的规模,节省了大量存储空间,提高了算法执行效率。  相似文献   

14.
多视角子空间聚类方法通常用于处理高维度、复杂结构的数据.现有的大多数多视角子空间聚类方法通过挖掘潜在图信息进行数据分析与处理,但缺乏对潜在子空间表示的监督过程.针对这一问题,本文提出一种新的多视角子空间聚类方法,即基于图信息的自监督多视角子空间聚类(SMSC).它将谱聚类与子空间表示相结合形成统一的深度学习框架.SMS...  相似文献   

15.
基于投票机制的融合聚类算法   总被引:1,自引:0,他引:1  
以一趟聚类算法作为划分数据的基本算法,讨论聚类融合问题.通过重复使用一趟聚类算法划分数据,并随机选择阈值和数据输入顺序,得到不同的聚类结果,将这些聚类结果映射为模式间的关联矩阵,在关联矩阵上使用投票机制获得最终的数据划分.在真实数据集和人造数据集上检验了提出的聚类融合算法,并与相关聚类算法进行了对比,实验结果表明,文中提出的算法是有效可行的.  相似文献   

16.
属性图相似性阈值对类属超图(CSHG)模型的训练结果具有重要影响。在满足聚类准确性的条件下,利用定义的熵函数给出优化CSHG模型结构的相似性阈值,并得到初始优化的CSHG模型,进一步利用FTOG之间的相似性矩阵得到最简CSHG模型结构。另外,利用亲缘传播聚类(affinity propagation clustering)方法去除FTOG聚类中的冗余属性图,最终得到最优的CSHG模型。实验结果表明,本方法是有效的。  相似文献   

17.
随着复杂网络研究的兴起,随机图成为一种重要复杂网络模型。基于完全图的生成子图的思想,得到了生成随机图的一种新算法,即用去边的方法生成随机图的算法,并用数值实验验证了加边和去边生成的随机图的统计特性(最大度、最小度、聚集系数、平均最短路径和平均度)是相近的,用去边的方法得到的图的度分布曲线在其平均度处达到峰值,随后呈指数下降,这与随机图的度分布是相同的。为了得到稀疏连通的随机图,又提出了一个不去割边的近似随机图生成算法,并从理论上说明了该算法生成的图是连通的,同时通过数值实验验证了图的连通性,并与加边随机图的统计特性进行了比较。  相似文献   

18.
Graph clustering is successfully applied in various applications for finding similar patterns. Recently, deep learning- based autoencoder has been used efficiently for detecting disjoint clusters. However, in real-world graphs, vertices may belong to multiple clusters. Thus, it is obligatory to analyze the membership of vertices toward clusters. Furthermore, existing approaches are centralized and are inefficient in handling large graphs. In this paper, a deep learning-based model ‘DFuzzy’ is proposed for finding fuzzy clusters from large graphs in distributed environment. It performs clustering in three phases. In first phase, pre-training is performed by initializing the candidate cluster centers. Then, fine tuning is performed to learn the latent representations by mining the local information and capturing the structure using PageRank. Further, modularity is used to redefine clusters. In last phase, reconstruction error is minimized and final cluster centers are updated. Experiments are performed over real-life graph data, and the performance of DFuzzy is compared with four state-of-the-art clustering algorithms. Results show that DFuzzy scales up linearly to handle large graphs and produces better quality of clusters when compared to state-of-the-art clustering algorithms. It is also observed that deep structures can help in getting better graph representations and provide improved clustering performance.  相似文献   

19.
In this paper, a bottom-up salient object detection method is proposed by modeling image as a random graph. The proposed method starts with portioning input image into superpixels and extracting color and spatial features for each superpixel. Then, a complete graph is constructed by employing superpixels as nodes. A high edge weight is assigned into a pair of superpixels if they have high similarity. Next, a random walk prior on nodes is assumed to generate the probability distribution on edges. On the other hand, a complete directed graph is created that each edge weight represents the probability for transmitting random walker from current node to next node. By considering a threshold and eliminating edges with higher probability than the threshold, a random graph is created to model input image. The inbound degree vector of a random graph is computed to determine the most salient nodes (regions). Finally, a propagation technique is used to form saliency map. Experimental results on two challenging datasets: MSRA10K and SED2 demonstrate the efficiency of the proposed unsupervised RG method in comparison with the state-of-the-art unsupervised methods.  相似文献   

20.
现实世界中高维数据无处不在,然而在高维数据中往往存在大量的冗余和噪声信息,这导致很多传统聚类算法在对高维数据聚类时不能获得很好的性能.实践中发现高维数据的类簇结构往往嵌入在较低维的子空间中.因而,降维成为挖掘高维数据类簇结构的关键技术.在众多降维方法中,基于图的降维方法是研究的热点.然而,大部分基于图的降维算法存在以下两个问题:(1)需要计算或者学习邻接图,计算复杂度高;(2)降维的过程中没有考虑降维后的用途.针对这两个问题,提出一种基于极大熵的快速无监督降维算法MEDR. MEDR算法融合线性投影和极大熵聚类模型,通过一种有效的迭代优化算法寻找高维数据嵌入在低维子空间的潜在最优类簇结构. MEDR算法不需事先输入邻接图,具有样本个数的线性时间复杂度.在真实数据集上的实验结果表明,与传统的降维方法相比, MEDR算法能够找到更好地将高维数据投影到低维子空间的投影矩阵,使投影后的数据有利于聚类.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号