首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为减少社区发现算法中参数的选择对社区划分的影响,同时使算法能够自适应地进行社区划分,本文提出一种基于核密度估计的密度峰值聚类的社区发现算法KDED.首先,定义一种基于信任度的距离度量,将社交网络中的用户关系量化为距离矩阵,使用矩阵元素的大小度量用户关系的紧密程度;然后对距离矩阵进行核密度估计,统计各个节点在网络中的影响大小,结合热扩散模型改进计算流程,使其自适应不同规模的数据集以提高计算精度;结合密度峰值聚类原理和社区属性确定社区中心节点后,可根据节点间的距离得到社区内部层次结构和社区外部的自然结构;最后将剩余节点按距离分配到相应的社区当中以完成社区划分.仿真结果表明:通过可视化软件可观察到,通过KDED算法得到的社区划分结果具有清晰的自然结构和内部层次结构;随着社区规模的提升以及划分难度增加,KDED算法具有出色的稳定性;在真实数据集以及LFR基准网络上均得到较为接近真实划分结果的社区划分,自适应性良好,验证算法的可行性与有效性.  相似文献   

2.
研究了节点聚类系数与网络社区结构之间的关系.直接使用节点聚类系数不易刻画社区子图的高聚集特性,定义了一些基于节点聚类系数的社区度量,据此识别网络中的社区.首先,给出了基于聚类系数增大的社区间边判定规则,简称CCE规则;然后,利用CCE规则引出相似度矩阵,即网络密度矩阵;最后,通过网络密度矩阵来构造Laplacian矩阵,并进一步推导出通过计算Laplacian矩阵的特征值以及特征向量来实现社区结构划分的算法.三个真实网络数据的实验结果表明,算法不仅获得了令人满意的划分结果,而且还提高了算法的时间效率.  相似文献   

3.
根据基于快速搜索和发现密度峰值的聚类方法的思想,提出了基于密度峰值的重叠社区发现算法。首先定义新的距离矩阵算法,克服了邻接矩阵元素为整数的缺陷。然后用概率形式刻画每个节点属于不同类别的可能性,从而实现了重叠社区的划分。基于真实网络的实验结果验证了本文算法的可行性和有效性。  相似文献   

4.
密度峰值聚类算法(DPC)是近年来提出的一种新的密度聚类算法,其核心基于局部密度和相对距离。该算法在定义局部密度以及相对距离时直接用欧式距离,导致在一些稀疏差异大及长弧形的类簇聚类效果差,且一步分配策略的鲁棒性不佳。提出基于随机游走的密度峰值聚类算法(RW-DPC),即引入随机游走首次到达模型来刻画数据点之间的相似性,重新定义数据点的局部密度,且给出一种新的样本分配策略。对比在人工数据集和UCI真实数据集上与其他聚类算法的实验结果,说明对于密度不均匀及弧形类的数据集,本文算法的聚类效果优于密度峰值聚类算法以及其他算法。  相似文献   

5.
DBSCAN算法是一种基于密度的聚类算法.针对该算法在处理混合属性数据上的不足,采用面向维度的距离的思想,对不同类型的数据定义不同的相似度度量方法和不同的相似度阈值,减少了对全局相似度阈值的依赖,提出了一种新的适合混合属性数据聚类的算法M-DBSCAN.仿真表明新算法有效解决了DBSCAN算法无法处理混合属性数据的缺点,对混合属性数据有较好的聚类效果.  相似文献   

6.
目标分群能够将战场目标划分为作战空间群,从而降低态势估计难度,提高决策效率。故针对战场中的目标分群问题,提出了一种基于流形距离(manifold)的密度峰值快速搜索聚类算法(clustering by fast search and find of density peaks,CFSFDP)的目标分群方法。该方法将目标分群转化为数据集聚类问题,通过计算目标间的流形距离来衡量目标间的相似度,然后在流形距离的基础上利用CFSFDP算法搜索聚类中心,指定其余数据点类别。仿真实验以人工数据集和UCI数据集为对象,验证了M-CFSFDP算法聚类效果优于CFSFDP算法;同时将M-CFSFDP应用在战场目标静态与动态分群中,仿真结果表明了该方法的正确性与有效性。  相似文献   

7.
针对K均值聚类算法对类簇数目预先不可知及无法处理非凸形分布数据集的缺陷,提出基于进化思想的聚类算法及其类簇融合算法.该算法将K均值聚类算法嵌入进化聚类算法框架中,通过调整距离倍参,将数据逐渐划分,在此过程中自动确定类簇数目,提出基于最近距离的中间圆密度簇融合算法和基于代表类的中间圆密度簇融合算法,将相似度大的类簇进行融合,使得k值逐渐趋向真实值.实验表明,该方法具有良好的实用性.  相似文献   

8.
针对传统距离或相似度度量未考虑个体样本对整体样本集影响的情况,对K近邻算法提出了一种相似度改进策略.首先提出了一种新的亲和距离函数,以样本对整体样本集的紧密度和分散度为关注点;其次在亲和距离函数的基础上,提出了一种新的基于紧密度和分散度的亲和相似度函数,并将其作为K近邻算法相似度度量函数;最后通过理论分析及18个数值类型UCI数据集,以5交叉验证模式对所提出亲和相似度函数与传统距离和相似度函数进行验证对比.实验表明,所提出方法是一种有效的相似度策略,且与高效索引算法相结合,可降低在大规模数据集的分类时间.  相似文献   

9.
采用经典的欧几里德距离、曼哈顿距离以及形状相似距离3种不同相似度度量方式,应用标准模糊C均值聚类算法在多个表示矩形对象的二维随机数据集上进行聚类,分析对比其相似度评估性能。聚类结果的分类统计表明,形状相似距离相比其他两种距离,能够考虑矩形对象的形状相似因素进行相似度评估。  相似文献   

10.
为了对船舶AIS轨迹数据进行快速聚类,本文提出了一种基于Hausdorff距离的船舶轨迹快速自适应谱聚类算法(fast self-tune spectral clustering,FSSC)。在保留轨迹特征的情况下,利用Douglas-Peucker(DP)算法对船舶轨迹数据进行预处理;基于Hausdorff距离,设计自动选取尺度参数的相似度度量函数,构造相似度矩阵并采用谱聚类算法对船舶轨迹进行聚类。以长江口水域船舶实际AIS数据为样本对算法进行了验证,结果表明:聚类结果能够准确提取水域船舶主要航路,算法消耗系统资源少,计算速度快。该方法对水域船舶主要航路识别,提高海事监管效率等方面具有参考意义。  相似文献   

11.
针对密度峰值聚类算法在处理分布不均匀数据集时聚类性能不佳且不能自动确定聚类中心的问题,提出基于共享邻域的密度峰值聚类算法(DPC-SN)。首先,考虑数据点的局部邻域信息和数据点间的相关性,根据共享邻域重新定义局部密度;其次,给出了新的决策阈值作为区分聚类中心和非聚类中心的临界值,自动获取聚类中心;最后,在不同分布特征的合成数据集和UCI数据集进行实验验证。结果表明,该算法聚类精度和总体性能优于基于K近邻的密度峰值聚类(DPC-KNN)、原始密度峰值聚类(DPC)、K均值聚类(K-means)和基于密度的聚类(DBSCAN)4种算法。  相似文献   

12.
针对多分辨率方法无法直接给定社区层次结构的问题,提出一种基于种子节点集的社区层次结构发现算法。该算法通过选取种子节点,并根据余弦相似度的大小添加其最近邻节点共同构成种子节点集;再由种子节点集出发,基于分辨率公式进行社区层次结构探测,根据节点加入社区的度值比来判断是否到达层次边界;最后在已发现完毕的社区外选取新的种子节点集,并由此出发直到全网络的社区层次结构发现完毕。将该算法分别应用于人工网络和真实社会网络,实验表明,相较于其它算法,该算法能够更好地发现网络中全部的社区层次结构。  相似文献   

13.
基于微聚集技术的κ-匿名化MDAV算法没有考虑数据属性的分布情况和数据属性重要性在聚类中的作用,易产生不合理的划分,从而对数据的保护程度与数据可用性之间关系带来影响.针对这个问题本文提出一种基于属性重要度和密度聚类的MDAV改进方法实现对数据集κ-匿名化.首先采用基于密度聚类DENCLUE方法对数据表进行聚集成簇,然后对每个簇采用基于粗糙集属性重要度作为加权距离的权值来计算相似样本,实现对数据集的κ-划分.与MDAV算法比较测试,所改进的方法改善了发布数据的可用性.  相似文献   

14.
将主元分析(principal component analysis, PCA)模型相似度(以下简称PCA相似度)和谱聚类(spectral clustering)算法相结合,并用于基于高炉历史数据挖掘的炉况工作点变化的分析。利用PCA相似度与距离相似度的加权来衡量滑窗数据集之间的相似度,进一步将数据集的聚类问题转化为图的最优划分问题,通过谱聚类得到聚类结果。该方法降低了高炉工作点漂移的影响,能够有效稳定的实现高炉炉况工作点的聚类。基于现场历史数据的离线测试表明:与已有的基于PCA相似度和k-means聚类的算法对比,本研究可以更加有效区分炉况工作点的跳变。  相似文献   

15.
为了解决2014年在Science上提出的快速密度峰值聚类(CFDP)算法存在的自动选择时误选和漏选中心点、簇的数量需要主观先验判断、算法使用受场景局限的缺陷,从半监督角度出发,结合集成学习思想提出半监督约束集成的快速密度峰值聚类(SiCE-CFDP)算法.SiCE-CFDP算法使用相对密度方式度量节点密度,从多角度分析决策图,自动选择候选中心点,并最终自动确定簇的数量.在只标注有限约束关系的前提下,算法能以集成学习指导约束信息的扩充,提升聚类性能.在方法验证中,通过3个人工数据集、4个公开数据集以及1个空调系统数据集进行仿真研究.结果表明,在相同的约束量前提下,针对大样本数据,SiCE-CFDP算法相比其他半监督聚类算法具有更高的聚类精度.  相似文献   

16.
基于形状相似距离的K-means聚类算法   总被引:1,自引:0,他引:1  
把向量作为空间中的物体展开相似度的评估,分析了向量间各维差值与形状差异的间的近似关系,提出了基于形状相似距离的K-means算法。在三个UCI(University of California,Irvine)标准数据集上的聚类结果表明,对于有关形状信息的数据,基于形状相似距离的K-means算法比采用传统距离的K-means算法,聚类准确度显著提高。  相似文献   

17.
针对现有基于划分的聚类算法无法有效聚类簇大小和簇密度有较大差异的非均匀数据的问题,提出一种基于变异系数聚类算法。从聚类优化目标的角度出发,分析了以K-means为代表的划分聚类算法引发“均匀效应”的成因;提出以变异系数度量非均匀数据的分布散度,并基于变异系数定义一种非均匀数据的相异度公式;基于相异度公式定义了聚类目标优化函数,并根据局部优化方法给出聚类算法过程。在合成和真实数据集上的试验结果表明,与K-means、Verify2、ESSC聚类算法相比,本研究提出的非均匀数据的变异系数聚类算法(coefficient of variation clustering for non-uniform data, CVCN)聚类精度提升5%~40%。  相似文献   

18.
为提升区域交通信号系统的控制效率,提出了一种基于车辆轨迹数据和密度峰值聚类的城市路网交通控制子区划分方法。首先,结合轨迹数据特性并综合考虑交叉口间距、车辆延误、车队离散度等因素的影响,定义并计算了交叉口的关联度指标。其次,根据关联度指标得到交叉口的距离矩阵,作为密度峰值聚类算法的输入;针对密度峰值聚类的超参数设置问题,引入数据场理论中势能熵的概念确定最优值;同时,借鉴肘部法则的思想确定聚类中心数量。最后,将改进的密度峰值聚类算法应用于交叉口子区划分中。以北京市中关村西区真实车辆轨迹数据的实验分析表明:本文方法可以仅基于车辆轨迹数据实现城市路网交通控制子区的高效、合理划分。  相似文献   

19.
针对在传统卷积神经网络(Convolutional neural networks, ConvNet)算法中由于提取的静脉特征信息不足而导致指静脉识别准确率不高的问题,提出了一种基于扩展卷积神经网络与度量学习的指静脉识别算法。该算法通过扩展卷积神经网络的宽度与深度来提高ConvNet的学习能力,并使用难样本采样三元组(Triplet hard loss with batch hard mining, TriHard)度量学习函数作为网络损失函数训练网络。此外,针对常用距离度量方法不能有效度量静脉特征之间的相似度的问题,在指静脉识别阶段采用了Wasserstein距离度量方法,以提高同源静脉间的相似度,降低异源静脉间的相似度。仿真实验结果表明:在FV-USM数据集上,指静脉识别准确率达98.33%,较使用ConvNet和常用距离度量方法准确率提高了3.56%;在MMCBNU_6000数据集上,指静脉识别准确率达98.02%,较使用ConvNet和常用距离度量方法准确率提高了2.01%。  相似文献   

20.
针对目前谱聚类算法的相似图包含较多错误社区信息的问题,引入了概率矩阵的概念,提出了一种改进的谱聚类社区发现算法。该算法首先利用马尔可夫过程计算节点间的转移概率,并基于转移概率构建复杂网络的概率矩阵;然后以均值概率矩阵重新构造相似图;最后通过优化归一化切割函数实现社区划分。采用人工网络和现实网络与其他典型算法进行对比实验,实验结果表明,该算法能够更加精准地划分社区,具有更加良好的聚类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号