期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

牛科张小琴贾郭军《计算机工程》2015,41(1):207-210,244

无监督学习聚类算法的性能依赖于用户在输入数据集上指定的距离度量,该距离度量直接影响数据样本之间的相似性计算,因此,不同的距离度量往往对数据集的聚类结果具有重要的影响。针对谱聚类算法中距离度量的选取问题,提出一种基于边信息距离度量学习的谱聚类算法。该算法利用数据集本身蕴涵的边信息,即在数据集中抽样产生的若干数据样本之间是否具有相似性的信息,进行距离度量学习,将学习所得的距离度量准则应用于谱聚类算法的相似度计算函数,并据此构造相似度矩阵。通过在UCI标准数据集上的实验进行分析,结果表明,与标准谱聚类算法相比,该算法的预测精度得到明显提高。相似文献

2.

面向高维的共享近邻聚类内部指标

张龙义钟才明《计算机应用》2021,41(z1):93-100

针对因使用基于距离的相似性度量,传统聚类内部指标随着数据维数的增加而性能下降的问题,提出了一种基于共享近邻相似度的聚类内部指标.首先,利用共享近邻相似度和k最近邻(kNN)方法,估计数据点的密度,构建融合密度的共享近邻相似度图.然后,根据融合密度的共享近邻相似度图,利用最大流算法,计算出类内相似度和类间分离度,并结合两者计算出聚类内部指标.通过对人工数据集和真实数据集的测试表明,与9个基于距离的传统聚类内部指标相比,该指标能更准确评估数据集的最佳划分和预测数据集的最佳类数.因此,该指标处理复杂类结构和高维数据的能力优于所对比的其他聚类内部指标. 相似文献

3.

基于有效距离的谱聚类算法

光俊叶刘明霞张道强《计算机科学与探索》2014,(11):1365-1372

在现有多种距离度量和传统谱聚类算法的基础上,提出了一种新的基于有效距离的谱聚类算法(spectral clustering based on effective distance,SCED)。SCED算法通过稀疏重构系数来构建样本与样本之间的有效距离,从而代替传统谱聚类算法中的欧氏距离,进行样本之间的相似度评估。与传统距离度量相比,有效距离不仅利用了样本对之间的距离信息,同时考虑了目标样本与其他所有相关样本之间的距离信息,因而该距离度量具有全局特性。在UCI标准数据集上的实验结果表明,SCED算法能有效提高聚类效果。相似文献

4.

基于聚类排序选择方法的进化算法 总被引：4，自引：0，他引：4

徐开阔唐常杰刘胤田张天庆段磊《计算机科学与探索》2008,2(3):321-329

为提高进化算法的效率,提出了聚类排序选择方法。主要工作有:(1)提出了新的种群内个体相似度度量,并使用种群所包含不同簇的数量来描述和度量种群的多样性;(2)为解决早熟问题提出了新的基于种群聚类和排序选择的聚类-排序选择方法;(3)导出了选择压力-种群多样性(SP-PD)方程,该方程能描述进化过程中选择压力随种群多样性变化的规律。在基于全面学习粒子群算法环境中作了详实的实验,对16个多峰函数进行了优化。实验结果表明,在10维和30维条件下,在15个函数优化中,新方法明显优于指数排序选择方法,最高能使精度提高4个数量级。相似文献

5.

基于改进磷虾群算法的多目标文本聚类方法

菊花《计算机工程与设计》2022,(6):1694-1703

提出融合K均值与改进磷虾群算法的多目标文本聚类算法。利用K均值的局部快速寻优和改进磷虾群的全局搜索能力,以K均值聚类解作为改进磷虾群的初始种群,引入遗传交叉和变异改善个体多样性,提升全局搜索能力;通过磷虾种群的诱导运动、觅食运动和随机扩散进行位置更新,引入余弦相似度和欧氏距离的多目标适应度函数评估磷虾位置优劣,搜索全局最优解。通过基准数据集实验确定磷虾群算法的关键参数,进行系统聚类测试,实验结果表明,该算法在聚类指标上表现更佳,聚类准确性更高,收敛速度更快。相似文献

6.

基于聚类的NSGA-II算法

李志强蔺想红《计算机工程》2013,(12):186-190

采用精英策略的非支配排序遗传算法（NSGA-II）种群收敛分布不均匀,全局搜索能力较弱。针对该问题,基于现有的算法,提出一种基于聚类学习机制的多目标进化算法KMCNSGA—II。利用K均值聚类对目标函数和个体分别进行聚类,对聚类后的个体进行局部学习,以提高适应度。将该算法应用于经典的多目标约束和非约束测试函数中,通过收敛性指标世代距离和多样性指标△进行性能评价。实验结果表明,与NSGA—II算法相比,该算法在算法收敛性和种群多样性保持方面均有明显提高。相似文献

7.

融合化学反应优化与K均值的文本数据聚类

王琛董永权《计算机工程与设计》2021,42(8):2248-2256

提出一种融合化学反应优化与K均值的文本聚类算法.结合K均值聚类的局部快速开发寻优能力和化学反应优化的全局勘探能力,以K均值聚类解集合作为化学反应优化的初始分子结构群,通过引入单分子碰撞、单分子分解、分子间碰撞和分子间合成4种化学反应操作,增加种群分子多样性;利用融合余弦相似度和欧氏距离的适应度函数评估分子优劣,在扩展搜索空间的基础上求解最优文本聚类.聚类测试结果表明,在多数数据集上,算法在适应度、准确率、精确率、召回率和F度量等指标上均表现更好. 相似文献

8.

基于自适应混合非支配个体排序策略的改进型NSGA-Ⅱ算法

耿焕同李辉健赵亚光陈正鹏《计算机应用》2016,36(5):1319-1324

针对经典快速非支配排序遗传算法(NSGA-Ⅱ)中基于拥挤距离的种群多样性保持策略不能客观反映个体间真实拥挤程度的问题,提出了一种基于自适应混合非支配个体排序策略的改进型NSGA-Ⅱ算法(NSGA-Ⅱ^h)。首先,设计一种新的循环聚类个体排序策略;然后,根据Pareto分层信息来对基于经典拥挤距离和循环聚类的两种个体排序策略进行自适应的选择;最终,实现对进化后期的种群多样性保持机制的改进。通过5个标准测试函数进行算法验证,并与经典的NSGA-Ⅱ、多目标粒子群优化算法(MOPSO)和GDE3等算法进行对比分析,NSGA-Ⅱ^h算法获得了80%的最优反向世代距离(IGD)值,且显著性水平为5%的双尾t检验结果表明,新算法具有明显统计意义上的性能优势。改进算法不仅能提高进化种群的分布性,而且能增强算法的收敛性,有效提高了优化效果。相似文献

9.

改进的模糊C-均值聚类有效性指标

下载免费PDF全文

严加展陈华李阳《计算机工程与应用》2020,56(9):156-161

针对模糊C-均值的现有评价指标没有涉及到数据集的真实几何分布结构和先验信息的问题,为了能准确找到与数据样本自然分布相匹配的簇,提出了一种改进的有效性评价指标VCSC。该指标结合簇内数据平方误差和、隶属度权值及根号权值定义紧凑性度量,结合簇中心距离最小值、隶属度及各簇中心到平均簇中心的距离和定义分离度,结合隶属度范围及样本分布情况定义结合度量。实验结果表明,所提出的指标能够有效地对聚类结果进行评估,能够准确得出数据中最佳的聚类数目。相似文献

10.

基于聚类的数据敏感属性匿名保护算法*

李珊珊朱玉全陈耿《计算机应用研究》2012,29(2):469-471

为了防止数据敏感属性的泄露,需要对数据敏感属性进行匿名保护。针对l-多样性模型当前已提出的算法大多是建立在概念层次结构的基础上,该方法会导致不必要的信息损失。为此,将基于属性泛化层次距离KACA算法中的距离度量方法与聚类结合,提出了一种基于聚类的数据敏感属性匿名保护算法。该算法按照l-多样性模型的要求对数据集进行聚类。实验结果表明,该算法既能对数据中的敏感属性值进行匿名保护,又能降低信息的损失程度。相似文献

11.

半监督空间化竞争聚集算法及其在图像分割中的应用

于平王士同《计算机工程》2015,(2)

经典竞争聚集( CA)算法在聚类时对于样本中的少量已知信息没有加以利用,但这些信息往往需要应用到整个聚类过程中。此外,在相似度度量函数的选择上CA算法使用常见的欧氏距离,然而欧氏距离仅适用于团状数据,制约了算法的应用范围。针对上述问题,通过引入具备半监督学习能力的半监督项对隶属度矩阵进行增强,利用聚类中心和中心邻近的点组成空间,把样本点与该空间的距离替代欧氏距离作为新的相似度度量标准,并给出判断聚类中心能否合并的阈值参数,最终得到半监督空间化CA算法。通过在人造图像和真实图像上的分割结果表明,该算法能够更准确地获取聚类类别数以及更好的聚类效果。相似文献

12.

面向混合属性数据集的改进半监督FCM聚类方法 总被引：1，自引：0，他引：1

李晓庆唐昊司加胜苗刚中《自动化学报》2018,44(12):2259-2268

针对混合属性数据集聚类精度低的问题,本文提出一种基于改进距离度量的半监督模糊均值聚类（Fuzzy C-means,FCM）算法.首先,在数据集中针对类别属性进行预处理,并设置相应的相异度阈值;将传统聚类距离度量与改进的Jaccard距离度量结合,确定混合属性数据集的距离度量函数;最后,将所得距离度量函数与传统半监督FCM算法相结合,并在滚动轴承的不同复合故障数据的特征集中进行聚类.实验表明,该算法能在含无序属性的混合属性数据集的聚类中取得更好的聚类效果. 相似文献

13.

关联规则的相似性度量与聚类研究

李其申屈喜琴管俊《计算机工程与设计》2012,33(2):745-749

由于进行关联规则挖掘过程中会产生大量规则,给关联规则的后期分析与利用带来了巨大障碍.针对关联规则的特点,提出了一种新的规则相似性度量方法,通过相似性度量方法推出新的规则距离度量方法,运用系统聚类中的类平均法进行聚类.实验结果表明,该距离度量方法考虑了关联规则的整体信息,依据聚类谱系图和规则散点图,确定了类和类的个数,有利于规则的分类处理. 相似文献

14.

一种基于相似性度量的高维数据聚类算法的研究

黄斯达陈启买《计算机应用与软件》2009,26(9):102-105

针对传统基于距离度量的聚类算法难以适合高维数据聚类以及高维数据之间相似度难定义的问题,提出了一种新的高维数据聚类算法.该算法基于一个能够更准确地表达出高维对象之间相似性的度量函数,首先计算对象两两之间的相似度并得出一个相似度矩阵,然后根据该相似度矩阵和阈值大小自底向上对数据进行聚类分析.实验结果显示,该算法能够获得质量更高的聚类结果,并且不受孤立点影响,对输入数据顺序也不敏感. 相似文献

15.

基于流数据的模糊聚类算法 总被引：1，自引：0，他引：1

龚静王翰虎《计算机应用与软件》2008,25(2):250-252,277

对流数据进行有效聚类是一个吸引研究者很大注意力的问题.传统的聚类挖掘算法只能适用于纯数值属性数据或纯分类属性数据,很难适用于混合属性的数据.针对混合属性数据的特点,在借鉴AcluStream算法的基础上,提出了一种模糊聚类算法.算法对流数据的相异度分类度量,定量属性使用欧氏距离和曼哈坦距离度量,定性属性可以采用hamming距离度量.模糊聚类算法的主要步骤有两步:第一步,运用最小距离聚类算法进行聚类,构成一个初始类.第二步,对基于最小距离聚类算法进行聚类所得到的初始簇,运用密度聚类方法进行聚合或分割,使得聚类集合稳定.实践证明:该算法是快速地有效的. 相似文献

16.

基于分类权与质心驱动的无监督学习算法 总被引：1，自引：0，他引：1

刘开第刘昕赵奇周少玲《自动化学报》2009,35(5):526-531

为了充分挖掘隐藏在样本向量中的空间信息和知识信息: 用聚类点代替类均值, 把提取指标对聚类所做贡献的量化值定义为指标分类权; 用分类权定义样本点与聚类点的加权距离, 使之作为样本与类之间的相似性度量更具合理性, 即将加权距离转化为样本隶属度. 为了消除序贯算法产生的随机性, 用样本的K类隶属度作为点质量的样本质点组的质心, 修正当前的K类聚类点, 由此建立基于分类权和质心驱动的搜索聚类点的迭代算法. IRIS数据检验结果表明, 新算法的聚类效果与稳定性都优于已有的无监督学习方法. 相似文献

17.

基于不相似性度量优化的密度峰值聚类算法

丁世飞徐晓王艳茹《软件学报》2020,31(11):3321-3333

密度峰值聚类（clustering by fast search and find of density peaks,简称DPC）是一种基于局部密度和相对距离属性快速寻找聚类中心的有效算法.DPC通过决策图寻找密度峰值作为聚类中心,不需要提前指定类簇数,并可以得到任意形状的簇聚类.但局部密度和相对距离的计算都只是简单依赖基于距离度量的相似度矩阵,所以在复杂数据上DPC聚类结果不尽如人意,特别是当数据分布不均匀、数据维度较高时.另外,DPC算法中局部密度的计算没有统一的度量,根据不同的数据集需要选择不同的度量方式.第三,截断距离d_c的度量只考虑数据的全局分布,忽略了数据的局部信息,所以d_c的改变会影响聚类的结果,尤其是在小样本数据集上.针对这些弊端,提出一种基于不相似性度量优化的密度峰值聚类算法（optimized density peaks clustering algorithm based on dissimilarity measure,简称DDPC）,引入基于块的不相似性度量方法计算相似度矩阵,并基于新的相似度矩阵计算样本的K近邻信息,然后基于样本的K近邻信息重新定义局部密度的度量方法.经典数据集的实验结果表明,基于不相似性度量优化的密度峰值聚类算法优于DPC的优化算法FKNN-DPC和DPC-KNN,可以在密度不均匀以及维度较高的数据集上得到满意的结果;同时统一了局部密度的度量方式,避免了传统DPC算法中截断距离d_c对聚类结果的影响. 相似文献

18.

基于相似性分析的软件构件聚类研究

陈德华韩忠明乐嘉锦《小型微型计算机系统》2005,26(12):2207-2211

设计了一种对基于XML描述的软件构件进行聚类的算法（即基于模拟退火的构件聚类算法）,该算法通过模拟金属退火基本原理对构件库中的软件构件聚类进行全局优化.构件聚类时,根据一般意义的树间编辑距离,提出一种用于判断基于XML描述的构件间是否相似的度量测度（称为XML编辑距离）.利用XML编辑距离,可将构件间相似性度量的时间复杂度限制在多项式级,且能保持构件的XML描述文档的节点语义信息和节点间的祖孙嵌套关系.最后,在构件库测试模型上进行实验,结果证实了基于模拟退火的构件聚类算法在构件查询实践中的可行性和有效性. 相似文献

19.

辅助信息自动生成的时间序列距离度量学习

邹朋成王建东杨国庆张霞王丽娜《软件学报》2013,24(11):2642-2655

对于时间序列聚类任务而言,一个有效的距离度量至关重要.为了提高时间序列聚类的性能,考虑借助度量学习方法,从数据中学习一种适用于时序聚类的距离度量.然而,现有的度量学习未注意到时序的特性,且时间序列数据存在成对约束等辅助信息不易获取的问题.提出一种辅助信息自动生成的时间序列距离度量学习(distancemetric learning based on side information autogeneration for time series,简称SIADML)方法.该方法利用动态时间弯曲(dynamic time warping,简称DTW)距离在捕捉时序特性上的优势,自动生成成对约束信息,使习得的度量尽可能地保持时序之间固有的近邻关系.在一系列时间序列标准数据集上的实验结果表明,采用该方法得到的度量能够有效改善时间序列聚类的性能. 相似文献

20.

一种基于动态近邻选择模型的聚类算法 总被引：4，自引：0，他引：4

金阳左万利《计算机学报》2007,30(5):756-762

ROCK是Sudipno Guha等1999年提出的一个著名的面向分类属性数据的聚类算法,其突出贡献是采用公共近邻(链接)数的全局信息作为评价数据点间相关性的度量标准,而不是传统的基于两点间距离的局部度量函数.尽管ROCK在Mushroom等分类属性数据集上取得了很好的聚类结果,但该算法本身也存在一些缺陷和不足.首先,衡量两个数据点是否为邻居的相似度阈值θ需要预先静态指定,该阈值对聚类质量影响很大,在对数据集没有充分了解的前提下给出恰当的阈值是困难的.其次,在ROCK算法中,相似度函数sim仅被用于最初邻居的判断上,只考虑相似与否,而未考虑相似程度,使算法对θ值过于敏感.另外,ROCK还要求用户事先选定聚类簇数k.这些缺陷或者影响聚类效果,或使算法不便使用.该文深入分析了上述问题,并提出基于动态近邻选择模型的聚类算法DNNS,通过优选近邻来提高聚类质量.文中还定义了内聚度度量函数以指导聚类过程.对标准数据集VOTE和ZOO的实验结果表明,DNNS算法的fα指标优于ROCK和VBACC. 相似文献