期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘继杨金瑞《计算机应用研究》2024,(4):1058-1063

密度峰值聚类(DPC)将数据样本点的局部密度和相对距离进行结合,能对任意形状数据集进行聚类处理,但密度峰值聚类算法存在主观选择截断距离、简单分配策略和较高时间复杂度等问题。为此,提出了一种基于网格近邻优化的密度峰值聚类算法(KG-DPC算法)。首先对数据空间进行网格化,减少了样本数据点之间距离的计算量;在计算局部密度时不仅考虑了网格自身的密度值,而且考虑了周围k个近邻的网格密度值,降低了主观选择截断距离对聚类结果的影响,提高了聚类准确率,设定网格密度阈值,保证了聚类结果的稳定性。通过实验结果表明,KG-DPC算法比DBSCAN、DPC和SDPC算法在聚类准确率上有很大提升,在聚类平均消耗时间上DPC、SNN-DPC和DPC-NN算法分别降低38%、44%和44%。在保证基本聚类准确率的基础上,KG-DPC算法在聚类效率上有特定优势。相似文献

2.

自适应聚合策略优化的密度峰值聚类算法

钱雪忠金辉《计算机科学与探索》2020,14(4):712-720

针对密度峰值聚类算法受人为干预影响较大和参数敏感的问题,即不正确的截断距离dc会导致错误的初始聚类中心,而且在某些情况下,即使设置了适当的dc值,仍然难以从决策图中人为选择初始聚类中心。为克服这些缺陷,提出一种新的基于密度峰值的聚类算法。该算法首先根据K近邻的思想来确定数据点的局部密度,然后提出一种新的自适应聚合策略,即首先通过算法给出阈值判断初始类簇中心,然后依据离初始类簇中心最近分配剩余点,最后通过类簇间密度可达来合并相似类簇。在实验中,该算法在合成和实际数据集中的表现比DPC、DBSCAN、KNNDPC和K-means算法要好,能有效提高聚类准确率和质量。相似文献

3.

自然反向最近邻优化的密度峰值聚类算法

刘娟万静《计算机科学与探索》2021,15(10):1888-1899

密度峰值聚类算法是一种基于密度的聚类算法.针对密度峰值聚类算法存在的参数敏感和对复杂流形数据得到的聚类结果较差的缺陷,提出一种新的密度峰值聚类算法,该算法基于自然反向最近邻结构.首先,该算法引入反向最近邻计算数据对象的局部密度;其次,通过代表点和密度相结合的方式选取初始聚类中心;然后,应用密度自适应距离计算初始聚类中心之间的距离,利用基于反向最近邻计算出的局部密度和密度自适应距离在初始聚类中心上构建决策图,并通过决策图选择最终的聚类中心;最后,将剩余的数据对象分配到距离其最近的初始聚类中心所在的簇中.实验结果表明,该算法在合成数据集和UCI真实数据集上与实验对比算法相比较,具有较好的聚类效果和准确性,并且在处理复杂流形数据上的优越性较强. 相似文献

4.

基于粗糙集与密度峰值聚类的特征选择算法

曹栋涛舒文豪钱进《计算机科学》2023,(10):37-47

特征选择可以有效地去除高维数据中的冗余和不相关的特征，保留重要的特征，从而降低模型计算的复杂性，提高模型精度。在特征选择过程中，针对数据中存在的离群点和边界点等可能影响分类效果的噪声数据，提出了基于粗糙集与密度峰值聚类的特征选择方法。首先，通过密度峰值聚类方法去除噪声数据，并挑出簇类中心；然后，结合粗糙集理论的思想，按簇类中心划分数据，并根据同一簇类的点应具有相同标签的假设，定义特征重要性评价指标；最后，设计了一种启发式特征选择算法，用于挑选出使簇类结构纯度更高的特征子集。在6个UCI数据集上，与其他算法进行了分类精度、特征选择个数和运行时间的对比实验，实验结果验证了所提算法的有效性和高效性。相似文献

5.

基于相对密度的密度峰值聚类算法

位雅张正军何凯琳唐莉《计算机工程》2023,(6):53-61

密度峰值聚类算法在处理密度不均匀的数据集时易将低密度簇划分到高密度簇中或将高密度簇分为多个子簇,且在样本点分配过程中存在误差传递问题。提出一种基于相对密度的密度峰值聚类算法。引入自然最近邻域内的样本点信息,给出新的局部密度计算方法并计算相对密度。在绘制决策图确定聚类中心后,基于对簇间密度差异的考虑,提出密度因子计算各个簇的聚类距离,根据聚类距离对剩余样本点进行划分,实现不同形状、不同密度数据集的聚类。在合成数据集和真实数据集上进行实验,结果表明,该算法的FMI、ARI和NMI指标较经典的密度峰值聚类算法和其他3种聚类算法分别平均提高约14、26和21个百分点,并且在簇间密度相差较大的数据集上能够准确识别聚类中心和分配剩余的样本点。相似文献

6.

基于密度峰值与密度聚类的集成算法

王治和黄梦莹杜辉秦红武《计算机应用》2019,39(2):398-402

针对快速搜索和发现密度峰值聚类（CFSFDP）算法需人工在决策图上选择聚类中心的问题，提出一种基于密度峰值和密度聚类的集成算法。首先，借鉴CFSFDP思想，将局部密度最大的数据作为第一个中心；接着，从该中心点出发采用一种利用Warshall算法求解密度相连改进的基于密度的噪声应用空间聚类（DBSCAN）算法进行聚类，得到第一个簇；最后，在尚未被划分的数据中找出最大局部密度的数据，将它作为下一个簇的中心后再次采用上述算法进行聚类，直到所有数据被聚类或有部分数据被视为噪声。所提算法既解决了CFSFDP选择中心需人工干预的问题，又优化了DBSCAN算法，即每次迭代都是从当前最好的点（局部密度最大的点）出发寻找簇。通过可视化数据集和非可视化数据集与经典算法（CFSFDP、DBSCAN、模糊C均值（FCM）算法和K均值（K-means）算法）的对比实验结果表明，所提算法聚类效果更好，准确率更高，优于对比算法。相似文献

7.

基于相互邻近度的密度峰值聚类算法

赵嘉姚占峰吕莉樊棠怀《控制与决策》2021,36(3):543-552

密度峰值聚类算法对密集程度不一数据的聚类效果不佳,样本分配过程易产生连带错误.为此,提出一种基于相互邻近度的密度峰值聚类算法.所提算法引入k近邻思想计算局部密度,以此保证密度的相对性.定义综合数据全局和局部特征的样本相互邻近度的度量准则,据此准则,提出一种新的样本分配策略.新的分配策略采用k近邻思想寻找密度峰值,将密度峰值的k个近邻点分配给其对应类簇,对所有已分配数据点寻找相互邻近度最高的未分配数据点,将未分配数据点分配给已分配数据点所在类簇.在合成和UCI数据集上,将所提算法与DPC、DBSCAN、OPTICS、AP、K-Means及DPC的改进算法进行比较,实验结果表明,所提出的算法性能最优. 相似文献

8.

基于相异性度量选取初始聚类中心改进的K-means聚类算法

廖纪勇吴晟刘爱莲《控制与决策》2021,36(12):3083-3090

选取合理的初始聚类中心是正确聚类的前提,针对现有的K-means算法随机选取聚类中心和无法处理离群点等问题,提出一种基于相异性度量选取初始聚类中心改进的K-means聚类算法.算法根据各数据对象之间的相异性构造相异性矩阵,定义了均值相异性和总体相异性两种度量准则;然后据此准则来确定初始聚类中心,并利用各簇中数据点的中位数代替均值以进行后续聚类中心的迭代,消除离群点对聚类准确率的影响.此外,所提出的算法每次运行结果保持一致,在初始化和处理离群点方面具有较好的鲁棒性.最后,在人工合成数据集和UCI数据集上进行实验,与3种经典聚类算法和两种优化初始聚类中心改进的K-means算法相比,所提出的算法具有较好的聚类性能. 相似文献

9.

优化分配策略的密度峰值聚类算法

丁志成葛洪伟《计算机科学与探索》2020,14(5):792-802

针对密度峰值聚类算法在面对复杂结构数据集时容易出现分配错误的问题,提出一种优化分配策略的密度峰值聚类算法(ODPC)。新算法首先引入参数积γ,扩大了聚类中心的选取范围;然后使用改进的数据点分配策略,对数据集的数据点进行基于相似度指标MS的重新分配,进一步优化了簇类中点集的分配;最后使用dc近邻法优化识别数据集的噪声点。在人工数据集及UCI真实数据集上的实验均可证明,新算法能够在优化噪声识别的同时,提高复杂流形数据集中数据点分配的正确率,并取得比DPC算法、DenPEHC算法、GDPC算法更好的聚类效果。相似文献

10.

自然邻居密度极值聚类算法

下载免费PDF全文

张忠林赵昱闫光辉《计算机工程与应用》2021,57(23):200-210

针对密度峰值聚类算法存在数据集密度差异较大时,低密度区域聚类中心难以检测和参数敏感的问题,提出了一种新型密度极值算法。引入自然邻居概念寻找数据对象自然近邻,定义椭圆模型计算自然稳定状态下数据局部密度;计算数据对象余弦相似性值,用余弦相似性值来更新数据对象连通值,采用连通值划分高低密度区域和离群点;构造密度极值函数找到高低密度不同区域聚类中心点;将不同区域非聚类中心点归并到离其最近的聚类中心所在簇中。通过在合成数据集和UCI公共数据集实验分析：该算法比其他对比算法在处理密度分布差异较大数据集上取得了更好的结果。相似文献

11.

Ball-Tree优化的密度峰值聚类算法

下载免费PDF全文

丁松阳田青云《计算机工程与应用》2021,57(20):90-96

针对密度峰值聚类算法DPC（clustering by fast search and find of density peaks）时间复杂度高、准确度低的缺陷,提出了一种基于Ball-Tree优化的快速密度峰值聚类算法BT-DPC。算法利用第[k]近邻度量样本局部密度,通过构建Ball-Tree加速密度[ρ]及距离[δ]的计算;在类簇分配阶段,结合[k]近邻思想设计统计学习分配策略,将边界点正确归类。通过在UCI数据集上的实验,将该算法与原密度峰值聚类算法及其改进算法进行了对比,实验结果表明,BT-DPC算法在降低时间复杂度的同时提高了聚类的准确度。相似文献

12.

基于加权K近邻的改进密度峰值聚类算法

杨震王红军《计算机应用研究》2020,37(3):667-671

密度峰值聚类算法是一种新颖的密度聚类算法,但是原算法仅仅考虑了数据的全局结构,在对分布不均匀的数据集进行聚类时效果不理想,并且原算法仅仅依据决策图上各点的分布情况来选取聚类中心,缺乏可靠的选取标准。针对上述问题,提出了一种基于加权K近邻的改进密度峰值聚类算法,将最近邻算法的思想引入密度峰值聚类算法,重新定义并计算了各数据点的局部密度,并通过权值斜率变化趋势来判别聚类中心临界点。通过在人工数据集上与UCI真实数据集上的实验,将该改进算法与原密度峰值聚类、K-means及DBSCAN算法进行了对比,证明了改进算法能够在密度不均匀数据集上有效完成聚类,能够发现任意形状簇,且在三个聚类性能指标上普遍高于另外三种算法。相似文献

13.

结合密度比和系统演化的密度峰值聚类算法

下载免费PDF全文

曹俊茸张德生肖燕婷《计算机工程与应用》2022,58(21):75-82

密度峰值聚类算法（DPC）能够有效地进行非球形数据的聚类,该算法需要输入截断距离,人工截取聚类中心,导致DPC算法的聚类效果有时较差。针对这些问题,提出一种结合密度比和系统演化的密度峰值聚类算法（DS-DPC）。利用自然最近邻搜索得出各样本点的邻居数目,根据密度比思想改进密度计算公式,使其能够反映周围样本的分布情况;对局部密度与相对距离的乘积进行降序排列,根据排序值选出聚类中心,将剩余样本按照DPC算法的分配策略进行聚类,避免了手动选择聚类中心的主观性;利用系统演化方法判断聚类结果是否需要合并或分离。通过在多个数据集上进行实验,并与其他聚类算法进行比较,实验结果表明,该算法具有较好的聚类效果。相似文献

14.

基于非参数核密度估计的密度峰值聚类算法*

谢国伟钱雪忠周世兵《计算机应用研究》2018,35(10)

针对密度峰值聚类算法CFSFDP(Clustering by fast search and find of density peaks)计算密度时人为判断截断距离和人工截取簇类中心的缺陷,提出了一种基于非参数核密度估计的密度峰值的聚类算法。首先,应用非参数核密度估计方法计算数据点的局部密度;其次,根据排序图采用簇中心点自动选择策略确定潜在簇类中心点,将其余数据点归并到相应的簇类中心;最后,依据簇类间的合并准则,对邻近相似子簇进行合并,并根据边界密度识别噪声点,得到聚类结果。在人工测试数据集和UCI真实数据集上的实验表明,新算法较之原CFSFDP算法,不仅有效避免了人为判断截断距离和截取簇类中心的主观因素,而且可以取得更高的准确度。相似文献

15.

基于共享k-近邻与共享逆近邻的密度峰聚类

下载免费PDF全文

高月杨小飞马盈仓汪义瑞《计算机工程与应用》2019,55(20):43-51

为了更好地解决密度不均衡问题与刻画高维数据相似性度量问题，提出一种基于共享[k]-近邻与共享逆近邻的密度峰聚类算法。该算法计算两个点的共享[k]-近邻数与共享逆近邻数，并结合欧氏距离来确定这两个点之间的共享相似度；将样本点与其逆近邻点的共享相似度之和定义为该点的共享密度，再通过共享密度选取聚类中心。通过实验证明，该算法在人工数据集和真实数据集上的聚类结果较其他密度聚类算法更加准确，并且能更好地处理密度不均衡问题，同时也提高了高维数据的聚类精度。相似文献

16.

融合集群度与距离均衡优化的K-均值聚类算法

王日宏崔兴梅《计算机应用》2018,38(1):104-109

针对传统K-均值算法对初始聚类中心选择较为敏感的问题,提出了一种基于融合集群度与距离均衡优化选择的K-均值聚类（K-MCD）算法。首先,基于"集群度"思想选取初始簇中心;然后,遵循所有聚类中心距离总和均衡优化的选择策略,获得最终初始簇中心;最后,对文本集进行向量化处理,并根据优化算法重新选取文本簇中心及聚类效果评价标准进行文本聚类分析。对文本数据集从准确性与稳定性两方面进行仿真实验分析,与K-均值算法相比,K-MCD算法在4个文本集上的聚类精确度分别提高了18.6、17.5、24.3与24.6个百分点;在平均进化代数方差方面,K-MCD算法比K-均值算法降低了36.99个百分点。仿真结果表明K-MCD算法能有效提高文本聚类精确度,并具有较好的稳定性。相似文献

17.

分布的自动阈值密度峰值聚类算法

下载免费PDF全文

彭启慧宣士斌高卿《计算机工程与应用》2021,57(5):71-78

密度峰值聚类（DPC）是一种基于局部密度的聚类方法,在DPC中影响算法的效果的两个基本因素是局部密度定义和类中心选择。针对经典DPC在定义局部密度时没有考虑到邻域内样本点的分布情况,以及无法自动选择类中心等问题,提出一种基于分布的局部密度定义和基于最大类间差法的自动类中心选择策略。计算每个样本点截断距离圆圈内的数据点个数,同时考虑数据点的分布情况。当圈内具有相同的点个数时,如果圆圈内的数据点分布越均匀,该点的局部密度就越大,密度峰值的可能性越高。通过最大类间差法（Otsu）自动选择阈值找出类中心。实验结果表明,新算法不仅能够自动选择聚类中心,而且相比已有原算法能获得更高分类准确度。相似文献

18.

基于K近邻和优化分配策略的密度峰值聚类算法

孙林秦小营徐久成薛占熬《软件学报》2022,33(4):1390-1411

密度峰值聚类(density peak clustering, DPC)是一种简单有效的聚类分析方法.但在实际应用中,对于簇间密度差别大或者簇中存在多密度峰的数据集,DPC很难选择正确的簇中心;同时,DPC中点的分配方法存在多米诺骨牌效应.针对这些问题,提出一种基于K近邻(K-nearest neighbors,KNN)和优化分配策略的密度峰值聚类算法.首先,基于KNN、点的局部密度和边界点确定候选簇中心;定义路径距离以反映候选簇中心之间的相似度,基于路径距离提出密度因子和距离因子来量化候选簇中心作为簇中心的可能性,确定簇中心.然后,为了提升点的分配的准确性,依据共享近邻、高密度最近邻、密度差值和KNN之间距离构建相似度,并给出邻域、相似集和相似域等概念,以协助点的分配;根据相似域和边界点确定初始聚类结果,并基于簇中心获得中间聚类结果.最后,依据中间聚类结果和相似集,从簇中心到簇边界将簇划分为多层,分别设计点的分配策略;对于具体层次中的点,基于相似域和积极域提出积极值以确定点的分配顺序,将点分配给其积极域中占主导地位的簇,获得最终聚类结果.在11个合成数据集和27个真实数据集上进行仿真... 相似文献