首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
密度峰值聚类算法是一种新颖的密度聚类算法,但是原算法仅仅考虑了数据的全局结构,在对分布不均匀的数据集进行聚类时效果不理想,并且原算法仅仅依据决策图上各点的分布情况来选取聚类中心,缺乏可靠的选取标准。针对上述问题,提出了一种基于加权K近邻的改进密度峰值聚类算法,将最近邻算法的思想引入密度峰值聚类算法,重新定义并计算了各数据点的局部密度,并通过权值斜率变化趋势来判别聚类中心临界点。通过在人工数据集上与UCI真实数据集上的实验,将该改进算法与原密度峰值聚类、K-means及DBSCAN算法进行了对比,证明了改进算法能够在密度不均匀数据集上有效完成聚类,能够发现任意形状簇,且在三个聚类性能指标上普遍高于另外三种算法。  相似文献   

2.
《软件》2017,(4):85-90
基于密度的聚类算法(Density Peak Clustering,DPC)广泛使用在处理非球形数据集的聚类问题,算法使用较少的参数就能够实现数据集的处理。但该算法存在这样一些的不足:首先,全局变量的设定没有考虑数据的局部结构,特别是当不同类别的局部密度差别很大的情况下,容易忽略一些密度较小的类别,聚类效果不理想。其次,DPC提出了一种通过决策图来人工选取聚类中心点的方法,这也是DPC算法在人工智能数据分析的一个重大缺陷。为此,本文提出了基于K近邻的模糊密度峰值聚类算法,算法针对这两方面的不足进行了改进。最后本文使用人工数据集和UCI数据集进行了实验,实验结果表明本文所提出的算法,在不通过人工选取聚类中心的情况下,能够正确地找出类别个数,并且保持着较高的聚类精确度,验证了算法的有效性。  相似文献   

3.
改进的k-nn快速分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统的k-近邻(k-nn)方法的缺点,将聚类中的K均值和分类中的k近邻算法有机结合,提出了一种改进的k-nn快速分类算法。实验表明该算法在影响分类效果不大的情况下能达到快速分类的目的。  相似文献   

4.
针对密度峰值聚类算法(DPC)在处理维数较高、含噪声及结构复杂数据集时聚类性能不佳问题,提出一种结合K近邻的改进密度峰值聚类算法(IDPCA)。该算法首先给出新的局部密度度量方法来描述每个样本在空间中的分布情况,然后引入核心点的概念并结合K近邻思想设计了全局搜索分配策略,通过不断将核心点的未分配K近邻正确归类以加快聚类速度,进而提出一种基于K近邻加权的统计学习分配策略,利用剩余点的K近邻加权信息来确定其被分配到各局部类的概率,有效提高了聚类质量。实验结果表明,IDPCA算法在21个典型的测试数据集上均有良好的适用性,而在与DPC算法及另外3种典型聚类算法的性能指标对比上,其优势更为明显。  相似文献   

5.
基于相对密度的聚类算法   总被引:5,自引:1,他引:5  
基于密度的聚类算法因其抗噪声能力强和能发现任意形状的簇等优点,在聚类分析中被广泛采用,本文提出的基于相对密度的聚类算法,在继承上述优点的基础上。有效地解决了基于密度的聚类结果对参数值过于敏感、参数值难以设置以及高密度簇完全被相连的低密度簇所包含等问题。  相似文献   

6.
针对目前室内定位依靠Wi-Fi电磁指纹库方法实现室内人员定位进行判别存在误差大以及时效性低的问题,本文提出一种融合K近邻(K-NN)的改进密度峰值聚类(K-IDPC)算法。引入关联系数和KNN思想,解决了普通密度峰值聚类(DPC)算法对定位数据密度不均衡,聚类中心区分度不高的问题,进而提高了对定位环境的鲁棒性。并结合数据切分算法,对离线电磁数据进行切割,使得大数据集分为若干小数据集,降低了计算复杂度。实验结果表明:提出的室内定位方法,同传统的K均值(K-means)、具有噪声应用的基于密度空间聚类(DBSCAN)、DPC聚类算法相比,能够有效地提高室内定位的效果。  相似文献   

7.
王小华  楼佳 《计算机工程》2010,36(13):27-29
综合考虑聚类、分类的特点,从聚类结果出发,学习并利用初始聚类结构信息形成训练集,结合迭代分类思想重新划分原数据集,提出一种基于迭代分类的聚类结果改进方法。实验结果表明该方法具有更高准确率,为获得良好的聚类效果提供了新思路。  相似文献   

8.
特征向量的高维性以及训练样本分布不均影响文本分类器性能。提出了一种聚类模式下的KNN改进方法。首先使用一种改进的聚类方法对文本特征集进行初步筛选,随后使用一种基于类别的改进KNN分类器进行分类,减少了噪声样本对测试样本类别判定的干扰。试验结果表明本文提出的分类模型在分类效率上得到提高。  相似文献   

9.
快速搜索与发现密度峰值聚类算法(Fast Search and Discovery Density Peak Clustering Algorithm,CFSFDP)的聚类效果十分依赖截断距离[dc]的主观选取,而最佳[dc]值的确定并不容易,并且当处理分布复杂、密度变化大的数据集时,算法生成的决策图中类簇中心点与非类簇中心点的区分不够明显,使类簇中心的选取变得困难。针对这些问题,对其算法进行了优化,并提出了基于K近邻的比较密度峰值聚类算法(Comparative Density Peak Clustering algorithm Based on K-Nearest Neighbors,CDPC-KNN)。算法结合K近邻概念重新定义了截断距离和局部密度的度量方法,对任意数据集能自适应地生成截断距离,并使局部密度的计算结果更符合数据的真实分布。同时在决策图中引入距离比较量代替原距离参数,使类簇中心在决策图上更加明显。通过实验验证,CDPC-KNN算法的聚类效果整体上优于CFSFDP算法与DBSCAN算法,分离度实验表明新算法使类簇中心与非类簇中心点的区分度得到有效提高。  相似文献   

10.
张清华  周靖鹏  代永杨  王国胤 《软件学报》2023,34(12):5629-5648
密度峰值聚类(density peaks clustering, DPC)是一种基于密度的聚类算法,该算法可以直观地确定类簇数量,识别任意形状的类簇,并且自动检测、排除异常点.然而, DPC仍存在些许不足:一方面, DPC算法仅考虑全局分布,在类簇密度差距较大的数据集聚类效果较差;另一方面, DPC中点的分配策略容易导致“多米诺效应”.为此,基于代表点(representative points)与K近邻(K-nearest neighbors, KNN)提出了RKNN-DPC算法.首先,构造了K近邻密度,再引入代表点刻画样本的全局分布,提出了新的局部密度;然后,利用样本的K近邻信息,提出一种加权的K近邻分配策略以缓解“多米诺效应”;最后,在人工数据集和真实数据集上与5种聚类算法进行了对比实验,实验结果表明,所提出的RKNN-DPC可以更准确地识别类簇中心并且获得更好的聚类结果.  相似文献   

11.
针对现有关联分类算法资源消耗大、规则剪枝难、分类模型复杂的缺陷,提出了一种基于分类修剪的关联分类算法改进方案ACCP.根据分类属性值的不同对分类规则前项进行分块挖掘,并对频繁项集挖掘过程和规则修剪进行了改进,有效提高了分类准确率和算法运行效率.实验结果表明,此算法改进方案相比传统CBA算法和C4.5决策树算法有着更高的分类准确率,取得了较好的应用效果.  相似文献   

12.
一种改进的关联分类算法   总被引:2,自引:0,他引:2  
关联分类算法是数据挖掘技术中一种主要分类方法,但传统关联分类算法仅根据置信度构造分类器,影响分类精度。提出一种改进算法,在选择高置信度构造分类器的基础上,优先考虑短规则分类。实验结果表明,该改进算法在分类精度和分类器大小上均优于传统分类算法。  相似文献   

13.
随着移动通信技术的不断发展,手机的普及率在不断上升,而短信作为传统的移动通信服务,长久以来一直在人们的日常生活中占据着极为重要的位置。可以说,短信在一定程度上记录了人们生活的轨迹。但是,现有的短信管理系统仅对短信进行以联系人为特征分类、以时间为顺序显示的简单非智能化的管理,导致了用户手机中各类短信混杂不清,短信的管理效率极低。通过研究短信的特征,分析传统的基于文档频率的特征值提取方法和基于互信息的特征值提取方法的优势与不足,提出了一种适用于短信的基于词频和互信息的特征值提取方法,并结合短信长度实现了一种改进的贝叶斯分类算法。实验证明,算法在进行短信分类时可以得到相当可观的召回率和准确率。  相似文献   

14.
传统随机森林分类算法采用平均多数投票规则不能区分强弱分类器,而且算法中超参数的取值需要调节优化.在研究了随机森林算法在文本分类中的应用技术及其优缺点的基础上对其进行改进,一方面对投票方法进行优化,结合决策树的分类效果和预测概率进行加权投票,另一方面提出一种结合随机搜索和网格搜索的算法对超参数调节优化.Python环境下的实验结果表明本文方法在文本分类上具有良好的性能.  相似文献   

15.
肖菁  梁燕辉 《计算机工程》2012,38(17):162-165
为提高基于传统Ant-miner算法分类规则的预测准确性,提出一种基于改进Ant-miner的分类规则挖掘算法。利用样例在总样本中的密度及比例构造启发式函数,以避免在多个具有相同概率的选择条件下造成算法偏见。对剪枝规则按变异系数进行单点变异,由此扩大规则的搜索空间,提高规则的预测准确度。在Ant-miner算法的信息素更新公式中加入挥发系数,使其更接近现实蚂蚁的觅食行为,防止算法过早收敛。基于UCI标准数据的实验结果表明,该算法相比传统Ant-miner算法具有更高的预测准确度。  相似文献   

16.
针对提取显现模式时在小样本情况下频率近似于概率的缺陷,在衡量分类信息能力熵的计算中引入贝叶斯方法估计概率P(Ci, Sj),提高熵的可靠度,在此基础上提取癌症表达中的增强显现模式,提出2种基于增强显现模式的癌症分类算法。在急性白血病数据集上进行实验,结果表明,该算法能提高癌症检测的正确率。  相似文献   

17.
现有深度残差网络作为一种卷积神经网络的变种,由于其良好的表现,被应用于各个领域,深度残差网络虽然通过增加神经网络深度获得了较高的准确率,但是在相同深度情况下,仍然有其他方式提升其准确率.本文针对深度残差网络使用了三种优化方法:(1)通过卷积网络进行映射实现维度填充;(2)构建基于SELU激活函数的残差模块(3)学习率随迭代次数进行衰减.在数据集Fashion-MNIST上测试改进后的网络,实验结果表明:所提出的网络模型在准确率上优于传统的深度残差网络.  相似文献   

18.
为了进一步提高支持向量机分类的准确性和泛化能力,提出一种基于支持向量机的改进二叉树分类算法.首先介绍支持向量机的基本原理,总结了常见的多分类器分类算法及其特点,结合现有分类算法的优点,为分类器引入了不同的权值,提出二叉树改进分类算法,有效避免了常用分类算法不足.通过仿真实验,与典型的多类分类算法对比,验证该算法的有效性,为多类分类预测研究提供了一条有效的途径.  相似文献   

19.
深度置信网络(deep belief network,DBN)通过逐层无监督学习进行训练,但训练过程中易产生大量冗余特征,进而影响特征提取能力。为了使模型更具有解释和辨别能力,基于对灵长类视觉皮层分析的启发,在无监督学习阶段的似然函数中引入惩罚正则项,使用CD(contrastive divergence)训练最大化目标函数的同时,通过稀疏约束获得训练集的稀疏分布,可以使无标签数据学习到直观的特征表示。其次,针对稀疏正则项中存在的不变性问题,提出一种改进的稀疏深度置信网络,使用拉普拉斯函数的分布诱导隐含层节点的稀疏状态,同时将该分布中的位置参数用来控制稀疏的力度,即根据隐藏单元的激活概率与给定稀疏值的偏差程度而具有不同的稀疏水平。通过在MNIST和Pendigits手写体数据集上进行验证分析,并与多种现有方法相比,该方法始终达到最好识别准确度,并且具有良好的稀疏性能。  相似文献   

20.
心电图(Electrocardiogram,ECG)心拍分类是心律失常诊断的重要步骤,为了准确检测心律失常类型,提出了一种利用改进的残差网络进行ECG分类的算法.首先使用CEEMDAN-改进小波阈值算法去除心电信号中的噪声,然后构建改进残差网络实现对ECG的分类,在该改进残差网络中,首先将传统深度残差网络中的卷积层、池化层替换成Inception模块,从而提取不同尺度的特征;然后设计了残差嵌套网络,实现了ECG信号不同层次的特征融合,最后采用Softmax分类器进行分类.将该模型在MIT-BIH数据库进行训练和验证,结果表明,所提出的网络模型具有较高的分类准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号