首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
不平衡数据是监督学习中的一个挑战性问题。传统的分类器通常偏向多数类,忽略了少数类,而少数类样本往往包含很多重要信息,需要得到更多的关注。针对此问题,提出了一种基于密度峰值聚类算法的过采样技术(An Oversampling Technique based on Density Peak Clustering, DPCOTE)。DPCOTE的主要思想是:(1)利用k近邻算法去除多数类和少数类噪声样本;(2)基于密度峰值聚类算法(Density peaks clustering algorithm, DPC)中的2个重要因子,即样本局部密度和样本到局部密度较高的最近邻的距离,来为每个少数类样本分配采样权重;(3)对于DPC算法中涉及到的距离,使用马氏距离来度量,以消除样本特征量纲不一致问题。最后,在12个UCI数据集上进行了对比实验,用不同的指标评价分类结果,结果表明本文提出的算法在处理不平衡分类问题时优于其它过采样方法。  相似文献   

2.
视觉采样聚类方法VSC   总被引:2,自引:0,他引:2  
基于视觉采样原理,该文提出了一般化的视觉采样聚类方法VSC。该方法将视觉原理与著名的Weber定律结合起来,其特点是:对聚类初始条件不敏感;Weber定律提供了新的聚类有效性标准,并且该方法所得到的合理的聚类数可以依据Weber定律而得到。大量的实验结果表明了算法VSC的有效性。文中讨论了算法VSC与由Yang Miin-Shen等人(2004)新近提出的基于相似度量的聚类算法SCA之间的内在联系,得出了这两个算法具有一定的同解性质,从而揭示了该文所提方法VSC能够有效地克服算法SCA中参数 不易确定的困难。  相似文献   

3.
针对不平衡数据的分类问题,本文提出了一种新的方法,将特征选择应用在不平衡数据集中,首先对数据集进行预处理,然后从特征选择的角度出发,选择具有较强能力代表数据集的特征,简化数据的同时也提高了分类性能。通过实验表明,该方法能够有效地提高分类精度。  相似文献   

4.
针对不平衡数据分类问题,在数据层面对不平衡数据集进行预处理,即对多数类数据进行先聚类,后欠采样的方式,减少多数类数据的数目,降低数据集的不平衡度,之后再用KNN算法对其进行分类。实验结果表明,对数据层面的预处理,使少数类数据的分类效果得到了提升。  相似文献   

5.
胡峰  王蕾  周耀 《电子学报》2018,46(1):135-144
采样是解决不平衡数据分类问题的一个有效途径.文中结合三支决策理论,根据样本分布将样本划分成三个区域:正域、边界域和负域;在此基础上,分别对边界域和负域中的小类样本进行不同的过采样处理,提出了一种基于三支决策的不平衡数据过采样算法(TWD-IDOS算法).实验结果表明,在C4.5、KNN和CART等分类器上,文中提出的算法能有效解决不平衡数据的二分类问题,在Recall、F-value、AUC等指标上优于文献中的过采样算法.  相似文献   

6.
针对雷达数据集中目标和杂波点迹的聚类不平衡问题,提出一种基于改进AdaBoost的密度峰值聚类法.介绍密度峰值聚类法的思想,基于不对称误分代价改进AdaBoost的误差函数,提高正类错分代价权重,将改进AdaBoost和密度峰值聚类结合,对由目标和杂波点迹组成的不平衡雷达数据集聚类.仿真实验结果表明,该算法在保证总体聚...  相似文献   

7.
基于样本加权的可能性模糊聚类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
刘兵  夏士雄  周勇  韩旭东 《电子学报》2012,40(2):371-375
可能性模糊聚类算法解决了噪音敏感和一致性聚类问题,但算法假定每个待分析样本对聚类的贡献相同,导致离群点或噪声点对算法的干扰较强,算法迭代次数过大.为此,提出一种基于样本加权的可能性模糊聚类算法,新算法具有更快的收敛速度,对标准数据集和人工数据集加噪后的测试结果表明,该算法具有更强的鲁棒性,在有效降低时间复杂度的同时能够...  相似文献   

8.
针对轨迹聚类结果的不可靠性,提出一种基于多聚类结果融合的轨迹聚类方法MRMTC.对于多聚类器产生的多个聚类代表轨迹,提出了轨迹合并算法,实现了多个聚类代表轨迹的合并.代表轨迹合并算法以平均扫描线距离函数作为共识函数,通过共识函数对代表轨迹间的相似度进行比较,最后合并相似的代表轨迹.实验表明基于融合的轨迹聚类方法,可以获...  相似文献   

9.
为避免传统谱聚类算法高复杂度的应用局限,基于地标表示的谱聚类算法利用地标点与数据集各点间的相似度矩阵,有效降低了谱嵌入的计算复杂度。在大数据集情况下,现有的随机抽取地标点的方法会影响聚类结果的稳定性,k均值中心点方法面临收敛时间未知、反复读取数据的问题。该文将近似奇异值分解应用于基于地标点的谱聚类,设计了一种快速地标点采样算法。该算法利用由近似奇异向量矩阵行向量的长度计算的抽样概率来进行抽样,同随机抽样策略相比,保证了聚类结果的稳定性和精度,同k均值中心点策略相比降低了算法复杂度。同时从理论上分析了抽样结果对原始数据的信息保持性,并对算法的性能进行了实验验证。  相似文献   

10.
本文提出了一种新的高效软聚类方法──截集模糊C-均值聚类(S2FCM).该方法将传统的硬聚类(HCM)和经典的模糊聚类(FCM)相统一,并进行了合理的推广而得出的一种有效的聚类方法,S2FCM聚类算法的思想更符合人的分类习惯,模拟实验表明,其总体性能优于FCM算法和HCM算法。  相似文献   

11.
微阵列基因数据用以挖掘特定的生物信息,聚类分析对于研究基因功能和基因调控机制有重要意义.结合改进的遗传算法对基因微阵列数据进行聚类分析,并且通过实验与K均值聚类进行比较.仿真实验表明,该算法可以有效改进基因微阵列数据的聚类准确率.  相似文献   

12.
文章研究和分析了数据流上几种典型的聚类分析算法,分析了这几种算法的优点和不足。研究了现在数据流聚类分析的现状,指出未来发展方向。  相似文献   

13.
结群法的多目标优化   总被引:1,自引:0,他引:1  
提出了结群法的多目标函数。作为例子,针对带宏单元的门阵列给出了相应的算法。理论分析和实验结果均表明,通过多目标优化,可以为评价和设计结群法提供定量依据。  相似文献   

14.
15.
无线传感器网络基于多元簇首的分簇数据收集算法   总被引:1,自引:0,他引:1  
为了提高数据收集可靠性和延长网络生命周期,该文提出基于多元簇首的分簇数据收集算法。算法将网络划分为大小相等的栅格,由每个栅格中的节点各自构成一个簇,根据节点失效概率从每个栅格中选出多个簇首,并由同一栅格中的多个簇首协作完成栅格中节点的数据收集任务。此外,算法还采取了一些降低能量开销的措施。仿真实验结果表明,与现有相关算法相比,该算法具有较高的数据收集可靠性,并能够显著延长网络生命周期。  相似文献   

16.
为了克服传统层次聚类算法由于两类合并造成的中心点偏移的严重缺陷,提出了一种基于类中心矫正的层次聚类算法,从而提高了算法的精确度;同时继承了传统层次聚类对初始中心点的无依赖性;经分析,算法对于已知聚类数和未知聚类数两种情况均有着良好的聚类效果.通过标准数据测试,结果表明新算法的聚类性能与层次聚类算法相比有更高的精确度;并且让新算法用于指导图像分割实验,证明了算法的有效性.  相似文献   

17.
基于数据加权策略的模糊聚类改进算法   总被引:2,自引:0,他引:2  
该文提出了一种数据指数加权的模糊均值聚类策略,引入了指数权因子和影响指数,使得可以在聚类过程中差异化处理各个数据。新策略和现有的Gustafson-Kessel(G-K)算法相结合,提出了一种新的模糊聚类算法DWG-K用于提高聚类质量和挖掘离群点。数据试验表明DWG-K在提高聚类质量方面优于现有的G-K;在离群点挖掘方面,DWG-K对离群点的判定是全局的,离群点的物理意义清楚,且计算效率明显高于当前广泛采用的基于密度的离群点挖掘算法。  相似文献   

18.
噪声环境下的稀疏信号重构可以转换为带约束的二次规划问题,通过正则化算法可以有效求解,而正则化参数却是影响重构质量的重要因素。广义交叉验证(Generalized Cross-Validation, GCV)算法是噪声未知条件下估计的有效算法,但当信噪比较低时却无法保证收敛于全局最优,导致重构图像信杂比降低,甚至造成目标丢失。为实现低信噪比环境下稀疏信号的稳健重构,该文提出基于多测量动态聚类(Multi-Measurement Dynamic Clustering, MMDC)的压缩感知(Compressive Sensing, CS)增强成像方法。新方法首先对初始观测数据进行多次随机抽取,然后通过CS处理获得重构图像序列,最后利用动态聚类算法实现对原信号的稳健重构,在改善重构图像质量的同时也有效地抑制了杂波。另外,鉴于GCV计算量大及MMDC对估计误差的不敏感,该文提出基于简化GCV算法的MMDC增强成像方法,仿真及实测数据的处理结果均验证了所提方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号