首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
传统过采样算法通过合成少数类样本来改善不平衡问题,但未考虑产生噪点与样本分布不均匀等问题,针对该类问题,提出了一种基于聚类与对改进SMOTE的过采样算法SK-SMOTE。该算法在聚类前,先合成一部分少数样本,以此提高少数类样本数量,同时根据合成的少数类样本的邻居样本的类别和距离赋予权重,通过权重总和是否大于设定的值来决定该样本是否可以被保留。在提高少数类样本数量后,再使用KMeans算法进行聚类,然后保留少数样本较多的簇。在簇内进行过采样,相对稀疏的簇将合成更多的少数类样本。选取UCI和KEEL数据库中的不平衡数据集,将SVM、RF、KNN作为分类算法,并选用几种经典的SMOTE算法与SK-SMOTE进行多组对比实验。实验结果表明,SK-SMOTE算法可有效平衡不平衡数据集,且在不平衡比例较高的数据集上取得了比传统过采样算法更好的结果。  相似文献   

2.
基于数据驱动的电容式电压互感器(Capacitor Voltage Transformer,CVT)误差状态预测技术面临着数据不平衡,小样本数据不足的困境。针对该问题,整合DBSCAN聚类算法和基于径向的过采样算法(Radial-Based Oversampling,RBO),并在此基础上提出了一种引入权重分布RBO的过采样算法(Weight Distribution and Radial-Based Oversampling,WD-RBO)。该算法首先使用DBSCAN对CVT超差样本聚类,过滤数据集中的噪声;其次,通过簇密度分布函数和质心势能,计算超差样本各个簇的采样权重,确定每个簇中合成新样本的数量;最后,使用改进的RBO过采样算法合成新超差样本。实验结果表明,与SMOTE和RBO等过采样算法相比,WD-RBO使得预测模型的准确率和AUC值分别提高到0.967和0.996,且运行时长满足应用要求。WD-RBO可以有效解决类间不平衡和类内不平衡,提高模型对CVT误差状态的预测性能。  相似文献   

3.
针对不平衡数据集分类,现有的过采样算法更多地解决了类间不平衡问题,而未考虑少数类的类内不平衡,未筛选进行过采样的样本及未去除噪音,且合成过程中存在样本重叠及样本分布"边缘化"等问题,提出一种基于层次聚类和改进SMOTE的过采样算法AGNES-SMOTE.该算法对多数类和少数类样本分别进行层次聚类,并根据获得的多数类簇划...  相似文献   

4.
以往建立在模糊C均值(fuzzyC-means, FCM)框架下利用源域虚拟簇中心作为迁移知识的迁移聚类算法容易受到离群点和噪声的干扰,且单个簇中心不足以描述簇结构。针对此问题,提出多代表点自约束的模糊迁移聚类算法,该算法引入样本代表权重机制为簇中每个样本分配代表权重来刻画簇结构,这种机制能更好的刻画簇结构,对离群点和噪声有较好的抑制作用;同时利用源域样本,重构目标域簇结构,并以此作为迁移知识进行目标域样本聚类,相对于利用单中心作为迁移知识来说,整体重构后的目标域簇结构所包含的迁移知识量更为丰富。试验结果表明。在人工数据集和真实数据集上,所提出的聚类算法相比对比算法, NMI和ARI最高提升了0.674 5和0.608 4。说明在迁移环境下,以代表点自约束作为知识迁移规则,所提出的聚类算法具有一定的聚类效果。  相似文献   

5.
提出并设计了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和划分聚类的思想,通过一个阈值来控制聚类算法的选取和新簇的建立.从一个小样本的实验结果来看,该算法的召回率和正确率比各种经典的方法更高.  相似文献   

6.
针对流量分类中样本标注瓶颈和类不均衡问题,提出一种基于K均值和k近邻的半监督流量分类算法。采用K均值聚类算法将混有少量标记样本和大量未标记样本的数据聚成若干个簇,然后采用k近邻算法利用簇中标记样本对未标记样本进行分类。在分类过程中根据簇中标记样本分布调整参与分类的最近邻居数,从而克服了类不均衡对识别小类流的不利影响。理论分析和实验结果都表明,算法在面对非均衡协议流时提高了小类流的识别率。  相似文献   

7.
针对现有基于划分的聚类算法无法有效聚类簇大小和簇密度有较大差异的非均匀数据的问题,提出一种基于变异系数聚类算法。从聚类优化目标的角度出发,分析了以K-means为代表的划分聚类算法引发“均匀效应”的成因;提出以变异系数度量非均匀数据的分布散度,并基于变异系数定义一种非均匀数据的相异度公式;基于相异度公式定义了聚类目标优化函数,并根据局部优化方法给出聚类算法过程。在合成和真实数据集上的试验结果表明,与K-means、Verify2、ESSC聚类算法相比,本研究提出的非均匀数据的变异系数聚类算法(coefficient of variation clustering for non-uniform data, CVCN)聚类精度提升5%~40%。  相似文献   

8.
为了提高算法聚类精度,降低算法聚类耗时,根据支持向量聚类算法的统计性原理本文提出了一种改进的支持向量聚类算法。该算法通过预处理数据,提高样本质量;成功解决内部支持向量点扰乱提取簇轮廓的问题;利用支持向量点寻找局部最优点,采用SEP进行成对抽样确定簇标签。理论分析和仿真结果表明,改进算法有效的提高了聚类精度高,降低了算法的复杂度,取得了良好的聚类效果  相似文献   

9.
基于特征加权理论的数据聚类算法   总被引:1,自引:0,他引:1  
针对数据挖掘过程中数据聚类操作的初始聚类数目和初始聚类中心确定困难的问题,提出了一种软子空间结合竞争合并机制的模糊加权聚类算法.通过对软子空间聚类算法的目标函数进行改写,并结合数据簇势的大小对各数据簇进行竞争与合并操作,实现了对数据的聚类处理.结果表明,该算法能够准确地对数据样本进行聚类,并且聚类结果与初始数据簇数目和初始聚类中心无关,能够满足对高维数据聚类处理的需要,具有较好的实际应用价值.  相似文献   

10.
为了准确识别潜在换网电信用户,建立一种电信用户网别更换预测模型。根据用户历史数据生成网别更换标签,确定其多数类和少数类样本。利用具有噪声的密度聚类欠采样方法对多数类样本进行聚类,删除聚类后的噪声样本和各簇的边界样本,并选择各簇核心样本点进行随机欠采样;结合人工合成少数类过采样方法对少数类样本进行过采样。将构成混合采样后的平衡样本集合,输入到两层的Stacking集成学习算法中训练,得出分类结果。实验结果表明,该模型具有较好的数据集均衡性能,且预测准确率高,能够更好地识别潜在的网别更换用户。  相似文献   

11.
&#  &#  &#  &#  &# 《西华大学学报(自然科学版)》2015,34(5):16-23, 74
针对不均衡数据下分类超平面偏移、少数类识别率较低的问题,提出一种基于样本密度的不均衡数据分类算法。该算法首先计算样本密度和类样本密度,依据类样本密度之间的关系确定聚类类数, 然后利用K-means聚类算法对多数类样本进行聚类,用聚类所得类中心作为样本集取代原多数类样本集, 最后对新构造的训练集进行训练得到最终决策函数。其实验结果表明,该算法能够提高SVM在不均衡数据下的分类性能,尤其是少数类的分类性能。    相似文献   

12.
In order to effectively solve the problem that boundary points are deleted directly from unbalanced data and effectively maintain the information on most kinds of data,a clustering-based weighted boundary point integration undersampling algorithm is proposed.First,the algorithm extracts the number of minority class sets as the initial number of clustering centers of majority class sets to cluster.Then,the variation coefficient is introduced to identify the boundary points,and the identified boundary points are weighted so that the weighted boundary points can be added to the unbalanced data processing.Then,the cluster density is used to divide majority class sets into the high-density cluster and low-density cluster,delete the low-density cluster,and finally obtain the reduced majority of the sample sets.Then,the reduced majority of class samples is combined with the minority of class samples to form a balanced data set,which is trained with the Ada boost to get the final classification model.This method can be used to reduce the dataset and improve the efficiency of execution.The results show that the proposed method can effectively handle the problem of unbalanced data,and improve the execution efficiency and accuracy of the under-sampling algorithm for unbalanced data weighted boundary point integration.  相似文献   

13.
为进一步改善局部支持向量机的分类效率和分类精度,提出一种改进的局部支持向量机算法。该算法对每类训练样本分别进行聚类,使用聚类生成的样本中心点集代替样本,使用改进的k最近邻算法选取测试样本的k个近邻。分别在UCI数据集和自建树皮图像数据集上对本研究算法的有效性进行测试。实验结果表明,本研究提出的算法在分类精度和效率上具有一定的优势。  相似文献   

14.
为了充分挖掘成对约束所隐含的信息来指导数据降维和数据聚类,提出一种基于加权成对约束投影的半监督聚类方法.该方法构造成对约束信息的k最近邻集并扩充成对约束集,分析成对约束实例包含的信息量并构造权系数矩阵,在加权成对约束信息的指导下求得投影矩阵,通过投影矩阵将样本数据投影到低维空间,使类内各点紧密分布,类间各点分散分布.同时,通过一种新的评价函数对k均值聚类算法进行改进,能够在尽量不违反成对约束的情况下优化聚类性能,实验结果表明,与现有半监督降维聚类算法相比,新方法能以较低的开销对高维数据进行聚类.  相似文献   

15.
为了能够快速准确地发现自然分布的、任意形状密度变化的聚类,提出了基于近邻传播的快速扫描算法,该算法利用最近邻居关系的传递特性实现数据集合的完全聚类,简化了传统聚类方法的最近邻居判定和计算,优化了搜索过程,实现了快速聚类分析过程。通过与同类算法的比对验证,结果表明该算法对目标数据集合的任意分布特性有很好的适应能力。  相似文献   

16.
K-均值算法对初始聚类中心敏感,聚类结果随不同初始聚类中心波动。针对以上问题,提出一种基于最小方差的自适应K-均值初始化方法,使初始聚类中心分布在K个不同样本密集区域,聚类结果收敛到全局最优。首先,根据样本空间分布信息,计算样本方差得到样本紧密度信息,并基于样本紧密度选出满足条件的候选初始聚类中心;然后,对候选初始聚类中心进行处理,筛选出K个初始聚类中心。实验证明,算法具有较高的聚类性能,对噪声和孤立点具有较好的鲁棒性,且适合对大规模数据集聚类。  相似文献   

17.
传统基于项目的协同过滤算法离线计算项目间的相似度,提高了向用户推荐的速度,但极大的数据稀疏度影响了推荐质量,且该算法也忽略了用户兴趣随时间变化这一现象. 针对上述问题,提出了一种融合项目聚类和时间权重的动态协同过滤算法,根据用户偏好对项目进行聚类,找出类别偏好相似的候选邻居,再在候选邻居中搜寻最近邻,排除与目标项目共同评分较少的项目干扰,提高了搜寻相似项目的准确性. 同时,引入时间权重来反映用户兴趣随时间的变化,从整体上提高推荐质量. 在MovieLens数据集上进行实验,实验结果表明,本文所提出算法的推荐质量较传统的协同过滤算法有显著提高.  相似文献   

18.
针对智能联网环境下的多车协同换道问题,?设计一个基于多集群系统的车辆协同控制框架.给出了虚拟领导者的选取条件,?智能联网车辆通过分布式集群划分算法选取邻居车辆、领导者、虚拟领导者作为控制协议的状态演化.在此基础上,?提出适用于集群空间分配的间距控制算法和基于领导者跟随者的集群控制协议,?使换道车辆扩大前后车辆纵向距离以...  相似文献   

19.
针对全局K-均值算法时间复杂度大的问题,提出一种增量选择初始聚类中心的新方法。选择数据集中周围分布最密集的样本作为第一个初始聚类中心,选择最小化目标函数贡献大,并且和已有聚类中心距离远的样本作为下一个初始聚类中心。改进算法减少了增量选取初始聚类中心时的计算量,降低了时间复杂度。实验证明,改进算法与全局K-均值算法、快速全局K-均值算法相比,在不影响聚类效果的基础上,减少了聚类时间,与优化初始聚类中心的算法相比,聚类效果更优。  相似文献   

20.
In order to improve the recognition performance of the electrocardiogram,especially the recognition accuracy of minor diseases,this paper proposes the electrocardiogram recognition architecture based on the DB-SMOTE algorithm and multi-layered stacking model.The DB-SMOTE algorithm is proposed to solve the problem because the classical oversampling SMOTE algorithm ignores the intra-class unbalance of minority-class data.The new algorithm utilizes DBSCAN clustering to divide the data of minority classes into multiple clusters and filter out the noise samples,takes the boundary data of each cluster as the main body to generate new samples,and analyzes visually by tSNE.The performance of a single classifier cannot meet the requirements,so a multi-layered stack classification is used for identification,which is divided into two parts:the first is based on KNN,Xgboost and GBDT,and the feature F is mapped to F';the second part of the model is to identify the feature F'.This architecture has a 99.66% accuracy rate in identifying the electrocardiogram and can improve the recognition accuracy of minor diseases well,so it can be used to identify arrhythmias effectively.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号