首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 796 毫秒
1.
不平衡数据分类问题是数据挖掘领域的关键挑战之一。过抽样方法是解决不平衡分类问题的一种有效手段。传统过抽样方法没有考虑类内不平衡,为此提出基于改进谱聚类的过抽样方法。该方法首先自动确定聚类簇数,并对少数类样本进行谱聚类,再根据各类内包含样本数与总少数类样本数之比,确定在类内合成的样本数量,最后通过在类内进行过抽样,获得平衡的新数据集。在4个实际数据集上验证了算法的有效性。并在二维合成数据集上对比k均值聚类和改进谱聚类的结果,解释基于两种不同聚类的过抽样算法性能差异的原因。  相似文献   

2.
基于聚类融合的不平衡数据分类方法   总被引:2,自引:0,他引:2  
不平衡数据分类问题目前已成为数据挖掘和机器学习的研究热点。文中提出一类基于聚类融合的不平衡数据分类方法,旨在解决传统分类方法对少数类的识别率较低的问题。该方法通过引入“聚类一致性系数”找出处于少数类边界区域和处于多数类中心区域的样本,并分别使用改进的SMOTE过抽样方法和改进的随机欠抽样方法对训练集的少数类和多数类进行不同的处理,以改善不同类数据的平衡度,为分类算法提供更好的训练平台。通过实验对比8种方法在一些公共数据集上的分类性能,结果表明该方法对少数类和多数类均具有较高的识别率。  相似文献   

3.
高锋  黄海燕 《计算机科学》2017,44(8):225-229
不平衡数据严重影响了传统分类算法的性能,导致少数类的识别率降低。提出一种基于邻域特征的混合抽样技术,该技术根据样本邻域中的类别分布特征来确定采样权重,进而采用混合抽样的方法来获得平衡的数据集;然后采用一种基于局部置信度的动态集成方法,通过分类学习生成基分类器,对于每个检验的样本,根据局部分类精度动态地选择最优的基分类器进行组合。通过UCI标准数据集上的实验表明,该方法能够同时提高不平衡数据中少数类和多数类的分类精度。  相似文献   

4.
Bagging组合的不平衡数据分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
秦姣龙  王蔚 《计算机工程》2011,37(14):178-179
提出一种基于Bagging组合的不平衡数据分类方法CombineBagging,采用少数类过抽样算法SMOTE进行数据预处理,在此基础上利用C-SVM、径向基函数神经网络、Random Forests 3种不同的基分类器学习算法,分别对采样后的数据样本进行Bagging集成学习,通过投票规则集成学习结果。实验结果表明,该方法能够提高少数类的分类准确率,有效处理不平衡数据分类问题。  相似文献   

5.
传统的机器学习方法在解决不平衡分类问题时,得到的分类器具有很大的偏向性,表现为少数类识别率远低于多数类。为此,在旋转森林分类方法的基础上,提出一种改进的不平衡数据处理方法——偏转森林。通过对少数类进行过抽样改变训练数据的分布以减小数据的不平衡,采用随机抽取的方式确保生成偏转矩阵的样本间存在差异,从而提高集成分类器的分类精度。实验结果表明,该方法能取得较好的分类性能,具有较高的少数类识别正确率和较低的多数类识别错误率。  相似文献   

6.
不平衡数据集中的组合分类算法   总被引:1,自引:0,他引:1  
吴广潮  陈奇刚 《计算机工程与设计》2007,28(23):5687-5689,5761
为提高少数类的分类性能,对基于数据预处理的组合分类器算法进行了研究.利用Tomek links对数据集进行预处理;把新数据集里的多数类样本按照不平衡比拆分为多个子集,每个子集和少数类样本合并成新子集;用最小二乘支持向量机对每个新子集进行训练,把训练后的各个子分类器组合为一个分类系统,新的测试样本的类别将由这个分类系统投票表决.数据试验结果表明,该算法在多数类和少数类的分类性能方面,都优于最小二乘支持向量机过抽样方法和欠抽样方法.  相似文献   

7.
对于不平衡数据的分类,不平衡率并不是影响分类效果的唯一因素,类别间的重叠、正类样本的分离以及噪音样本的存在等均会对分类效果造成影响.针对具有类别重叠的不平衡数据集,提出基于CGAN模型的重抽样方法(RECGAN).该方法结合负类样本的欠抽样和正类样本的过抽样,既能够提高重叠区域正类样本的识别度,又可以克服以往均从样本点的局部邻域出发合成样本的缺陷.实验结果表明,无论是从AUC和F1的取值看,还是从数据集上的平均排序看, RECGAN方法均具有明显的优势.  相似文献   

8.
直接将传统的分类方法应用于不平衡数据集时,往往导致少数类的分类精度低下。提出一种基于K-S统计的不平衡数据分类方法,以有效提高少数类的识别率。利用K-S统计评估分类与特征之间的关系,去除冗余特征,并且构建K-S决策树获得数据分片,调整数据的不平衡度;最后对分片数据双向抽样调整,进行分类学习。该方法使用的K-S统计假设条件极易满足,其效率高且适用性强。通过KDD99入侵检测数据的分析对比表明,对于不平衡的数据集,该方法对多数类及少数类都具有较高的分类精度。  相似文献   

9.
不均衡数据集学习中基于初分类的过抽样算法   总被引:2,自引:0,他引:2  
韩慧  王路  温明  王文渊 《计算机应用》2006,26(8):1894-1897
为了有效地提高不均衡数据集中少数类的分类性能,提出了基于初分类的过抽样算法。首先,对测试集进行初分类,以尽可能多地保留多数类的有用信息;其次,对于被初分类预测为少数类的样本进行再次分类,以有效地提高少数类的分类性能。使用美国加州大学欧文分校的数据集将基于初分类的过抽样算法与合成少数类过抽样算法、欠抽样方法进行了实验比较。结果表明,基于初分类的过抽样算法的少数类与多数类的分类性能都优于其他两种算法。  相似文献   

10.
基于一趟聚类的不平衡数据下抽样算法   总被引:1,自引:0,他引:1  
抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大的簇少抽,密度小的簇多抽或全抽.在压缩数据集的同时,保证了少数类的数量.实验结果表明,本文提出的抽样方法使不平衡数据样本具有较高的代表性,聚类与分类性能得到了提高.  相似文献   

11.
流形上的非线性判别K均值聚类   总被引:1,自引:1,他引:0  
高丽平  周雪燕  詹宇斌 《计算机应用》2011,31(12):3247-3251
为提高具有流形结构的高维数据的聚类性能,提出非线性判别K均值聚类算法(NDisKmeans)。该方法通过引入流形上的谱正则化技术,将数据的低维嵌入表示成数据流形上平滑函数的线性组合,然后通过最大化低维空间中聚类类间的散度与总体散度的比值,来实现对高维数据的聚类。还设计了一种收敛的迭代求解方法来求解最优组合系数矩阵和聚类赋值矩阵。NDisKmeans方法由于考虑了数据的流形结构,克服了判别K均值算法中线性映射的不足,从而提高了对高维数据聚类的性能。最后在数据集上的广泛实验表明,NDisKmeans方法能有效实现对高维数据的聚类。  相似文献   

12.
深度学习因强大的特征提取能力已逐渐成为旋转机械故障诊断的主要方法。但深层模型缺乏领域适应能力,工况变化时性能衰退严重。迁移学习为解决变工况诊断问题提供新的途径。然而现有深度迁移学习方法大多仅对齐不同领域分布的均值中心,未考虑特征分布的流形结构,其适配性能仍难以应对不同工况复杂的机械故障信号。针对该问题,提出一种深度流形迁移学习方法,以堆叠自编码器为框架,在无监督预训练阶段同时利用源域和目标域样本训练,充分挖掘数据本质特征;针对模型微调,提出流行迁移框架,在适配分布差异同时还保持领域间特征分布结构的一致性。将新方法与现有迁移学习方法在旋转机械故障诊断案例进行充分的比较实验,结果表明,新方法优于现有方法,能显著提高变工况故障诊断精度。通过有效性分析在机理上进一步证明了融合目标域数据的无监督预训练策略和流形迁移微调策略对提高变工况故障诊断的有效性。  相似文献   

13.
黄鸿  唐玉枭  段宇乐 《自动化学报》2022,48(10):2496-2507
大量维数约简(Dimensionality reducion, DR)方法表明保持数据间稀疏特性的同时,确保几何结构的保持能更有效提取出具有鉴别性的特征,为此本文提出一种联合局部几何近邻结构和局部稀疏流形的维数约简方法.该方法首先通过局部线性嵌入方法重构每个样本以保持数据的局部线性关系,同时计算样本邻域内的局部稀疏流形结构,在此基础上通过图嵌入框架保持数据的局部几何近邻结构和稀疏结构,最后在低维嵌入空间中使类内数据尽可能聚集,提取低维鉴别特征,从而提升地物分类性能.在Indian Pines和PaviaU高光谱数据集上的实验结果表明,本文方法相较于传统维数约简方法能明显提高地物的分类性能,总体分类可达到83.02%和91.20%,有利于实际应用.  相似文献   

14.
宏基因组组装往往只能得到较长片段的叠连群,无法恢复完整的基因组.现有的一些分箱方法并未充分挖掘叠连群序列组成和样本覆盖度内部结构信息.开发了基于流形嵌入的宏基因组学叠连群分箱方法,可以挖掘出高维数据中内部的非线性结构特征,从而降低数据的维度,提高计算性能.使用流形嵌入的结果估计出初始分箱数,比使用基于单拷贝基因的分箱数...  相似文献   

15.
在单机环境下按多关键字对大数据排序需要较长的执行时间,为了提高按多关键字对大数据排序的效率,根据Hadoop的MapReduce模型,给出了两种基于Hadoop的多关键字排序方法。方法一在Reduce函数中使用链式基数排序算法按多关键字对大数据并行排序,利用多个节点的计算能力提高排序的效率。方法二通过定义组合键和比较器实现了对记录的多个关键字按字节比较,节省了将字节流反序列化为对象的时间。通过实验测试了两种方法的性能,实验结果表明,两种方法均能取得较高的排序效率和较好的可扩展性。  相似文献   

16.
Manifold learning algorithms seek to find a low-dimensional parameterization of high-dimensional data. They heavily rely on the notion of what can be considered as local, how accurately the manifold can be approximated locally, and, last but not least, how the local structures can be patched together to produce the global parameterization. In this paper, we develop algorithms that address two key issues in manifold learning: 1) the adaptive selection of the local neighborhood sizes when imposing a connectivity structure on the given set of high-dimensional data points and 2) the adaptive bias reduction in the local low-dimensional embedding by accounting for the variations in the curvature of the manifold as well as its interplay with the sampling density of the data set. We demonstrate the effectiveness of our methods for improving the performance of manifold learning algorithms using both synthetic and real-world data sets.  相似文献   

17.
多聚类中心近邻传播聚类算法(MEAP),在处理任意形状具有流形分布结构的数据时,往往得不到理想的聚类结果。为此,基于流形学习的思想,设计了一种全新的相似性度量,该相似性度量能够扩大位于同一流形中数据点间的相似性,同时缩小处于不同流形上数据点间的相似性,从而使得相似性矩阵能够准确地反映数据集内在的流形分布结构。将该相似性度量与MEAP相结合,提出基于流形结构的多聚类中心近邻传播聚类算法MS-MEAP(Manifold Structure based Multi-Exemplar Affinity Propagation),从而有效地拓展了算法处理任意形状具有流形分布结构数据集的能力,同时提高了算法的运行效率。在人工数据集与USPS手写体数据集上进行了实验,仿真实验结果及算法有效性分析证明,MS-MEAP算法相比于原算法在处理任意形状具有流形分布结构的数据时,具有更好的聚类性能。  相似文献   

18.
钟明  薛惠锋 《测控技术》2010,29(12):18-21
通过Garbor小波提取人脸表情特征,为降低Garbor变换后向量维数和提取有效的鉴别特征,将手动选取特征点和监督局部线性嵌入(SLLE)结合起来,利用人脸表情图像数据本身的非线性流形结构信息和样本标签信息来调整点到点之间的距离,并形成距离矩阵,而后基于被调整的距离矩阵进行线性近邻重建来实现维数约简,提取低维鉴别特征用于人脸表情识别。结果表明该方法能更为有效地提取反映表情状态的特征,识别率优于传统的PCA算法,取得了较好的识别效果。最后实验分析了SLLE算法近邻数K和嵌入维数对识别率的影响,得到了SLLE算法的最优近邻数K和低维嵌入维数。  相似文献   

19.
This paper presents a novel recurrent neural network-based method to construct a latent motion manifold that can represent a wide range of human motions in a long sequence. We introduce several new components to increase the spatial and temporal coverage in motion space while retaining the details of motion capture data. These include new regularization terms for the motion manifold, combination of two complementary decoders for predicting joint rotations and joint velocities and the addition of the forward kinematics layer to consider both joint rotation and position errors. In addition, we propose a set of loss terms that improve the overall quality of the motion manifold from various aspects, such as the capability of reconstructing not only the motion but also the latent manifold vector, and the naturalness of the motion through adversarial loss. These components contribute to creating compact and versatile motion manifold that allows for creating new motions by performing random sampling and algebraic operations, such as interpolation and analogy, in the latent motion manifold.  相似文献   

20.
邻域保持嵌入是局部线性嵌入的线性近似,强调保持数据流形的局部结构.改进的最大间隔准则重视数据流形的判别和几何结构,提高了对数据的分类性能.文中提出的核岭回归的邻域保持最大间隔分析既保持流形的局部结构,又使不同类别的数据保持最大间隔,以此构建算法的目标函数.为了解决数据流形高度非线性化的问题,算法采用核岭回归计算特征空间的变换矩阵.先求解数据样本在核子空间中降维映射的结果,再解得核子空间.在标准人脸数据库上的实验表明该算法正确有效,并且识别性能优于普通的流形学习算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号