首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 265 毫秒
1.
为了提高不平衡数据集分类中少数类的分类精度,提出了基于特征选择的过抽样算法.该算法考虑了不同的特征列对分类性能的不同作用,首先对训练集进行特征选择,选出一组特征列,然后根据选出的特征列合成少数类样本,合成的每个少数类样本的特征由两部分组成,一部分是特征选择的特征列对应的特征,另一部分是按照SMOTE原理合成的特征.将基于特征选择的过抽样算法和SMOTE算法进行实验比较,结果表明基于特征选择的过抽样算法的性能优于SMOTE算法,能有效降低数据的不平衡性,提高少数类的分类精度.  相似文献   

2.
一种基于核SMOTE的非平衡数据集分类方法   总被引:7,自引:0,他引:7       下载免费PDF全文
曾志强  吴群  廖备水  高济 《电子学报》2009,37(11):2489-2495
 本文提出一种基于核SMOTE(Synthetic Minority Over-sampling Technique)的分类方法来处理支持向量机(SVM)在非平衡数据集上的分类问题.其核心思想是首先在特征空间中采用核SMOTE方法对少数类样本进行上采样,然后通过输入空间和特征空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练.实验表明,核SMOTE方法所合成的样本质量高于SMOTE算法,从而有效提高SVM在非平衡数据集上的分类效果.  相似文献   

3.
徐婕  贺美美 《电子学报》2018,46(11):2660-2670
本文将样本为独立同分布的情形减弱为一致遍历马氏链的情形去研究了非平衡数据分类算法的泛化性能,提出了基于马氏抽样的SVM非平衡数据分类算法、基于马氏抽样的EDSVM非平衡数据分类算法和基于马氏抽样的SVM-WKNN非平衡数据分类算法.并用UCI数据库中的10个实际不平衡数据集进行数值实验,实验结果表明基于马氏抽样的上述三种算法的错分率均比基于随机抽样的对应算法的错分率要低,且上述三种算法中,基于马氏抽样的SVM-WKNN非平衡数据分类算法的泛化性能最好.  相似文献   

4.
翟云  王树鹏  马楠  杨炳儒  张德政 《电子学报》2014,42(7):1311-1319
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link & Distribution Density-SMOTE,OSLDD-SMOTE).OSLDD-SMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率.  相似文献   

5.
针对处理不平衡数据集的分类问题,SMOTE通过在相邻样例间线性插值实现少数类样例过采样。但SMOTE插值的结果是样例密集的地方依然相对密集,样例稀疏的地方依然相对稀疏,影响分类性能。针对该问题本文提出一种基于聚类的过采样方法-C-SMOTE。该方法首先将少数类样例聚成多个簇,再以簇为单位结合SMOTE方法产生新样例。实验结果表明,C-SMOTE既保证了数据集整体分类准确率,又能提高少数类分类精度。  相似文献   

6.
电信用户欠费预测是一个不平衡数据集分类问题.针对传统支持向量机(SVM)对不均衡数据集中少数类检测精度低的问题,基于分类平面由边界样本的位置决定,提出了一种通过删除部分多数类边界样本的方法来改善传统SVM算法的不足,将该算法和其他几种算法在电信数据和多个不平衡UCI数据集上的实验结果进行对比,验证所提算法对少数类的检测精度和总体评价指标都有所提高.  相似文献   

7.
面向时序数据发布的隐私保护方法研究   总被引:1,自引:0,他引:1  
于东  康海燕 《通信学报》2015,36(Z1):243-249
针对动态数据(时序数据)提出一种抽样过滤技术的差分隐私保护模型及评价机制。首先,利用固定抽样法对原始时序数据进行抽样,非抽样数据直接发布;其次,对抽样数据采取差分隐私保护机制进行加噪;然后,运用Kalman过滤技术对保护后的抽样数据进行预测修正;最后,通过互信息评价机制对不同抽样间隔下的数据进行评价。通过实验证明抽样过滤机制在安全性和实用性上达到最优的平衡性。  相似文献   

8.
针对基于概率抽样的网络流量异常检测数据集构造过程中无法同时兼顾大、小流抽样需求及未区分flash crowd与流量攻击等问题,该文提出一种面向流量异常检测的概率流抽样方法。在对数据流按目的、源IP地址进行分类的基础上,将每类数据流抽样率定义为其目的、源IP地址抽样率的最大值,并在抽样过程中对数据流抽样数目向上取整,保证每类数据流至少被抽样一次,使抽样得到的数据集可有效反映原始流量在大、小流和源、目的IP地址方面的分布性。采用源IP地址熵刻画异常流源IP地址分散度,并基于源IP地址熵阈值设计攻击流抽样算法,降低由flash crowd引起的非攻击异常流抽样概率。仿真结果表明,该方法能同时满足大、小流抽样需求,具有较强的异常流抽样能力,可抽样到所有与异常流相关的可疑源、目的IP地址,并能在抽样过程中过滤非攻击异常流。  相似文献   

9.
胡峰  王蕾  周耀 《电子学报》2018,46(1):135-144
采样是解决不平衡数据分类问题的一个有效途径.文中结合三支决策理论,根据样本分布将样本划分成三个区域:正域、边界域和负域;在此基础上,分别对边界域和负域中的小类样本进行不同的过采样处理,提出了一种基于三支决策的不平衡数据过采样算法(TWD-IDOS算法).实验结果表明,在C4.5、KNN和CART等分类器上,文中提出的算法能有效解决不平衡数据的二分类问题,在Recall、F-value、AUC等指标上优于文献中的过采样算法.  相似文献   

10.
<正>本文从过采样的角度对不平衡数据集进行了优化,从而改善了分类器在少数类样本中的预测准确率。为了量化边界样本学习的难易程度,引入分类硬度来求取边界样本所需要合成的样本数目,以实现更准确的过采样策略。从过采样角度,提出Ada SMOET算法实现边界样本的自适应取样,克服了原始的SMOTE算法不能按照样本的重要程度取样的缺点。实验结果表明,提出的Ada SMOET算法优于原SMOTE算法。  相似文献   

11.
阿克弘  胡晓东 《电信科学》2023,39(3):135-142
用户是运营商利益的核心。随着携号转网政策的出台,运营商之间的竞争越发激烈。为了提前精准有效地预测用户流失倾向,提出了一种基于生成对抗网络(generative adversarial network,GAN)数据重构的电信用户流失预测方法。首先,利用有效的数据预处理方法电信用户流失数据中的脏数据;其次,利用GAN重构电信用户流失数据,解决电信用户流失数据不平衡问题;最后,利用极度梯度提升树(extremegradient boosting,XGBoost)算法分别训练基于GAN重构的电信用户流失预测模型和基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)采样的电信用户流失预测模型,对比两种模型的预测精度。实验结果表明,GAN重构后的电信用户流失预测模型预测精度比未重构的预测模型的准确率提升了6.75%,查准率提升了25.91%,召回率提升了30.91%,F1值提升了28.73%。该方法能够有效提升电信用户流失预测的准确度。  相似文献   

12.
基于随机下采样和SMOTE的不均衡SVM分类算法   总被引:2,自引:0,他引:2  
传统的支持向量机(SVM)算法在数据不均衡的情况下,分类效果很不理想。为了提高SVM算法在不均衡数据集下的分类性能,提出随机下采样与SMOTE算法结合的不均衡分类方法。该方法首先利用随机下采样对多数类样本进行采样,去除样本中大量重叠的冗余样本,使得在减少数据的同时保留更多有用信息;而对少数类样本则是利用SMOTE算法进行过采样。实验部分将其应用在UCI数据集中并同其他采样算法比较,结果表明文中算法不但能有效提高SVM算法在不均衡数据中少数类的分类性能,而且总体分类性能也有所提高。  相似文献   

13.
水声正交频分复用(OFDM)系统中,采用传统正交匹配追踪(OMP)方法估计离网格(off-grid)时延时,需要很高的过采样因子和高昂的计算开销。针对传统OMP方法估计离网格时延计算复杂度高的问题,该文借鉴多元线性拟合思想引入路径补偿的概念,提出了一种基于路径补偿的改进OMP时延估计算法,用以补偿从离网格路径向其周围网格位置泄漏的能量,并用补偿距离这一参数来解释路径补偿效果。该算法无需增加过采样因子,仅利用恰当的补偿距离即可实现较好的估计效果,且能在提高估计性能的同时降低计算复杂度。仿真分析与海试结果验证了该方法的优越性。  相似文献   

14.
王雷光  耿若筝  代沁伶  王军  郑晨  付志涛 《红外与激光工程》2021,50(12):20210112-1-20210112-12
为有效利用高光谱影像与LiDAR数据的互补性信息,解决单一融合策略造成的场景解译地物边界不准确和分类精度低的问题,提出了一种光谱-空间-高度特征融合、并顾及场景地物类别共生特性的条件随机场分类方法。首先,对两种数据分别提取光谱及形态学特征,对特征集采用图模型进行特征融合,将特征输入概率支持向量机分类器,得到初始分类结果。然后,基于融合特征计算反映像素间类别本质差异的局部光谱-空间-高度协同的异质性值,并统计类别间的空间共生关系。最后,在条件随机场框架内,整合初始分类结果、局部异质性信息及类别共生关系,通过目标函数的迭代求解获得最终分类结果。通过将像素间的权重定义为对应像素位置融合特征的归一化欧式距离的单调减函数,对标记不同但特征差异较大的类别间给予较小的权重,以达到地物边界空间规整化的目的。通过对标记不同但共生概率较大的类别对给予较小的权重,达到保留空间关系稳定的类别对的目的。采用城区场景的美国休斯顿地区数据集和林区场景的中国广西高峰林场两组数据集对提出方法进行了验证。实验结果表明:休斯顿和高峰林场数据集精度分别达到94.00%和92.84%,分类结果的“胡椒盐”现象明显减少,证明了该方法的有效性。  相似文献   

15.
Human activity recognition by using wearable sensors has gained tremendous interest in recent years among a range of health-related areas. To automatically recognize various human activities from wearable sensor data, many classification methods have been tried in prior studies, but most of them lack the incremental learning abilities. In this study, an incremental learning method is proposed for sensor-based human activity recognition. The proposed method is designed based on probabilistic neural networks and an adjustable fuzzy clustering algorithm. The proposed method may achieve the following features. 1) It can easily learn additional information from new training data to improve the recognition accuracy. 2) It can freely add new activities to be detected, as well as remove existing activities. 3) The updating process from new training data does not require previously used training data. An experiment was performed to collect realistic wearable sensor data from a range of activities of daily life. The experimental results showed that the proposed method achieved a good tradeoff between incremental learning ability and the recognition accuracy. The experimental results from comparison with other classification methods demonstrated the effectiveness of the proposed method further.  相似文献   

16.
The Fisher kernel method was recently proposed to incorporate probabilistic (generative) models and discriminative methods for pattern recognition. This method uses parameter derivatives of log-likelihood calculated from probabilistic model(s), Fisher scores, to generate statistical feature vectors. It is followed by discriminative classifiers such as the support vector machine (SVM) for classification. In this work, the authors study the potential of the Fisher kernel method on texture classification. A hybrid system of independent mixture model (IMM) and SVM is introduced to extract and classify statistical texture features in the wavelet-domain. Compared to existing methods that apply Bayesian classification based on wavelet domain energy signatures and stand alone IMM, the new hybrid IMM/SVM method is able to achieve superior performance. Experimental results are presented to demonstrate the effectiveness of this proposed method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号