首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 5 毫秒
1.
针对传统SMOTE过采样方法在生成合成样本的过程中存在的盲目性,以及对噪声敏感且容易出现过拟合现象的问题,提出一种改进的聚类边界样本过采样(CB-SMOTE)方法,通过引入“聚类一致性系数”找到少数类样本的边界,利用边界样本的最近邻密度来剔除噪声点和确定合成样本的数量,对SMOTE方法的新样本合成规则进行了优化.该方法是一种指导性的过采样方法,合成样本更加有利于分类器的学习.通过实验对比6种不同方法在UCI公共数据集上的分类性能,结果表明:CB-SMOTE方法对少数类样本和多数类样本都具有较高的分类准确率,且对过采样倍数的变化具有更高的稳定性.  相似文献   

2.
提出了一种结合流形学习方法与分类算法的基因微阵列数据分类模型,先用流形学习算法对基因微阵列数据进行降维处理,然后再对降维后的数据进行分类.在实验中将流形学习算法LLE、ISO-MAP、LE和LTSA与三种分类算法相结合,并与直接用高维数据进行分类的结果进行了比较,实验结果表明所提出的模型极大地提高了分类精度,同时也提高了分类算法的执行效率.  相似文献   

3.
针对已有聚合式图嵌入方法多采用均匀采样函数为图中节点构建邻域,即仅随机采样邻居节点,而忽略各邻居节点自身性质的差异的问题,提出基于度值的非均匀邻居节点采样方法. 针对目标节点,优先采样其度值较大的邻居节点;隐藏一批度值较小的邻居节点,使它们在采样过程中不出现;在邻居节点集中随机采样剩余的节点以保留一定的采样随机性,这些随机采样的节点与优先采样的节点组成目标节点的邻域. 将所提出的非均匀邻居节点采样方法应用于图嵌入过程,在Reddit数据集上的图嵌入分类F1分数为91.7%,该结果优于几个知名的图嵌入方法的结果. 在重叠社团数据集PPI上的实验证实提出方法能够为图数据生成更高质量的嵌入.  相似文献   

4.
传统过采样算法通过合成少数类样本来改善不平衡问题,但未考虑产生噪点与样本分布不均匀等问题,针对该类问题,提出了一种基于聚类与对改进SMOTE的过采样算法SK-SMOTE。该算法在聚类前,先合成一部分少数样本,以此提高少数类样本数量,同时根据合成的少数类样本的邻居样本的类别和距离赋予权重,通过权重总和是否大于设定的值来决定该样本是否可以被保留。在提高少数类样本数量后,再使用KMeans算法进行聚类,然后保留少数样本较多的簇。在簇内进行过采样,相对稀疏的簇将合成更多的少数类样本。选取UCI和KEEL数据库中的不平衡数据集,将SVM、RF、KNN作为分类算法,并选用几种经典的SMOTE算法与SK-SMOTE进行多组对比实验。实验结果表明,SK-SMOTE算法可有效平衡不平衡数据集,且在不平衡比例较高的数据集上取得了比传统过采样算法更好的结果。  相似文献   

5.
不平衡数据分类方法综述   总被引:9,自引:0,他引:9  
分类问题是机器学习领域的重要研究内容之一,现有的一些分类方法都已经相对成熟,用它们来对平衡数据进行分类一般都能取得较好的分类性能,但在现实世界中数据往往都是不平衡的,而现有的分类器的设计都是基于类分布大致平衡这一假设的,如果用这些方法来对不平衡数据进行分类就会导致分类器的性能下降,因而研究用于处理不平衡数据集的分类方法显得相当重要.为便于读者更清晰地了解数据不平衡分类问题的研究现状和未来研究的动向,本文对相关的研究进行了综述和展望.  相似文献   

6.
在处理非平衡大数据集中,提出一种基于优化SMOTE方案的分类算法研究,在临近样本插值分类中引入分簇聚类的理念,具体分为安全样本、危险样本和干扰样本,并重点对安全样本做插值处理.对插值后的数据样本做区间化处理,能够改善插值后数据过于集中的状况,提高样本分布的均匀度.算法性能验证结果表明,分类算法的规模成长性更好,具有更强...  相似文献   

7.
8.
针对因数据冗余及Hughes现象带来的高光谱数据分类精度降低问题,提出一种基于样本依赖排斥图的非负稀疏嵌入投影降维(NSEPSRG)算法.首先,利用非负稀疏表示方法,得到样本的非负稀疏重构权重矩阵.然后,利用样本的先验类别信息,构建样本依赖排斥图,有助于避免误分类和提高分类精度.最后,为保持每个样本间的稀疏结构关系和各样本的内在流形结构不变,根据非负稀疏重构权重矩阵和样本依赖排斥图的邻接矩阵,将样本嵌入投影到低维子空间,有助于从高维高光谱数据中提取信息量大的光谱波段,从而使得到的分类图像更清晰、平滑.AVIRIS高光谱数据上的实验结果表明,运用支持向量机对经过NSEPSRG降维处理后的高光谱数据进行分类,分类整体精度和Kappa系数分别达到了87.87%和0.856 6.  相似文献   

9.
过采样方法的应用研究   总被引:1,自引:0,他引:1  
提出一种过采样-脉冲计数方法,用于从基带信号或FSK、BPSK等数字调制信号中恢复二进制序列,也可以用于信道的信噪比估计中。该方法是在一个码宽内对信号多次采样,并对每个码宽内的脉冲进行计数,然后把计数结果用于符号的判决或估计信道的信噪比。仿真实验结果表明,该方法在误码率性能上要优于匹配滤波法;同时,该方法在用于信噪比估计时不仅估算精度比现有的两种方法高,而且估算结果与观察长度无关,因而更适合现代通信对实时性的要求。  相似文献   

10.
借鉴近些年来在自然语言处理领域卓有成效的一种词嵌入模型word2vec,提出两种商品嵌入表示模型item2vec和w-item2vec。提出的两种模型通过对用户在每次购买时对商品的比较和选择行为进行建模,将商品表示为一个低维空间的向量,该向量可以有效地对不同商品之间的关系和性质进行度量。应用这一性质,使用item2vec和w-item2vec得到的向量对商品进行分类,试验结果表明:在仅使用10%数据训练的基础上,w-item2vec对商品分类的准确率可以接近50%。两种模型分类准确性均显著优于其他模型。  相似文献   

11.
为了解决传统分类方法对不平衡数据集中少数类的识别率较低的问题,提出一种基于模糊c-均值与核Fisher判别分析相结合的分类方法.该方法首先采用模糊c-均值算法对样本数据进行聚类,将聚类后的样本数据映射到特征空间中,再对映射后的样本数据采用核Fisher判别分析算法对数据进行分类.在UCI上选取8个不平衡数据进行仿真实验,就分类性能上与其他5种算法作了比较和分析.实验结果表明采用模糊c-均值与核Fisher判别相结合的方法可以获得较高的识别率,能有效地处理不平衡数据集的分类.  相似文献   

12.
提出了基于串行分类算法的不平衡时间序列多分类方法,并以“上证50指数”15 min交易数据为例,进行了实验检验与结果分析. 结果表明,在多数情况下,串行分类算法比单一算法有更高的准确率、召回率和F1值,可以更有效解决不平衡时间序列多分类问题.  相似文献   

13.

针对传统特征抽取方法不能很好解决含有丰富语义信息和复杂网络结构的异质网的数据稀疏和噪声问题,利用堆叠降噪自编码器进行特征抽取,有利于松弛策略建立其类别层次结构,完成节点的分类和排序.在计算机科学文献库(digital bibliography & library project,DBLP)数据集上的实验结果表明:相比于其他分类算法,该方法分类性能更优,精确率可达86.3%.

  相似文献   

14.
静力触探试验(Cone Penetration Test, CPT)常被用于确定地下土体分层情况及层内土体的力学参数等。由于工期、工程投入、技术等条件限制,沿水平方向的CPT钻孔数目通常非常有限,有必要利用空间插值或随机模拟来估计未采样位置的CPT试验数据。提出一种有效的蒙特卡洛方法,可直接根据有限的CPT试验钻孔数据估计未采样位置的CPT数据,该方法将二维贝叶斯压缩感知框架与吉布斯采样相结合,并引入克罗内克积以提高其计算效率,然后用一系列数值及实际工程案例验证了所提方法的可靠性。结果表明:该插值方法合理,不仅能如实反映数据本身的非平稳特点,且采用序列更新技术后可显著降低时间成本,具有更强的适应能力。此外,插值结果的准确性、可靠性与已有CPT钻孔的距离成反比、与已有钻孔的数目成正比,反映出方法本身数据驱动的特点。  相似文献   

15.
基于PCA改进SMOTE算法,能实现不平衡数据集的均衡化,并以随机森林作为分类器,应用于地质数据进行分类与预测。因原始数据集中的噪声数据可能会引起插值后的数据分布形态的改变,故提出结合PCA算法与SMOTE算法,先进行除噪降维再进行数据插值,改善不平衡数据集的分类性能,并对东天山化探样本数据进行实验,结果表明,新算法能较好地提高分类精度,为地质不平衡数据的分类与预测提供新的思路。  相似文献   

16.
基于数据驱动的电容式电压互感器(Capacitor Voltage Transformer,CVT)误差状态预测技术面临着数据不平衡,小样本数据不足的困境。针对该问题,整合DBSCAN聚类算法和基于径向的过采样算法(Radial-Based Oversampling,RBO),并在此基础上提出了一种引入权重分布RBO的过采样算法(Weight Distribution and Radial-Based Oversampling,WD-RBO)。该算法首先使用DBSCAN对CVT超差样本聚类,过滤数据集中的噪声;其次,通过簇密度分布函数和质心势能,计算超差样本各个簇的采样权重,确定每个簇中合成新样本的数量;最后,使用改进的RBO过采样算法合成新超差样本。实验结果表明,与SMOTE和RBO等过采样算法相比,WD-RBO使得预测模型的准确率和AUC值分别提高到0.967和0.996,且运行时长满足应用要求。WD-RBO可以有效解决类间不平衡和类内不平衡,提高模型对CVT误差状态的预测性能。  相似文献   

17.
用4种过采样算法,并结合1种样本过滤算法,对12份类别不平衡程度不同的数据进行类别平衡处理,对平衡后的数据与不平衡的数据使用xgboost算法建立分类器,并对各数据集上的分类效果进行综合比较,为提升机器学习分类器在类别不平衡问题上的性能提供参考。  相似文献   

18.
过采样方法与提高ADC分辨率的研究   总被引:3,自引:0,他引:3  
在噪声理论的基础上,论证了过采样方法可以实现使用低分辨率的ADC完成高分辨率的数据采集.并对过采样方法作了理论上的探索.有非常多的因素影响ADC的转换结果,如:热噪声、杂色噪声、电源噪声、参考电压波动、时钟不稳定以及量化误差等.这些噪声的噪声功率是可以变化的,设计中可以通过多种措施来减小噪声,过采样技术会减小量化误差和获得与高分辨率ADC相同的信噪比,以增加被测数据的有效位数,从而提高ADC的分辨率.这要求被测信号中的噪声为白噪声或至少接近白噪声.实验证明,过采样技术能在一定范围内提高ADC的有效位数.  相似文献   

19.
基于交通波模型,提出利用车牌识别数据估计城市道路自由流行程时间. 无需额外架设检测器或现场测算,所提方法具备准确性、科学性、实用性的特点. 基于车辆均匀到达的假设,将行程时间分为自由流行程时间和延误,建立信号影响下的路段行程时间分布函数. 针对现实环境中车流非均匀到达的特点,提出数据重采样方法生成符合均匀流假设的行程时间数据;拟合行程时间分布函数以获得路段自由流行程时间. 在杭州市多个路段的数据验证结果表明,重采样后的行程时间数据较好地拟合了行程时间分布模型,估得的自由流行程时间准确且具备理论支撑.  相似文献   

20.
为预测采样系统实际状态,本文基于采样数据构造系统状态观测器,研究了线性系统基于采样数据观测器反馈镇定问题。先给出线性系统采样观测器的设计,并利用李雅普诺夫泛函方法,结合线性矩阵不等式技术,给出采样数据观测器和控制器设计方案,并通过仿真算例进行验证,仿真结果表明,在同一时刻,系统的状态能够及时达到稳定,证明本文所设计的控制器是有效合理的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号