首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 791 毫秒
1.
SVM在处理不平衡数据分类问题(class imbalance problem)时,其分类结果常倾向于多数类。为此,综合考虑类间不平衡和类内不平衡,提出一种基于聚类权重的分阶段支持向量机(WSVM)。预处理时,采用K均值算法得到多数类中各样本的权重。分类时,第一阶段根据权重选出多数类内各簇边界区域的与少数类数目相等的样本;第二阶段对选取的样本和少数类样本进行初始分类;第三阶段用多数类中未选取的样本对初始分类器进行优化调整,当满足停止条件时,得到最终分类器。通过对UCI数据集的大量实验表明,WSVM在少数类样本的识别率和分类器的整体性能上都优于传统分类算法。  相似文献   

2.
一种面向不平衡数据的结构化SVM集成分类器   总被引:1,自引:0,他引:1  
为改进面向不平衡数据的SVM分类器性能,以结构化SVM为基础,提出一种基于代价敏感的结构化支持向量机集成分类器模型.该模型首先通过训练样本的聚类,得到隐含在数据中的结构信息,并对样本进行初始加权.运用AdaBoost策略对各样本的权重进行动态调整,适当增大少数类样本的权重,使小类中误分的样本代价增大,以此来改进不平衡数据的分类性能.实验结果表明,该算法可有效提高不平衡数据的分类性能.  相似文献   

3.
不均衡数据集文本分类中少数类样本生成方法研究*   总被引:1,自引:0,他引:1  
针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,并进行有效性验证;最后使用原始数据集和新数据集分别训练K最近邻(K nearest neighbor,KNN)及支持向量机(support vector machine,SVM)分类器。实验结果表明此方法有效改善了少数类分类效果。  相似文献   

4.
支持向量机(support vector machine,SVM)算法因其在小样本训练集上的优势和较好的鲁棒性,被广泛应用于处理分类问题。但是对于增量数据和大规模数据,传统的SVM分类算法不能满足需求,增量学习是解决这些问题的有效方法之一。基于数据分布的结构化描述,提出了一种自适应SVM增量学习算法。该算法根据原样本和新增样本与当前分类超平面之间的几何距离,建立了自适应的增量样本选择模型,该模型能够有效地筛选出参与增量训练的边界样本。为了平衡增量学习的速度和性能,模型分别为新增样本和原模型样本设置了基于空间分布相似性的调整系数。实验结果表明,该算法在加快分类速度的同时提高了模型性能。  相似文献   

5.
莫建文  陈瑶嘉 《控制与决策》2021,36(10):2475-2482
针对神经网络模型进行类增量训练时产生的灾难性遗忘问题,提出一种基于分类特征约束变分伪样本生成器的类增量学习方法.首先,通过构造伪样本生成器记忆旧类样本来训练新的分类器及新的伪样本生成器.伪样本生成器以变分自编码器为基础,用分类特征进行约束,使生成的样本更好地保留旧类在分类器上的性能.然后,用旧分类器的输出作为伪样本的精馏标签,进一步保留从旧类获得的知识.最后,为了平衡旧类样本的生成数量,采用基于分类器分数的伪样本选择,在保持每个旧类伪样本数量平衡的前提下选择一些更具代表性的旧类伪样本.在MNIST、FASHION、E-MNIST和SVHN数据集上的实验结果表明,所提出的方法能有效减少灾难性遗忘的影响,提高图像的分类精度.  相似文献   

6.
为改进SVM对不均衡数据的分类性能,提出一种基于拆分集成的不均衡数据分类算法,该算法对多数类样本依据类别之间的比例通过聚类划分为多个子集,各子集分别与少数类合并成多个训练子集,通过对各训练子集进行学习获得多个分类器,利用WE集成分类器方法对多个分类器进行集成,获得最终分类器,以此改进在不均衡数据下的分类性能.在UCI数据集上的实验结果表明,该算法的有效性,特别是对少数类样本的分类性能.  相似文献   

7.
针对传统单个分类器在不平衡数据上分类效果有限的问题,基于对抗生成网络(GAN)和集成学习方法,提出一种新的针对二类不平衡数据集的分类方法——对抗生成网络-自适应增强-决策树(GAN-AdaBoost-DT)算法。首先,利用GAN训练得到生成模型,生成模型生成少数类样本,降低数据的不平衡性;其次,将生成的少数类样本代入自适应增强(AdaBoost)模型框架,更改权重,改进AdaBoost模型,提升以决策树(DT)为基分类器的AdaBoost模型的分类性能。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在信用卡诈骗数据集上的实验分析表明,该算法与合成少数类样本集成学习相比,准确率提高了4.5%,受测者工作特征曲线下面积提高了6.5%;对比改进的合成少数类样本集成学习,准确率提高了4.9%,AUC值提高了5.9%;对比随机欠采样集成学习,准确率提高了4.5%,受测者工作特征曲线下面积提高了5.4%。在UCI和KEEL的其他数据集上的实验结果表明,该算法在不平衡二分类问题上能提高总体的准确率,优化分类器性能。  相似文献   

8.
针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE 和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类样本的数量,然后通过优先去除样本中的冗余和噪声样本,使用逆转欠抽样方法逆转少数类样本和多数类样本的比例。通过多次进行上述抽样形成多个训练集合,使用Bagging方法集成在多个训练集合上获得的分类器来提高有效信息的利用率。实验表明,该算法较几种现有算法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类准确度。  相似文献   

9.
现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法--NIBoost(New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。  相似文献   

10.
提出了一种基于Canopy与人工合成少数类别过采样技术(CSMOTE)和自适应增强学习(AdaBoostM1)的入侵检测分类方法,以有效减少入侵检测模型因训练数据集攻击类型不均衡而导致的分类误差,提高分类准确率。通过Canopy聚类消除训练集中的孤立点或噪音点,减少训练集噪声;并在预处理时通过SMOTE增加少数类别的样本数量,构造类间平衡的平衡数据集,然后在平衡数据集上用AdaBoosM1训练得到分类器。与在原始训练集上训练的分类器相比,该方法在保持整体准确率高的情况下,少数类别U2R攻击的准确率提升20%,R2L攻击的准确率提升5%,同时平均漏报率降低9%,实验结果表明该方法可以有效提升少数类别准确率,降低平均漏报率,能有效地解决网络入侵检测少数类误分类问题。  相似文献   

11.
属性的识别对物体的识别起到了比较重要的作用,例如人脸验证和场景识别。提高属性的识别率对后面基于属性特征的应用的正确率有很大的影响。近些年来,有些工作也开始关注于属性的学习,而很多的工作都是基于属性之间独立的假设,但在实际中很多的属性都是强相关的,例如没有胡子和女性,光头和头发的颜色;很多的工作忽略了类别之间的不平衡性,例如光头的样本比例可能只占样本的很小一部分。基于这2个观察,本文提出一种基于多任务的类别不平衡的人脸属性识别网络架构,该网络结构是由Densenet修改而来。该方法比以往的方法效果要好,一定程度上缓解了不平衡问题,且参数少,计算效率更高,在公开人脸属性数据集CelebA和LFWA上的实验验证了该方法的有效性。  相似文献   

12.
云存储可以为用户提供高质量、按需分配的数据存储服务,使用户用低廉的价格就能享受到海量的存储能力,但是对于用户而言,云存储服务器并不是完全可信,因此会担心存储在云端的数据出现安全性问题,同时为了满足云中的应用,需要完整性验证机制支持全动态操作以及第三方公开认证。因此,提出一种基于全结点存储的云数据完整性方案。引入平衡二叉搜索树结构--结点大小平衡树(SizeBalancedTree,SBT),该结构使得树中所有的结点都可以用来存储实际的数据,相比叶子结点存储的树,无疑减少了服务器上的空间开销,同时降低了树的高度,从而也降低了进行数据插入删除等基本操作的时间复杂度。该方案在支持动态操作上具有更好的效率,能够很好地支持云存储环境下数据完整性验证。  相似文献   

13.
Complexity, complication, contradiction, consumption, confusion, delusion, depression. Opportunity, inspiration, ingenuity, compassion, wisdom. Our world is perplexing, our times are fast moving, and our choices are many. To find an appropriate path is a daunting yet vital challenge that confronts us as individuals, as communities, and as a civilization. How sustainable is our world? How reasonable are our behaviors? The present article is a collection of thoughts on a series of intertwined issues related to the contemporary world, its environmental dimensions, and their present-day problems. The goal is to survey the landscape through a lens of Environmental Design, to provide some perspectives, to raise some questions, and to explore systems, beliefs, and values informing and influencing actions. It is important to consider how people's belief systems influence, inform, and shape actions. This holds true in realms political, spiritual, and cultural. It also proves relevant in the ways in which we imagine, design, develop, and construct our buildings, cities, spaces, and places.

Appropriate solutions to some of our most daunting problems will arise through the concerted efforts, open dialogue, and collective wisdom of the wide array of stakeholders, professionals, politicians, decision makers, and citizens (both engaged and disenfranchised) who have the will and wherewithal to make a difference and to make the world safer, healthier, and better. It seems vital for us to critically examine, and question, our belief systems and their connections to the ways we define, refine, and realize progress. Architecture and Environmental Design, in both a philosophical and a practical sense, reflect as well as form greater aspirations, directions, and events of our times.  相似文献   

14.
传统异构数据库存储复制技术只注重数据安全性,忽略了异构数据库存储复制的时效性与可靠性。为此,本文提出一种新的区域网络异构数据库存储复制技术。首先构建区域网络中异构数据库存储框架,通过定向随机游走方法对电力企业灾备中心异构数据进行存储,依据多叉索引树对异构数据库中的数据进行查询处理。然后采用一致性树分布备份技术对本地灾备中心数据进行备份,把待恢复数据分割成若干部分,通过若干差异远程备份服务器实现数据恢复。将所提技术应用于电力企业灾备中心,结果表明,所提技术有很高的存储、复制及备份恢复性能。  相似文献   

15.
针对分数阶加热系统,提出一种基于改进粒子群优化算法的分数阶PIλDμ控制方法。首先,将细菌趋化行为机制引入带收缩因子的粒子群优化算法中,解决粒子群优化算法中由于只存在吸引操作没有排斥操作导致种群多样性失去的问题,从而避免PSO早熟收敛及陷入局部最优;然后使用改进PSO算法优化分数阶PIλDμ控制器的参数;最后,以加热系统为被控对象,分别采用改进粒子群优化算法、标准粒子群优化算法、遗传算法优化分数阶PIλDμ控制器的参数。仿真结果表明,使用该改进算法整定分数阶PIλDμ控制器参数,控制器能有效地抑制模型参数的摄动,系统鲁棒性更强。  相似文献   

16.
近几年,电力行业信息化建设取得了巨大成就。企业办公文件、项目方案、项目合同等涉及行业秘密的文件越来越多地在互联网中传输,导致企业级敏感文件泄露。传统敏感文件识别方法基于敏感词库进行特征检测,检测速度快,但是存在较高的漏报率和误报率。本文提出一种基于深度学习的敏感文件检测方法,引入词向量及卷积神经网络算法,实现敏感文件精准分类。本文提出的识别企业级敏感文件的检测方法优点是不再依赖于特征关键字,降低了漏报率和误报率。  相似文献   

17.
18.
针对航路网络关键节点识别问题,从航路网络结构中心性角度出发,构建完整航路网路结构和复杂拓扑模型,分别从度中心性、中介中心性和结构中心性这3个角度分析航路网络,并依托PAJEK可视化平台,对航路网络中介中心性和结构中心性进行仿真可视。在此基础上,借助AutoCAD,从中介性和紧密性角度对航路关键节点进行识别的可视化,从中得到对航路网络效能发挥具有重要支撑作用的航路点,仿真结果表明,提取的关键节点在实际航路网络运行中具有衔接枢纽、分配流量等重要作用,在路网重要节点识别研究中具有创新优势。  相似文献   

19.
属性加密(Attribute-BasedEncryption,ABE)将密钥和密文与一系列属性相关联,被广泛应用于云计算的访问控制中。针对现有撤销方案效率低下的问题,提出一种更高效、细粒度的访问控制方案。方案中采用的访问结构可以表达任意涉及布尔运算符的访问策略;在加密过程中,构建一种属性用户组随机密钥分发方法,并结合ABE实现双重加密,将所有撤销操作转化成属性级别细粒度的撤销;新方案的数据始终以密文形式存在于服务器上,降低了对服务器的安全限制,可以将大部分密文重加密任务转移给云服务器执行,有效利用云服务器的计算能力,提升系统的运行效率,减少通信开销。  相似文献   

20.
快速傅里叶变换在天文学中有着广泛的应用。例如,脉冲星信号通常需要基于快速傅里叶变换进行相干消色散处理。由于信号数据通常存储在数据库中,而将数据从数据库取出后再由外部程序进行快速傅里叶变换处理将产生大量I/O和网络开销进而严重影响整体处理性能。针对此问题,本文设计一种用户自定义函数(UDF)形式的可在分布式数据库中并行执行和优化快速傅里叶变换的算法DoFFT(DatabaseoptimizedFFT)。此外,针对数据库集群中每台机器负载不同、数据分布不均匀等有时会导致执行效率低下的问题,DoFFT方法基于CPU、I/O,网络与传输速率等的代价,对涉及的数据进行数据重分布处理,以进一步优化快速傅里叶变换的并行执行。实验结果表明,采用基于数据重分布的优化后,DoFFT算法的性能得到了有效提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号