首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 81 毫秒
1.
不平衡数据分类方法综述   总被引:1,自引:0,他引:1  
随着信息技术的快速发展,各领域的数据正以前所未有的速度产生并被广泛收集和存储,如何实现数据的智能化处理从而利用数据中蕴含的有价值信息已成为理论和应用的研究热点.数据分类作为一种基础的数据处理方法,已广泛应用于数据的智能化处理.传统分类方法通常假设数据类别分布均衡且错分代价相等,然而,现实中的数据通常具有不平衡特性,即某一类的样本数量要小于其他类的样本数量,且少数类具有更高错分代价.当利用传统的分类算法处理不平衡数据时,由于多数类和少数类在数量上的倾斜,以总体分类精度最大为目标会使得分类模型偏向于多数类而忽略少数类,造成少数类的分类精度较低.如何针对不平衡数据分类问题设计分类算法,同时保证不平衡数据中多数类与少数类的分类精度,已成为机器学习领域的研究热点,并相继出现了一系列优秀的不平衡数据分类方法.鉴于此,对现有的不平衡数据分类方法给出较为全面的梳理,从数据预处理层面、特征层面和分类算法层面总结和比较现有的不平衡数据分类方法,并结合当下机器学习的研究热点,探讨不平衡数据分类方法存在的挑战.最后展望不平衡数据分类未来的研究方向.  相似文献   

2.
非平衡数据集分类问题研究进展   总被引:3,自引:0,他引:3  
非平衡数据集广泛存在于现实世界中,其分类问题已经成为目前数据挖掘领域中的一个研究热点.文章综述了非平衡数据集分类问题的评价方法及其常用分类算法,分析了目前存在的主要困难,并指出需进一步解决的几个问题.  相似文献   

3.
近些年,分类算法取得了长足的发展。但是随着数据来源的不断扩大,人们获得的数据绝大部分是不平衡数据。而这些分类算法通常对不平衡数据敏感,因此对不平衡数据的分类变得十分困难。目前对不平衡数据挖掘方法主要分为两大方面,分别是针对不平衡数据的预处理方法和挖掘算法。就这两大方面对近些年出现的方法进行总结,并从数据预处理、算法和性能评估方法等方面进行多维度梳理。从不同的应用领域入手,讲述了存在的各种不平衡问题,以及不同学者在其领域中的研究和解决方法。最后分析了不平衡数据挖掘领域目前存在的问题,并对未来研究方向进行展望。  相似文献   

4.
基于迁移学习的类别级物体识别与检测研究与进展   总被引:1,自引:0,他引:1  
张雪松  庄严  闫飞  王伟 《自动化学报》2019,45(7):1224-1243
类别级物体识别与检测属于计算机视觉领域的一个基础性问题,主要研究在图像或视频流中识别和定位出其中感兴趣的物体.在基于小规模数据集的类别级物体识别与检测应用中,模型过拟合、类不平衡和跨领域时特征分布变化等关键问题与挑战交织在一起.本文介绍了迁移学习理论的研究现状,对迁移学习理论解决基于小规模数据集的物体识别与检测中遇到的主要问题的研究思路和前沿技术进行了着重论述和分析.最后对该领域的研究重点和技术发展趋势进行了探讨.  相似文献   

5.
一种新的不平衡数据学习算法PCBoost   总被引:8,自引:0,他引:8  
现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决策树,作为弱分类器.在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正“扰动”,删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势.  相似文献   

6.
入侵检测大数据集代价敏感重平衡分类策略   总被引:2,自引:0,他引:2  
当前数据挖掘领域中,传统的精度敏感分类并不能完全适用于不平衡入侵检测数据.文中针对大规模不平衡入侵检测数据集,定义数据拓展函数,提出了一种新的大规模数据分层预处理LDSP(Large Scale Dataset Stratified Pretreatment)算法,分层并人工合成稀有类数据“剪除”多数类数据重平衡数据集,不仅有效避免了数据过度拟合且可独立使用.结合入侵检测代价敏感分配机制,最小化误分类代价,最终实现了LDSP算法与MetaCost算法相结合的数据重平衡分类策略.实验结果表明,预处理算法合理有效;较之其他算法,此策略在时间和精度上均具有处理入侵检测大规模不平衡数据集分类问题的优势.  相似文献   

7.
非平衡问题是数据挖掘领域中普遍存在的一个问题,数据的偏态分布会使得分类器的分类效果不理想.卷积神经网络作为一种高效的数据挖掘工具,被广泛应用于分类任务,但其训练过程若受到数据非平衡的不利影响,则将导致少数类的分类准确率下降.针对二分类非平衡数据分类问题,文中提出了一种基于代价敏感卷积神经网络的非平衡问题混合方法.首先将密度峰值聚类算法与SMOTE相结合,通过过采样对数据进行预处理,降低原始数据集的不平衡程度;然后利用代价敏感思想对非平衡数据中的不同类别给予不同权重,并考虑预测值与标签值之间的欧氏距离,对非平衡数据中多数类和少数类赋予不同的代价损失,构建代价敏感卷积神经网络模型,以提高卷积神经网络对少数类的识别率.选取6个不同的数据集,用于验证所提方法的有效性.实验结果表明,所提方法可以提高卷积神经网络模型对非平衡数据的分类性能.  相似文献   

8.
现实中许多领域产生的数据通常具有多个类别并且是不平衡的。在多类不平衡分类中,类重叠、噪声和多个少数类等问题降低了分类器的能力,而有效解决多类不平衡问题已经成为机器学习与数据挖掘领域中重要的研究课题。根据近年来的多类不平衡分类方法的文献,从数据预处理和算法级分类方法两方面进行了分析与总结,并从优缺点和数据集等方面对所有算法进行了详细的分析。在数据预处理方法中,介绍了过采样、欠采样、混合采样和特征选择方法,对使用相同数据集算法的性能进行了比较。从基分类器优化、集成学习和多类分解技术三个方面对算法级分类方法展开介绍和分析。最后对多类不平衡数据分类研究领域的未来发展方向进行总结归纳。  相似文献   

9.
自动文摘是自然语言处理领域的一个重要研究话题,基于机器学习的自动文摘方法则是该项研究中的一个热点。然而,自动文摘问题中的数据分布有一个重要现象,即文摘句子与非文摘句子的数量相差非常悬殊,该现象将给传统机器学习算法的应用效果带来负面影响。为此,本文针对自动文摘中句子类别分布严重不平衡这一现象,以支持向量机算法为基础,设计了两种有效的处理非平衡自动文摘数据的分类方法。在第一种方法中,将传统支持向量机中正负类平衡的分类间隔转换为不平衡的分类间隔;在第二种方法中,通过将数据集进行切分,设计了一种支持向量机集成学习算法。通过在DUC2001数据集上的实验证明,本文设计的两种基于非平衡数据分类的单文档自动文摘方法显著优于基于传统分类算法的自动文摘方法。  相似文献   

10.
《软件》2016,(11):60-63
网络攻击检测是网络领域的一个重要的应用,目前在这领域内的检测方法有很多,但是已有的检测机制存在着错误率高以及无法处理数据不平衡等问题。通过分析网络攻击数据,设计了基于随机森林的网络入侵检测算法,并把这个算法用于网络连接信息数据的检测和异常发现。通过对CUP99数据的测试集进行试验,基于随机森林的算法能够提高识别效率,有效的解决数据不平衡带来的问题,具有很好的分类效果。  相似文献   

11.
汪凤兰 《数字社区&智能家居》2013,(12):7713-7714,7726
随着网络化和社会信息化程度越来越高,人们更快捷地共享信息和利用信息,但是伴随而来的网络个人信息安全问题越来越严重,越来越引起人们的重视。该文从个人信息的内容谈起,分析了个人信息泄露的主要危害、成因及途径,探讨了具体的防范措施。  相似文献   

12.
This study focused on the extent to which prior computer-related experiences predicted linear and nonlinear navigation when using a hypermedia learning environment. Those with more years’ experience at working with computers and those with more authoring experience took more linear steps, whereas those with more data base experience and those with more hypermedia experience took fewer linear steps. Those with more years experience at working with computers, those with more programming experience, and those with more authoring experience had a lower percentage of nonlinear steps than those with more experience in those three areas. Those with more word-processing experience, more spreadsheet experience, and more hypermedia experience had a higher percentage of nonlinear steps than those with less experience in those three areas. Also, those with more hypermedia experience took less time than those with less hypermedia experience. A major implication of the study is that we can predict the extent to which a hypermedia user may engage in a hypermedia environment in a nonlinear way by knowing his or her experience in a variety of computer-related uses.  相似文献   

13.
随着嵌入式应用的性能需求越来越高,DDR的应用越来越广泛。新一代DDR的速率越来越高,电路设计过程中需要考虑的因素也越来越多,信号完整性设计变得越来越重要。且DDR的Debug过程非常繁琐,信号测试变得越来越困难,越来越不准确,而且很难验证。从DDR4实际布局布线出发,介绍了DDR4布局布线方面的部分关键点及注意事项。  相似文献   

14.
为了保证加密后信息更安全不易被破解,所以对于密码技术而言:加密算法要"越复杂越繁琐越难解"、密钥管理要"越安全越保密"、密钥长度要"越长",这样的加密技术才越安全。在现有的加解密过程中,为了这几个"越"字,加解密运算的速度和密钥管理花费的代价也越来越大。提高了破解难度,但增加了花费代价,而所花费的代价,并不能保证有绝对不被破解的可能,所以密码技术的应用陷入了一个尴尬的境地。  相似文献   

15.
智能手机功能日益强大,应用越来越广,同时,手机的安全问题也显得日益突出。文章以Android系统为基础,对手机用户的安全和隐私信息的保护进行了分析和论述,并设计程序实现了隐式通信录、SIM卡扫描、短信触发销毁等功能。  相似文献   

16.
随着网络技术的迅速发展以及网络带宽的不断增大,网络安全问题也日益突出,入侵检测系统作为一种不同于防火墙的主动保护网络资源的网络安全系统,在实际生活中得到了广泛的应用。但随着计算机网络共享资源的进一步增强,入侵活动变得复杂而又难以捉摸,单一的、缺乏协作的入侵检测系统已经满足不了应用的需要,公共入侵检测模型则对入侵检测系统的组成架构、数据交换的格式、协作方法等进行了标准化。下文在论述公共入侵检测框架模型的基础上,详细阐述了如何使用轻型目录访问协议协议进行组件通信。  相似文献   

17.
寄存器传输级低功耗设计方法   总被引:3,自引:0,他引:3  
随着移动设备需求量的不断增大和芯片工作速度的不断提高,芯片的功耗已经成为电路设计者必须考虑的问题,对于芯片整体性能的评估已经由原来的面积和速度的权衡变成面积、时序、可测性和功耗的综合考虑,并且功耗所占的权重会越来越大。本文主要讲述在RTL设计中如何实现低功耗设计。  相似文献   

18.
在嵌入式系统越来越复杂的情况下,一个设计糟糕的系统,其运行行为很难、甚至不可能预测,设计所带来的风险也越来越大。该文为嵌入式系统软件提供了一种实用、简捷的开发和设计模式,仿真系统。仿真系统将嵌入式系统的图形界面、业务控制流程和输入/输出设备操作进行有效的解耦合。提高了开发效率,使得系统的易于实现、测试与维护。  相似文献   

19.
近年来,计算机科学的发展速度越来越快,人们在日常生活中越发离不开计算机。而随着计算机技术的发展,计算机软件开发不断提速,随之产生了大量的问题。其中,鉴于计算机软件安全的重要性,安全检测工作不容忽视。现有的计算机软件安全检测方法存在不少的问题。如果能够对计算机软件进行合理的检测,势必会降低故障率,这对计算机软件安全来说有非常重要的意义。  相似文献   

20.
搜索引擎优化策略研究   总被引:1,自引:0,他引:1  
随着Internet的发展及网络资源越来越丰富,搜索引擎所起的作用也越来越大。因此搜索引擎优化作为一种可以提升网站在搜索引擎中的排名的网站优化技术,得到了广泛的关注。如何获得高的搜索引擎排名对网站特别是商务网站显得越来越重要。文章对搜索引擎优化策略进行了系统的总结,讨论了一些具体的优化方法,并对搜索引擎优化的发展前景进行了展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号