共查询到20条相似文献,搜索用时 78 毫秒
1.
针对油田局域网络环境中,传统基于流量的分析方法无法实现应用系统的有效识别问题,本文设计一种面向不平衡数据集的应用系统识别框架WEBCLA,该框架采用基于基尼增益的SMOTE改进算法(GSMOTE)与XGBoost分类算法相结合的方式对基于网页的应用系统进行有效识别。具体地,本文提出的GSMOTE算法对少数类进行过采样,有效缓解识别样本不平衡问题,并结合XGBoost分类算法进行应用系统的识别。通过在真实数据集上进行实验,结果表明,本文提出的方法在召回率上较传统方法有较明显的提升,比普通集成方法提高约112.8%,比未经过采样处理的方法提升约10.8%,可有效解决油田局域网中的应用系统识别问题。 相似文献
2.
针对微博转发预测方法研究中的数据集不平衡问题,提出了一种融合过采样技术和随机森林(RF)算法的微博转发行为预测方法。首先,定义了个体信息、社交关系和微博主题3类与微博转发行为相关的特征,并基于信息增益算法实现了关键特征选取;其次,综合微博特征数据的特点来改进少数类样本合成过采样技术(SMOTE),对原始数据集进行非参数概率分布估计,并根据近似概率分布对数据集进行过采样处理,从而使正反例数据量达到平衡;最后,利用随机森林算法,依据微博转发关键特征进行分类器训练,并利用袋外(OOB)数据误差估计来分析和设置随机森林算法的相关参数。通过与基于决策树(DT)、支持向量机(SVM)、朴素贝叶斯(NB)和随机森林等算法的微博转发预测方法进行对比,所提方法整体性能优于基准方法中性能最优的SVM方法,召回率提高了8%,F值提高了5%。实验结果表明,所提方法在实际应用中能够有效提高微博转发行为预测的准确率。 相似文献
3.
大多数不平衡数据集过采样方法依赖于欧几里得特征空间中少数类样本的空间位置,使用少数类样本的局部信息生成新样本来减轻类不平衡问题,因此新生成的少数类样本质量较差。针对这种情况,提出一种K稀疏解过采样算法(K Sparse Over-Sampling,KSOS),其使用少数类样本的全局信息进行样本合成。使用少数类样本来构造稀疏字典,通过求解L1范数最小化来获得当前点的稀疏解;使用稀疏解中的非零项所对应的项来生成新的样本;计算每一个新生成样本的置信度,将所有新生成样本按其置信度排序,从中选取符合要求的新生成样本。在几个UCI数据集上的实验结果证明了该算法的有效性。 相似文献
4.
不平衡数据集是指在数据集中,某一类样本的数量远大于其他类样本的数量,其会影响分类结果,使基本分类器偏向多数类.合成少数样本过采样技术(SMOTE)是处理数据不平衡问题的一种经典过采样方法,以两个少数样本对应的线段为端点生成一个合成样本.提出一种基于SMOTE的少数群体过采样方法,改进生成新样本的方式,在合成样本的过程中... 相似文献
5.
面向不平衡数据集的机器学习分类策略 总被引:1,自引:0,他引:1
由于不平衡数据集的内在固有特性,使得分类结果常受数量较多的类别影响,造成分类性能下降。近年来,为了能够从类别不平衡的数据集中学习数据的内在规律并且挖掘其潜在的价值,提出了一系列基于提升不平衡数据集机器学习分类算法准确率的研究策略。这些策略主要是立足于数据层面、分类模型改进层面来解决不平衡数据集分类难的困扰。从以上两个方面论述面向不平衡数据集分类问题的机器学习分类策略,分析和讨论了针对不平衡数据集机器学习分类器的评价指标,总结了不平衡数据集分类尚存在的问题,展望了未来能够深入研究的方向。特别的,这些讨论的研究主要关注类别极端不平衡场景下的二分类问题所面临的困难。 相似文献
6.
7.
社会发展的同时带来大量数据的产生,不平衡成为众多数据集的显著特点,如何使不平衡数据集得到更好的分类效果成为了机器学习的研究热点。基于此,对目前存在的不平衡数据集分类方法进行综述研究,从不平衡数据采样方法、基于机器学习的改进算法以及组合方法三个层面对目前存在的方法进行全面的梳理与总结,对各方面方法所解决的问题、算法思想、应用场景以及各自的优缺点进行归纳和分析,同时对不平衡数据集分类方法存在的问题和未来研究方向提出一些总结和展望。 相似文献
8.
传统方法在处理不平衡的海量高维数据时存在特征提取困难、检测率低的问题.对此,提出一种先使用基于遗传染色体理论的数据合成过采样技术(NEDIL)平衡原始数据集,再利用基于注意力机制的双向GRU网络流量识别模型识别SSL VPN流量的方法.不仅解决了样本不平衡造成的模型拟合问题,同时能够增强关键特征的区分度,解决一般识别模型无法区分时间序列数据重要程度的差异性的问题.对比实验结果表明,该方法在公开的流量数据集上取得了比当前典型方法更好的识别精度,实现了整体高于92%的应用识别准确度. 相似文献
9.
10.
11.
12.
针对现有煤矿安全监控系统测试方法无法自动添加基础数据的问题,提出一种基于自动化测试工具QTP的煤矿安全监控系统测试方法,介绍了采用QTP自动添加测点数据以及进行自动化功能测试的具体操作步骤。 相似文献
13.
14.
针对现有异常信号传输延迟消除方法生命周期较短且延迟消除效率较低的问题,提出了一种煤矿机电监控系统异常信号传输延迟消除方法。该方法采用FIR数字滤波器对异常信号进行滤波,进而检测异常信号传输延迟;利用动态树构建异常信号聚集树模型,对未经过延迟消除的信号进行标记,计算所有经过标记的信号的时槽,挑选出时槽最小的信号,对信号进行延迟消除。仿真结果表明,该方法生命周期长,且消除异常信号传输延迟的效率较高。 相似文献
15.
16.
17.
18.
煤矿瓦斯与煤尘爆炸会产生爆炸声,煤与瓦斯突出会产生煤炮声、支架发出的嘎嘎声和破裂折断声等,冲击地压会产生巨大的岩石破碎声响和震动等,煤矿透水会发出“嘶嘶”的水叫声、大量透水会产生水流声等,煤矿顶板冒落会发出顶板断裂声、煤岩落地撞击声、支护损毁声等。针对煤矿重特大事故声音特点,提出了煤矿井下瓦斯与煤尘爆炸、煤与瓦斯突出、冲击地压、水灾、顶板冒落等事故报警方法:各事故声音的时域和频域特征与其他声音不同,可通过矿用防爆拾音设备和系统实时监测声音,通过声音智能分析和声音频率、幅度、短时能量等特征参数分析感知事故并报警;通过监测和分析不同监测地点声音强度特征、声音发生的先后关系和防爆拾音设备损坏的先后关系等判定事故发生地点;根据各事故特点提出了多信息融合分析的灾害识别方法,减小工作面落煤、爆破作业、采煤设备、掘进设备、运输提升设备、供电设备、乳化液泵、水泵和局部通风机工作等产生的声音干扰。论述了不同拾音设备的优缺点,矿用拾音设备宜采用麦克风阵列;研究了适用于煤矿重特大事故的声音识别分类器。 相似文献
19.
针对煤炭工业以太网络与井下ZigBee无线传感器网络异构互联的需要,提出了一种煤矿安全监测系统无线传感器网络网关设计方案;介绍了网关的软硬件实现要点,并在不额外移植新操作系统内核的情况下,对ZigBee协议栈Z-Stack的操作系统抽象层进行了相应扩展,以满足嵌入式网关系统任务实时性要求。测试结果表明,该网关实现了ZigBee无线传感网络和以太网的通信协议转换功能,保证了数据转发的实时性和可靠性。 相似文献
20.
针对不平衡数据中的分类问题,提出一种基于旋转森林的改进模型——旋转平衡森林(rotation balanced forest,ROBF).以集成思想为核心,从数据层和算法层相结合的角度出发,针对Safe-Level-Smote方法中存在的模糊类边界问题采取两点改进:安全等级再划分机制;引入约束度不同的控制因子,经改进后... 相似文献