首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
&#  &#  &#  &#  &# 《西华大学学报(自然科学版)》2015,34(5):16-23, 74
针对不均衡数据下分类超平面偏移、少数类识别率较低的问题,提出一种基于样本密度的不均衡数据分类算法。该算法首先计算样本密度和类样本密度,依据类样本密度之间的关系确定聚类类数, 然后利用K-means聚类算法对多数类样本进行聚类,用聚类所得类中心作为样本集取代原多数类样本集, 最后对新构造的训练集进行训练得到最终决策函数。其实验结果表明,该算法能够提高SVM在不均衡数据下的分类性能,尤其是少数类的分类性能。    相似文献   

2.
为保证交通检测数据的准确性并服务于实时的交通状态判别和预测,交通大数据采用多种检测源数据协同处理并利用机器学习的方法进行异常识别.异常检测数据的识别主要基于机器学习中AdaBoost方法实现.在算法的训练过程中,为消除单一检测源数据的离群现象,训练数据选取同一路段上多种检测源提供的数据集.在算法的决策过程中,通过代价敏感方法的优势来改进AdaBoost的决策.实验结果表明:基于非均衡特性改进的AdaBoost模型迫使分类器更加关注了待识别的异常样本,增强了AdaBoost决策过程中训练决策树规则的代表性,提高了异常类样本的分类准确率.高速公路实例检测数据集验证了改进算法与相关经典算法的检测准确度、误检率、误警率等指标,其中改进模型与原模型相比,准确率提高了5.547%,误检率减低了6.792%.多种算法的ROC曲线对比表明改进的AdaBoost方法筛选交通检测样本的可靠度更高,可有效调整由非平衡数据导致的分类误差.  相似文献   

3.
免疫算法是在保留遗传算法优良特性的基础上有目的、有选择的利用待求问题中的特征信息来抑制进化过程中出现的种群退化现象,算法核心是免疫算子(接种疫苗和免疫选择)的构造。基于免疫遗传算法的聚类不仅能够有效克服传统聚类方法对初始化敏感、依赖聚类原型、进化后期容易早熟等缺点,而且聚类结果能够快速收敛到全局最优。本文将这种聚类方法用于网络异常检测中,构造基于免疫遗传聚类的异常检测系统,该系统可实现对海量异构多维原始数据的异常检测,并且能够检测到网络未知攻击。本文在KDD CUP99数据集中进行了对比仿真实验,实验结果表明该算法能够得到较高的已知攻击和未知攻击检测率以及较低的误警率,检测系统性能优良。  相似文献   

4.
信息技术飞速发展导致了网络上的信息日益增加,随之而来的网络攻击日渐频繁,其频率和破坏力都在不断上升,攻击的隐匿性也越来越高。隐藏在大量信息下的网络攻击和异常行为,亟需有效的检测方法。训练机器学习检测算法时,对异常样本的数量要求较高。当异常样本在训练数据集中比例较小时,获得的模型检测效果较差。本文提出一种基于生成式对抗网络(Generative Adversarial Network,GAN)的异常数据模拟算法,用于提高训练样本中异常数据集的比例,解决了训练样本数据不均衡的问题,并利用K-means算法验证了生成样本数据的质量。  相似文献   

5.
为了提高卷积神经网络训练的分类器分类准确率,往往需要大量的已标记数据,但有时已标记数据并不容易获得。针对少标记样本图像分类问题,提出基于集成GMM聚类与标签传递思想的解决方案,通过一定的规则给未标记数据赋予标签,将未标记数据转换成已标记数据用于模型的训练。在手写数字识别数据集上进行实验,结果表明新算法在少标记样本的情况下,结合集成GMM聚类的方法比只采用有标记样本训练得到的模型分类准确率有着较大提高,验证了该算法的有效性。  相似文献   

6.
针对多维数据集异常数据检测过程中未对多维数据集进行降维处理,导致多维数据集中异常数据检测精度较低、误检率较高、检测时间较长的问题,提出一种基于谱聚类的多维数据集异常数据检测方法。首先,通过拉普拉斯矩阵对多维数据集中的数据进行聚类,初步分类数据;其次,采用局部线性嵌入(LLE)算法对分类后的数据进行降维处理,用特征向量表达高维数据集,去除多维数据集中的冗余信息;最后,将处理后的多维数据集输入到支持向量机模型中,根据回归估计值的计算,完成异常数据的检测。实验结果表明,本文算法进行多维数据集中异常数据检测的精度更高、误检率更低,检测时间较短。  相似文献   

7.
针对正常与异常样本分布不平衡的异常点检测问题,本文以小球大距离(small sphere large margin,SSLM)超球支持向量机为基础,提出一种高正确率识别的包裹学习算法。基本思想为建立正常样本的同类特征集合的紧密包裹集,在特征空间内构造一个半径最小的超球,使超球内尽可能地包含大多数的正常样本,并使超球边界与包裹集及异常样本间隔最大化,所构造的超球边界会近似与正常样本边界拟合,同时将该方法与支持向量机方法和超球支持向量方法进行实验对比,并在uci数据集中的医学诊断数据及USPS数字集上进行对比实验。实验结果表明,与同类经典算法相比,包裹学习算法在不同的异常检测数据上分别达到了最高准确率。该研究可应用于样本分布不均的异常行为检测中。  相似文献   

8.
目前,许多误用检测系统无法检测未知攻击,而异常检测系统虽然能够精确检测未知攻击,但由于入侵检测固有的特性,入侵事件与正常事件类间存在极大的不平衡性,这导致很难利用机器学习的方法高效地进行入侵行为检测.为此,提出了一种基于信息增益和随机森林分类器的入侵检测系统.为了解决类之间的不平衡性,对训练数据集应用了合成少数过采样算法.提出了一种基于信息增益的特征选择方法,并用于构建一个数据集的特征约减子集.首先,利用随机森林算法从训练集中建立入侵模型,构建误用检测模型,通过网络连接的特征来匹配检测已知攻击.然后,利用信息增益的特征选择方法,根据特征约减获得的特征,将不确定性攻击的网络连接数据通过随机森林进行聚类,进而实现未知攻击的检测.实验采用的NSL-KDD入侵检测数据集是KDDCUP99数据集的增强版本.由于入侵检测固有的特性,NSL-KDD数据集设计时类间存在极大的不平衡性.实验结果表明,结合合成少数过采样算法以及基于特征选择的信息增益的随机森林分类器对少数类别异常检测率可达到0.962.  相似文献   

9.
针对轨道车辆齿轮箱监测测点多、数据量大、数据融合程度低等特点,提出一种基于相关函数融合算法与模糊C均值聚类结合的齿轮箱异常检测方法。相关函数融合算法用于将齿轮箱多个测点采集的振动信号融合为一个能全面反映齿轮箱运行状态的信号;对融合信号进行聚合经验模态分解,并计算奇异熵、能量熵;采用模糊C均值聚类算法对特征集进行簇划分,判断齿轮箱含有几类异常情况。通过实际线路运行数据的采集与分析,验证了本文方法的有效性。  相似文献   

10.
支持向量聚类(SVC)是一种重要的基于密度的聚类算法,在现实世界中有很多重要的应用。在没有任何先验知识的情况下,该算法提供了处理任意簇的能力,即任意轮廓和检测类数量的数据集。然而,如果异常值存在于数据中,该算法无法将这些点进行分类,这样会导致有关数据集重要信息的丢失。为了弥补这些缺陷,将粗糙集理论和模糊集理论与支持向量聚类算法相结合得到一种新的改进算法称为粗糙-模糊支持向量聚类算法(Rough-Fuzzy Support Vector Clustering)。即通过使用支持向量作为聚类原型获得粗糙-模糊聚类。该聚类的结构特征有两个主要内容:下近似集和模糊边界。当支持向量集作为一个特殊的聚类,通过元素间的亲密程度,模糊边界的隶属度可以被计算出来。而下近似集包含的样本点建立在SVC算法训练阶段获得的超球体内。在检测异常值和计算任意轮廓的聚类方面,本文所介绍的聚类算法与软聚类算法相比拥有相当程度的优势。  相似文献   

11.
针对网络入侵检测数据存在大量冗余信息和传统聚类算法对离群点检测不足的问题,提出一种基于主成分分析(principal component analysis, PCA)和半监督聚类的入侵检测算法。首先使用PCA对数据进行特征提取,消除数据间的冗余属性;然后利用少量已标记样本和成对约束信息,通过引入竞争凝聚让系统主动学习,以实现对大量未知样本的检测。在入侵检测数据集和UCI基准数据集上的实验结果表明,该算法能有效提高系统的性能。  相似文献   

12.
电力信息系统可用于管控电力设备,检测电力信息系统的异常对维持电力设备的稳定运行具有重要意义,但传统的异常检测方法难以检测电力信息系统中存在的多个指标综合异常的情况,为解决该问题,提出一种基于改进k-means算法的异常检测方法.将数据空间划分为网格,以网格均值点映射该网格内所有样本点来压缩数据,减少了计算量;通过引入基于聚类边界密度和簇密度移动聚类边界的机制,提高k-means算法的准确率,以准确识别正常模式;通过计算数据与正常模式的偏离程度,检测异常.实验结果表明,该方法能准确挖掘多指标综合异常,与其他异常检测方法比较,检测运行时间由16. 44 s减少到0. 55 s,异常检测的准确率提高了5. 2%,在电力运维异常检测领域具有良好的工程应用前景.  相似文献   

13.
为解决核模糊相似性度量谱聚类算法的样本点降噪问题,优化聚类效果和稳定性,本文从分析异常点分布特性出发,引入局部异常因子(LOF)算法,提出聚类中心候选对象的概念,过滤数据集的噪声数据,从而优化初始聚类中心的计算,突出正常样本点在聚类中心调整中的影响力,使聚类算法更易于得出准确的聚类结果. 同时提出一种局部过滤因子以修正相似性度量的方法,该方法通过放大正常数据之间的权值、缩小正常数据与噪声数据间的权值,使优化后的核模糊谱聚类算法大大降低对异常点的敏感度. 算法有效性实验和算法稳定性实验表明:该方法对相似性度量修正的有效性使核模糊谱聚类算法更为稳定和鲁棒.  相似文献   

14.
该文针对免疫遗传算法的不足,在分析其特性的基础上,引入了隔离小生境技术,改进交叉算子和变异算子,提出一种改进算法。在基于模糊关联规则挖掘的异常检测中采用本算法优化后的隶属函数,能够扩大正常关联规则集之间的相似度,缩小正常与异常关联规则集之间的相似度,提高异常检测的性能。通过以网络流量为数据的异常检测实验仿真对算法进行了验证。实验结果说明了该算法的可行性和有效性。  相似文献   

15.
针对交通标志检测算法往往仅能对特定类标志检测或基于深度学习方法因训练样本少而造成"过拟合"高风险等问题,本文提出了一种基于伪样本正则化Faster R-CNN深度学习的标志检测算法。该算法首先通过训练数据集提供的标志和无标注的背景样本,提出了一种伪样本正则化策略。然后,通过深度学习模型中区域建议生成网络获取建议区域。最后,利用交替训练策略、共享CNN策略和联合训练策略、RPN网络和Fast R-CNN目标检测网络交替训练和联合训练,最终获取Faster R-CNN交通标志检测模型,实现了各类标志的检测,并有效降低了"过拟合"风险。实验结果验证了本文算法的有效性。  相似文献   

16.
针对传统SVM算法在失衡数据集下的分类性能不理想的问题,提出一种基于核聚类集成SVM算法.该算法首先在核空间中对多数类样本集进行聚类,然后随机选择出具有代表意义的聚类信息点,实现在减少多数类样本数的同时将分类界面向多数类样本方向偏移.并利用AdaBoost集成手段对基于核聚类的欠取样SVM算法进行集成,最终提高SVM算法在失衡数据下的泛化性能.将提出的算法同其他失衡数据预处理集成方法进行比较,实验结果表明该算法能够有效提高SVM算法在失衡数据中少数类的分类性能,且总体分类性能及运行效率都有明显提高.  相似文献   

17.
针对如何从层次聚类算法得到样本集的多种聚类结果中获得用户最满意的聚类结果,在深入研究聚类有效性的基础上,通过模糊相似性关系刻画聚类的类内致密性和类间分离性,建立了一个新的聚类有效性函数。在人工和实际数据集上的实验都表明了该有效性函数具有良好的性能。  相似文献   

18.
由于网络异常流量检测中异常流量数据占比不平衡,导致模型不能对稀有攻击类别流量进行充分学习,从而影响模型训练和检测精度。针对这一问题,提出一种基于DBSCAN_GAN_XGBoost的网络入侵检测模型,该模型在对稀有攻击类样本进行扩充时,着重扩充更容易让机器学习产生混淆的噪声样本。首先,利用DBSCAN算法对提取出的稀有攻击类别数据进行聚类处理,生成一个或多个子簇,并提取出簇内样本和游离在簇外的噪声样本;然后,使用生成对抗网络模型对提取出的簇内样本和噪声样本分别进行样本扩充,改变数据集中原有的样本比例;最后,使用重新构建后的数据集对以决策树作为基分类器的XGBoost算法进行训练,并完成网络异常流量数据的检测。采用UNSW-NB15数据集进行对比实验,实验结果表明:DBSCAN_GAN_XGBoost模型的准确率和精确率分别为98.76%和96.5%,比样本扩充前分别提高了15.63百分点和19.60百分点,有效地提高了稀有攻击类别的检测精度。  相似文献   

19.
为使多路谱聚类方法对复杂结构数据集有效地聚类,根据矩阵扰动理论,利用局部近邻关系更新谱聚类算法(NJW)中的初始相似度矩阵,得到最终的亲和矩阵.理论分析表明,数据集可划分时,该矩阵是理想块矩阵或接近理想块矩阵,保证了本文算法聚类划分的正确性.将本文算法和基于路径的谱聚类、密度敏感的谱聚类以及基于流平面排序的谱聚类进行了比较,结果表明,本文算法在数据集具有复杂分布结构时可以确定聚类个数,得到正确的聚类结果.进一步将本文算法用于真实数据集上的聚类分析,表明本文算法是有效的.  相似文献   

20.
对肯定选择算法进行优化,以提高异常检测的检测率。对网络中的正常行为特征进行K均值聚类,以各类的中心作为检测器并加入成熟检测器集合;使用肯定选择方法将检测到的异常行为特征进行K均值聚类,产生新的检测器且加入到成熟检测器集合中;检测器的检测顺序随着检测器与测试数据匹配次数的增加而优先,再根据二次免疫理论将成熟检测器集合中检测顺序优先的检测器加入到记忆检测器集合。分别使用优化后的方法和基于集群概率的检测方法对abalone数据集进行检测,结果显示,优化后的方法在测试数据为200时,检测率可提高1.8%,整体检测性能较优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号