首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为了解决大规模数据中的异常检测问题,提出了基于支持向量数据描述(SVDD)的高效离群数据检测算法。该算法的核心思想为:首先利用SVDD获得包含单类数据的最小球形边界,然后通过该边界对未知样本数据进行分类,并利用最小闭包球算法对SVDD分类器进行优化求解。在UCI机器学习数据集和入侵检测数据集上将该算法与其他离群数据检测算法进行了实验比较,结果表明,该算法不仅获得了更高的检测准确率,而且具有较低的运行时间。  相似文献   

2.
针对大数据集中存在海量数据,当数据规模扩大到一定程度时,离散点检测处理效率受到限制的问题,提出了一种基于分类和回归树(CART)决策树的网络大数据集离群点动态检测算法。首先,划分大数据集异常数据标准,利用方差衡量数据离散程度,使用支持向量机建立异常数据样本关联规则矩阵,明确大数据集异常数据范围,并通过动态网格划分策略降低离群点检测计算量;然后,运用CART决策树方法在分支节点采取布尔检测,将待检测数据统一拟作连续数据,升序排列训练数据集,计算数据最高信息增益,剪枝决策树直到没有非叶子节点可被替换,得到离群点动态检测结果。仿真结果证明,本文算法离群点检测准确率高、检测耗时短,具备显著的计算优势,能为大数据集的可靠应用提供积极帮助。  相似文献   

3.
对基于单数据集和多数据集的离群点算法进行研究,提出一个基于距离模式进行数据集间参照对比的离群点判别模型,该模型通过数学定义清晰描述了参照集和对比集之间离群点模式的判别检测关系,为深入研究切合金融数据挖掘特点的算法建立形式化描述体系。这一模型也可推广应用于网络入侵检测、财务审计、图像识别、电子商务、医疗疫情监测等领域。  相似文献   

4.
离群点检测算法研究   总被引:1,自引:0,他引:1  
离群点检测是数据挖掘中一项重要内容,通过对当前有代表性的离群点检测算法的分析和比较,对各算法的优缺点进行了总结.针对高维数据中离群点检测算法进行了分析和研究,提出了高维数据中离群点检测需要注意的一些问题,从而便于研究者以这些算法为基础,在此基础上提出新的改进算法.  相似文献   

5.
针对网络入侵检测数据存在大量冗余信息和传统聚类算法对离群点检测不足的问题,提出一种基于主成分分析(principal component analysis, PCA)和半监督聚类的入侵检测算法。首先使用PCA对数据进行特征提取,消除数据间的冗余属性;然后利用少量已标记样本和成对约束信息,通过引入竞争凝聚让系统主动学习,以实现对大量未知样本的检测。在入侵检测数据集和UCI基准数据集上的实验结果表明,该算法能有效提高系统的性能。  相似文献   

6.
针对快速超球体聚类的离群点检测算法只能定性地判断数据点是否为离群点,导致离群点的检测精度和召回率较低的问题,提出一种基于采样的超球体聚类的离群点检测算法.通过无放回数据采样将数据集分割为等量的样本子集,在每个样本子集中自适应超球体半径并进行超球体聚类,多次计算数据点的聚集度,取均值得到鲁棒性的聚集度,进而得到离群度.实验证明,该算法可以定量描述离群点,并且在4个真实数据集上,离群点检测的精度提升了1.3%~16.3%,召回率提升了0.2%~7.3%.  相似文献   

7.
本研究结合信息熵与粗糙集理论中的属性约简技术,提出了一种新颖的离群点检测算法。这种方法通过在更小的属性子空间去获得相同或相近的离群数据集,使对离群数据的分析更加集中于较小的目标域。该算法对原属性空间进行划分,通过分析计算将具有最大相对熵与负相对势的对象集合判定为离群点集合。为了验证算法的有效性,还在通用数据集上进行了测试,理论分析和实验结果表明该离群点检测算法是有效可行的。  相似文献   

8.
针对高维海量数据集中的局部离群数据,利用并行计算和属性相关性分析思想,给出了一种离群数据并行挖掘算法。该算法首先由主节点分配属性相关分析任务,各个子节点并行查找数据集中的冗余属性,将其冗余属性传回主节点,并由主节点删除;其次,主节点分配搜索任务,各子节点采用微粒群算法,并行搜索局部离群子空间;再次,由主节点对局部离群子空间合并计算后,确定全局离群数据;最后,在MPICH2-1.0.3的并行计算环境下,采用恒星光谱数据作为数据集,实验结果验证了算法的正确性和有效性。  相似文献   

9.
针对传统离散数据挖掘方法存在内存消耗过大的问题,研究基于人工智能技术的局部离群数据挖掘方法.提取离散数据特征,并使用基于信息熵的算法检测局部离群数据.标准化处理检测出的数据,在神经网络中实现对局部离群数据的挖掘,完成对基于人工智能技术的局部离群数据挖掘方法的研究.通过与传统数据挖掘方法的对比实验结果可知,本文方法在数据...  相似文献   

10.
为保证交通检测数据的准确性并服务于实时的交通状态判别和预测,交通大数据采用多种检测源数据协同处理并利用机器学习的方法进行异常识别.异常检测数据的识别主要基于机器学习中AdaBoost方法实现.在算法的训练过程中,为消除单一检测源数据的离群现象,训练数据选取同一路段上多种检测源提供的数据集.在算法的决策过程中,通过代价敏感方法的优势来改进AdaBoost的决策.实验结果表明:基于非均衡特性改进的AdaBoost模型迫使分类器更加关注了待识别的异常样本,增强了AdaBoost决策过程中训练决策树规则的代表性,提高了异常类样本的分类准确率.高速公路实例检测数据集验证了改进算法与相关经典算法的检测准确度、误检率、误警率等指标,其中改进模型与原模型相比,准确率提高了5.547%,误检率减低了6.792%.多种算法的ROC曲线对比表明改进的AdaBoost方法筛选交通检测样本的可靠度更高,可有效调整由非平衡数据导致的分类误差.  相似文献   

11.
数据挖掘的异常检测技术分析   总被引:1,自引:0,他引:1  
数据挖掘的异常检测技术在实践中有着广泛的应用,讨论了应用于不同数据集的离群点挖掘技术的算法和特点,说明了处理离群点过程中的重要问题,并对不同算法的优缺点进行了对比,为离群点挖掘的实际应用提供了参考依据.此外,还通过实验进行了算法分析,以便验证异常检测算法的有效性.  相似文献   

12.
为了充分利用多传感器的冗余信息实现高精度跟踪,提出了一种带有离群点检测的冗余信息自适应联邦滤波跟踪算法。首先,在信息分配阶段,针对冗余信息设计了一种自适应信息分配因子,提高了信息分配效率;其次,在信息融合阶段,为了降低误差数据对跟踪结果的影响,提出了一种离群点检测算法,针对存在相关性且服从高斯分布的数据,通过D-S证据理论综合所有滤波器的判断评估数据是否为离群数据;最后,使用线性最小方差估计进行融合,得到更为精确的最终估计结果。仿真验证了所提算法具有更好的跟踪精度和鲁棒性。  相似文献   

13.
目前研究时间序列离群点检测方法大都没有考虑到数据本身的周期性,有的只能处理名词性属性. 针对实值性属性的时序数据,提出了多粒度周期模式的发现算法,该算法基于不同的时间间隔粒度来探测不同的周期模式, 并利用得到的周期模式来发现那些偏离周期模式的离群点. 该方法可有效避免将正常数据误报为异常值. 通过实验验证了该算法既可正确找出数据在不同粒度下的周期模式,又可有效探测时序数据中的异常值,并与不用周期模式发现的离群点检测算法比较,减少了对特殊事件的离群点误报.  相似文献   

14.
新奇检测是识别一个新的数据点是一个内部点还是一个离群点的问题。检测准确率不仅取决于神经网络模型的理论和算法,还受限于数据特征的提取。基于对抗自编码器的生成概率新奇检测,在传统图像识别数据特征提取的基础上,在模型训练阶段融入图像数据的标签信息,采用生成概率进行新奇检测。实验结果表明:和其他新奇检测模型相比,基于对抗自编码器的融合数据标签的新奇检测效果更好。  相似文献   

15.
提出一种适用于大规模互联网流量的实时广告流量检测系统,系统以目前最为流行的Adblock规则列表作为基本规则库,将HashTable快速匹配算法和Aho-Corasick快速匹配算法相结合,对广告流量进行快速实时匹配.此外,为了适应大规模流式数据的需求,将匹配算法部署在并行流式工作框架Spark Streaming之上.模型系统分别在实验室和运营商真实网络环境下的超大规模数据集进行了测试,结果表明,检测系统具有较高的准确率和计算效率.  相似文献   

16.
对聚类结果的理解有助于评价聚类效果,可以据此调整聚类过程,更高效地使用聚类结果.但是,聚类结果的理解仍然是一个尚未解决的问题.提出了基于离群点识别技术分析任意聚类算法的聚类结果,发现了聚类结果属性特征簇的方法;提出一种基于不相似性比值的离群点识别算法.通过对全部数据簇的属性描述进行离群点分析,发现各数据簇的特征属性,实现对聚类结果的理解.所提方法适用于任意聚类算法结果的分析.对UCI的iris、ZOO和Housing数据集的采用X-means、Frozen和DBScan算法的聚类结果进行聚类结果分析,实验表明所提方法较成功地发现了不同聚类算法的属性特征簇,有助于对聚类结果的深入理解.  相似文献   

17.
针对入侵检测系统产生的高维数据的处理问题,提出基于GA与BP神经网络的入侵检测组合模型进行特征选择。为了优化入侵检测分类算法,利用遗传算法适合复杂系统优化的特点,去除入侵检测数据多维特征属性中的冗余部分,将入侵检测数据特征属性对应到染色体,BP神经网络的分类准确率作为种群个体的适应度值,通过遗传算法的全局搜索能力,找出对分类算法最有影响的特征属性组合,从而达到降维的目的。采用KDD99数据集进行分析,实验表明,经过组合算法特征选择的数据能在分类正确率、运算时间、运算稳定性等方面取得更优的效果。  相似文献   

18.
离群点检测的目的是与应用场合密切相关的,检测结果与离群数据的描述方法密切相关。从离群点检测的基本原理出发,在l∞度量意义下给出关于离群点的定义,用于解决一类高维大规模数据集中的离群点检测问题,并提出高效的离群点检测方法。实验结果证明了其显著的优越性。  相似文献   

19.
针对现实生活中出现的越来越多的高维海量分类数据,基于属性聚类的方法,提出了一种新的离群数据挖掘算法.该算法首先通过计算属性之间的相关性,将高维分类数据的属性分成多个属性子集,然后在多个属性子集上根据离群得分分别进行离群挖掘,最终选择离群得分最大的k个数据对象作为离群数据.通过采用人工数据集和UCI数据集验证了算法的有效性和可行性,实验结果表明,该算法在精度和效率方面都有提高,可用于高维海量分类数据的离群挖掘.  相似文献   

20.
为解决单目图像中冗余像素点不利于深度神经网络快速完成深度信息检测的问题,提出一种基于卷积神经网络的深度线段分类算法。对NYU-Depth数据集使用线段检测算法进行线段检测得到原始图像的线段特征图,通过数据预处理结合深度数据得到表征深度信息的线段集合及其标签,提出适用于线段特征的卷积神经网络,实现单目图像中深度线段的分类。通过在不同线段数目上进行多次多组对比试验,深度线段分类准确率达到73.50%。试验结果证明了利用卷积神经网络实现深度线段分类的可实施性,有助于更好的利用图像几何特征解决深度估计问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号