首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
分布式计算被广泛应用于离群点检测问题,但分布式环境中节点计算性能的差异带来了数据计算性能的下降问题。针对面向大尺度高维数据离群点分布式计算的负载均衡问题,该文提出了一种加权分布式离群点检测方法。首先根据数据节点的计算性能确定数据节点的权值,然后将数据空间划分为若干个网格,最后设计了一种基于网格划分的加权分配算法WGBA,将这些网格分配到数据节点中,实现并行计算。实验验证了该方法的有效性。  相似文献   

2.
本研究结合信息熵与粗糙集理论中的属性约简技术,提出了一种新颖的离群点检测算法。这种方法通过在更小的属性子空间去获得相同或相近的离群数据集,使对离群数据的分析更加集中于较小的目标域。该算法对原属性空间进行划分,通过分析计算将具有最大相对熵与负相对势的对象集合判定为离群点集合。为了验证算法的有效性,还在通用数据集上进行了测试,理论分析和实验结果表明该离群点检测算法是有效可行的。  相似文献   

3.
针对高维海量数据集中的局部离群数据,利用并行计算和属性相关性分析思想,给出了一种离群数据并行挖掘算法。该算法首先由主节点分配属性相关分析任务,各个子节点并行查找数据集中的冗余属性,将其冗余属性传回主节点,并由主节点删除;其次,主节点分配搜索任务,各子节点采用微粒群算法,并行搜索局部离群子空间;再次,由主节点对局部离群子空间合并计算后,确定全局离群数据;最后,在MPICH2-1.0.3的并行计算环境下,采用恒星光谱数据作为数据集,实验结果验证了算法的正确性和有效性。  相似文献   

4.
针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在误差函数的基础上实现对离群点的检测.结果表明:该算法的检测时间始终低于0.4 min,且检测准确率始终保持在90%以上,说明该算法能够快速、准确地检测大规模数据集中的离群点.  相似文献   

5.
针对传统离散数据挖掘方法存在内存消耗过大的问题,研究基于人工智能技术的局部离群数据挖掘方法.提取离散数据特征,并使用基于信息熵的算法检测局部离群数据.标准化处理检测出的数据,在神经网络中实现对局部离群数据的挖掘,完成对基于人工智能技术的局部离群数据挖掘方法的研究.通过与传统数据挖掘方法的对比实验结果可知,本文方法在数据...  相似文献   

6.
为保证交通检测数据的准确性并服务于实时的交通状态判别和预测,交通大数据采用多种检测源数据协同处理并利用机器学习的方法进行异常识别.异常检测数据的识别主要基于机器学习中AdaBoost方法实现.在算法的训练过程中,为消除单一检测源数据的离群现象,训练数据选取同一路段上多种检测源提供的数据集.在算法的决策过程中,通过代价敏感方法的优势来改进AdaBoost的决策.实验结果表明:基于非均衡特性改进的AdaBoost模型迫使分类器更加关注了待识别的异常样本,增强了AdaBoost决策过程中训练决策树规则的代表性,提高了异常类样本的分类准确率.高速公路实例检测数据集验证了改进算法与相关经典算法的检测准确度、误检率、误警率等指标,其中改进模型与原模型相比,准确率提高了5.547%,误检率减低了6.792%.多种算法的ROC曲线对比表明改进的AdaBoost方法筛选交通检测样本的可靠度更高,可有效调整由非平衡数据导致的分类误差.  相似文献   

7.
一种基于CART的决策树改进算法   总被引:4,自引:0,他引:4  
针对分析CART算法的要求被选择的属性是连续且有序的,并且只能产生两个子节点的问题,依据CART算法理论,采用A—CART算法,弥补了CART方法的不足.是一种选用离散无序的属性作为决策树的分裂节点,分裂后可以产生多个子节点的方法,并为此方法设计了分裂函数,通过一个实例给出了具体的使用方法.  相似文献   

8.
数据挖掘的异常检测技术分析   总被引:1,自引:0,他引:1  
数据挖掘的异常检测技术在实践中有着广泛的应用,讨论了应用于不同数据集的离群点挖掘技术的算法和特点,说明了处理离群点过程中的重要问题,并对不同算法的优缺点进行了对比,为离群点挖掘的实际应用提供了参考依据.此外,还通过实验进行了算法分析,以便验证异常检测算法的有效性.  相似文献   

9.
对基于单数据集和多数据集的离群点算法进行研究,提出一个基于距离模式进行数据集间参照对比的离群点判别模型,该模型通过数学定义清晰描述了参照集和对比集之间离群点模式的判别检测关系,为深入研究切合金融数据挖掘特点的算法建立形式化描述体系。这一模型也可推广应用于网络入侵检测、财务审计、图像识别、电子商务、医疗疫情监测等领域。  相似文献   

10.
利用离群点挖掘可以发现大多数偏离的异常数据,从而检测出入侵行为。针对已有的数据流环境入侵检测系统模型,提出基于频繁模式离群点检测的改进算法,介绍算法流程及计算过程。  相似文献   

11.
针对快速超球体聚类的离群点检测算法只能定性地判断数据点是否为离群点,导致离群点的检测精度和召回率较低的问题,提出一种基于采样的超球体聚类的离群点检测算法.通过无放回数据采样将数据集分割为等量的样本子集,在每个样本子集中自适应超球体半径并进行超球体聚类,多次计算数据点的聚集度,取均值得到鲁棒性的聚集度,进而得到离群度.实验证明,该算法可以定量描述离群点,并且在4个真实数据集上,离群点检测的精度提升了1.3%~16.3%,召回率提升了0.2%~7.3%.  相似文献   

12.
为了解决大规模数据中的异常检测问题,提出了基于支持向量数据描述(SVDD)的高效离群数据检测算法。该算法的核心思想为:首先利用SVDD获得包含单类数据的最小球形边界,然后通过该边界对未知样本数据进行分类,并利用最小闭包球算法对SVDD分类器进行优化求解。在UCI机器学习数据集和入侵检测数据集上将该算法与其他离群数据检测算法进行了实验比较,结果表明,该算法不仅获得了更高的检测准确率,而且具有较低的运行时间。  相似文献   

13.
针对传统差分隐私保护方案以剩余隐私预算的一半逐层分配,即等比分配隐私预算,被应用于决策树时,随着决策树高度的增加,分配至顶层的隐私预算过小,随机噪声过大,分类准确率受到影响的问题,作者提出以差分隐私保护结合主流决策树C4.5分类方法为基本思路,依据决策树高度等差分配隐私预算的方案。差分隐私中的Laplace机制和指数机制确保决策树分类的安全性。作者利用大数据Hadoop平台的MapReduce框架,主程序进行MapReduce参数配置以及外层循环。在执行到每一个节点时,主程序将数据集属性的统计任务交给Mapper类,Reducer类接收Mapper类的统计结果并利用Laplace机制添加随机噪声,加噪结果返回主程序中作为计算信息增益率的参数。主程序利用指数机制选择最佳细分方案,递归过程直至样本数为0时停止。实验采用UCI数据库的car数据集进行测试,在不同隐私预算下将等比分配与等差分配两种方案得到的分类结果准确率进行对比。实验结果表明:本文算法在可接受的分类准确率降低的情况下满足差分隐私保护;与传统隐私预算分配相比,本文算法在相同隐私预算下提高了分类准确率;对于car数据集,本文算法在隐私预算为0.7或0.8时可较好兼顾数据集的安全性和有效性。因此,在一定程度上依据决策树高度等差分配隐私预算的方案可改善分类准确率,可实际应用于决策树分类算法。  相似文献   

14.
动态模糊数据分析是海量数据处理的核心课题之一.讨论了动态模糊决策树的属性算法,通过动态模糊二叉决策树的介绍,给出了动态模糊决策树中各结点以及各层对实例集划分之间的关系.由于划分格是对论域的划分,进一步定义了动态模糊划分格,给出了关于动态模糊决策树各层对实例集划分组成的集合的定理,并且证明了动态模糊决策树的各层对实例集的...  相似文献   

15.
在无线传感网离群值检测算法中,如何自适应调整离群值检测算法的参数是一项重大挑战。由于节点之间存在相关性,不能孤立地去考虑单个传感器节点,因此根据其周围节点情况来动态设置节点参数很有必要。在文中提出一种基于锚节点的无线传感网离群值检测算法,该算法预先为锚节点设置最佳参数,同时计算锚节点与普通节点之间的相关性,利用大小根堆、滑动窗口与标准差来动态地调整每个普通节点的参数,并将其转换为锚节点。最终每个节点都能自适应地将参数调整为最佳。仿真实验表明:在自适应调整方式下,检测算法的真阳性率在84.3%以上,假阳性率在20%以下,并且能够将数据正确地分离出来。  相似文献   

16.
离群点检测算法研究   总被引:1,自引:0,他引:1  
离群点检测是数据挖掘中一项重要内容,通过对当前有代表性的离群点检测算法的分析和比较,对各算法的优缺点进行了总结.针对高维数据中离群点检测算法进行了分析和研究,提出了高维数据中离群点检测需要注意的一些问题,从而便于研究者以这些算法为基础,在此基础上提出新的改进算法.  相似文献   

17.
小波变换的离群时序数据挖掘分析   总被引:1,自引:0,他引:1  
针对时序数据进行离群数据挖掘方法的研究。通过对时序数据进行离散小波变换,将其从时域空间变换到频域空间,使时序数据映射为多维空间的点。该方法具有多尺度、时移不变性等特点,经离群时间序列进行离散小波变换后,不仅具有良好的保距性又达到降低维数目的。然后提出一种基于距离的离群时序数据挖掘算法。仿真试验表明了该方法的有效性。  相似文献   

18.
针对高效视频编码(High Efficiency Video Coding,HEVC)帧间编码过程中编码单元(Coding Unit,CU)划分复杂度过高的问题,提出一种基于CART决策树的CU快速划分算法。该算法包括CART决策树建模和CU快速编码算法两部分。首先,将CU划分问题归为二分类问题,以当前CU的空间相邻CU的深度划分信息作为最优特征属性,建立CART模型且进行测试评估;然后利用建立的CART模型对当前CU进行快速划分。实验结果表明,在保持编码性能的同时,该算法比HM16.0算法节省43.34%的编码时间,有效地提高了编码效率。  相似文献   

19.
针对局部异常因子(local outlier factor,LOF)异常检测算法时间空间复杂度高、对交叉异常及低密度簇周围异常点不敏感等局限,提出了基于近邻搜索空间提取的LOF异常检测算法(isolation-based data extracting LOF,iDELOF),将基于隔离思想的近邻搜索空间提取(isolation-based KNN search space extraction,iKSSE)前置于LOF算法,以高效剪切掉大量无用以及干扰数据,获得更加精准的搜索空间。基于此完成了理论以及4组实验分析,每组实验分别进行iDELOF算法与LOF、iForest、iNNE等多种典型算法的对比分析。结果表明:iDELOF算法通过拉大正异常点局部离群因子的差距,增强了对交叉异常以及低密度簇周围异常点的识别能力,提升了LOF的检测效果;iDELOF算法在识别轴平行异常方面与LOF同样具有明显优越性;iDELOF算法通过iKSSE所获数据子集显著小于原数据集,多数子集数据量小于原数据集的1%,因此iDELOF的时间空间复杂度显著降低,且原数据集数据量越大,优越性越明显,当数据量足够大时,iDELOF算法的运行时间将低于IF算法。  相似文献   

20.
针对密度聚类算法无法应用于大规模数据集的问题,提出一种基于划分网格的密度聚类算法(GDSCAN)。将大规模二维点阵图划分为若干网格,网格最短边不小于给定邻域半径,目标点所在网格中任意点的邻域范围不会超过与该网格直接连接的网格,只需在保留网格内寻找邻域点,从而减少计算量;聚类从任意无类别核心点开始,将该点的所有密度可达组成一个簇,以此类推直至所有核心点都有类别;采用提出的GDSCAN算法对不同数量级的二维路网节点进行聚类验证。结果表明,GDSCAN算法可有效解决大规模二维点阵数据集中密度聚类的效率问题,数据量越大,效果越明显,且时间复杂度明显降低。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号