首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 6 毫秒
1.
在机器学习理论与应用中,特征选择是降低高维数据特征维度的常用方法之一。传统的特征选择方法多数基于完整数据集,对实际应用中普遍存在缺失数据的情形研究较少。针对不完整数据中含有未被观察信息和存在异常值的特点,提出一种基于概率矩阵分解技术的鲁棒特征选择方法。使用基于分簇的概率矩阵分解模型对数据集中的缺失值进行近似估计,以有效测量相邻簇之间数据的相似性,缩小问题规模,同时降低填充误差。依据缺失数据值存在少量异常值的情形,利用基于l2,1损失函数的方法进行特征选择,在此基础上给出不完整数据集的特征选择方法流程,并对其收敛性进行理论分析。该方法利用不完整数据集中的所有信息,有效应对不完整数据集中异常值带来的影响。实验结果表明,相比传统特征选择方法,该方法在合成数据集上选择更少的无关特征,可降低异常值带来的影响,在真实数据集上获得了较高的分类准确率,能够选择出更为准确的特征。  相似文献   

2.
张安珍  李建中  高宏 《软件学报》2020,31(2):406-420
本文研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,本文给出不完整数据聚集查询结果的区间估计.本文在符号语义中扩展传统关系数据库模型,提出一种通用不完整数据库模型,该模型可以处理可填充的和不可填充的两种类型缺失值.在该模型下,提出一种新的不完整数据聚集查询结果语义:可靠结果.可靠结果是真实查询结果的区间估计,可以保证真实查询结果很大概率在该估计区间范围内.本文给出线性时间求解SUM、COUNT和AVG查询可靠结果的方法.真实数据集和合成数据集上的扩展实验验证了本文所提方法的有效性.  相似文献   

3.
分布式网络异常攻击检测模型仿真分析   总被引:2,自引:1,他引:1  
针对传统的异常攻击检测方法主要以异常攻击行为规则与网络数据隶属度大小进行判别,只能针对已知异常攻击进行检测,对新型异常攻击,检测算法率低,计算数据量大的问题。提出一种新的分布式网络异常攻击检测方式,通过对分布式网络内数据进行迭代聚类将正常和异常数据进行分类,建立矩阵映射模型进行数据矩阵对比,初步对异常攻击数据进行判断。在矩阵中建立粒子密度函数,通过粒子密度变化计算其异常攻击概率,最后对其数据进行加权和波滤确定数据异常攻击特征,建立攻击检测模型。仿真实验表明,优化的分布式网络异常攻击检测模型提高了异常数据攻击检测的自适应性,在网络信号受到攻击信号干扰情况下,仍然能够准确检测出带有攻击特征的小网络异常数据。有效提高了分布式网络的检测正确率,加快了检测速度和稳定性。  相似文献   

4.
信息处理过程中对异常信息的智能化处理是一个前沿的且富有挑战性的研究方向;针对所获取的信息由于噪声干扰等因素存在缺失这一异常现象,提出了一种不完整(缺失)数据的智能分类算法;对于某一个不完整样本,该方法首先根据找到的近邻类别信息得到单个或多个版本的估计样本,这样在保证插补的准确性的同时能够有效地表征由于缺失引起的不精确性,然后用分类器分类带有估计值的样本;最后,在证据推理框架下提出一种新的信任分类方法,将难以划分类别的样本分配到对应的复合类来描述由于缺失值引起的样本类别的不确定性,同时降低错误分类的风险;用UCI数据库的真实数据集来验证算法的有效性,实验结果表明该算法能够有效地处理不完整数据分类问题.  相似文献   

5.
油田中井场储罐液位的变化与油井的生产状况、运输过程以及现场管理等方面密切相关。实时检测油罐液位的异常变化,对安全生产管理非常重要。采用基于SPC(Statistical Process Control)的固定时间域可变采样间隔VSIFT(Variable Sampling Interval at Fixed Times)控制图以及自适应采样间隔统计控制图的液位数据异常检测方法可以提高异常检测效率。VSIFT控制图通过设置预警线调整采样间隔,自适应采样间隔统计控制图通过计算β风险的概率进行动态采样。实验结果表明,相比SPC的固定采样间隔统计控制图以及传统的时序数据异常检测,该方法能够结合实际情况充分分析当前状态的数据与历史数据的关系,探索出数据的动态变化规律,准确检测仅有少量异常点的数据异常,高效检测实时数据异常。该方法能提高异常检测的效率与准确率。  相似文献   

6.
基于小波隐马尔科夫模型的控制过程异常数据检测方法   总被引:1,自引:0,他引:1  
刘芳  毛志忠 《控制与决策》2011,26(8):1187-1191
针对小波异常信号检测原理的局限性,提出了适用于过程数据的基于小波隐马尔可夫模型(W-HMM)的异常数据检测方法.首先在一定尺度下对检测信号进行分解,将频率组分不同于其他大部分信号的信号作为异常信号;然后通过计算待检测信号的小波系数与正常信号小波系数的相似概率,并利用求取隐马尔可夫模型(HMM)最优状态链的Viterbi算法对数据进行最终判断;最后通过数值验证和应用表明了所提出的检测算法的有效性和实用性.  相似文献   

7.
一种基于隐Markov模型的异常检测技术   总被引:2,自引:0,他引:2  
安景琦  刘贵全  钱权 《计算机应用》2005,25(8):1744-1746
给出了一种建立隐Markov异常检测模型的算法,并从序列支持度分析、序列预测两个方面研究了该模型在异常检测中的应用,通过实验,分析了影响这一检测方法效果和效率的因素。实验表明,该方法能在不需要任何安全方面背景知识的情况下,有效地检测出入侵行为。  相似文献   

8.
王玉玲  任永功 《计算机科学》2016,43(Z6):425-429
城市化进程的加快带来了严重的交通问题,检测交通异常成为数据挖掘领域的热点之一。传统道路管理主要是应用视频监控,使得处理交通问题的效率受限。鉴于上述原因,提出了一种利用不完整数据检测交通异常的方法(Traffic Anomaly Detection,TAD)。首先,利用相关性聚类从手机数据中获取车辆密度信息,降低处理不完整数据的计算开销;然后,设计一个自适应无参数检测算法,根据手机呼叫量变化率捕捉车辆的分散式动态异常,以解决道路状况不确定性难题;最后,提出异常轨迹算法来追踪异常分布路线并预测影响范围,提高异常检测效率。实验结果表明,TAD方法在不同的实验环境下能够有效地检测交通异常,与现有算法相比,所提算法在有效性和伸缩性上效果更好。  相似文献   

9.
提出了一种基于协议分析与概率神经网络结合的网络异常状况检测方法。该方法首先基于网络协议分析,对网络运行中的敏感数据进行捕获及状态扫描;然后结合Baycs最小风险准则和基于Parzen窗的概率神经网络(PNN),对网络特征数据与网络基线数据进行比较判断,从而及时、准确地检测出网络发生的异常状况。  相似文献   

10.
基于KPCA的多变量时间序列数据异常检测方法研究   总被引:1,自引:0,他引:1  
介绍了一种采用的KPCA技术获取多变量时间序列数据高维特征空间的主成方向矢量,使用主成方向矢繁内积作为异常的度量,并采用vMF分布表征主成方向矢量分布来进行多变量时间序列数据异常检测的方法;检测过程中使用历史数据训练获取分布模型的参数估计,通过计算实际数据主成方向矢量在训练模型的概率来判断异常的发生;与传统的异常检测方法相比,该方法不依赖先验的专家知识,且能够通过训练学习自动调节模型参数,可用于不同系统的异常检测中;实验表明,该方法具有较高的有效性.  相似文献   

11.
动态测量中传感器非线性拟合方法   总被引:1,自引:0,他引:1  
从坏值概率分析基础上提出了动态测量中传感器数据的坏值剔除方法 ,用可靠的数据代替剔除的坏值 ,为后续的传感器数据处理保证了数据的合理性 ,如传感器的非线性拟合。并通过对动态测量中某霍尔位移传感器位移 -电压数据进行了坏值剔除和三次多项式非线性拟合 ,表明动态测量中传感器数据的非线性处理方法。  相似文献   

12.
农业垂直搜索引擎中的价格数据来源于各个农业网站,由于多种因素,采集到的数据中存在大量异常数据。同时,采集到的农产品价格数据具有其自身的特点,这些特点使得传统的异常数据检测方法不能够很好的工作。针对搜索引擎采集到的海量农产品价格数据,提出了一种异常价格数据的检测方法。实际应用表明,该方法能够取得很好的效果。  相似文献   

13.
当前,用电信息采集系统基本实现了全覆盖,可为多种业务提供数据支撑。但由于采集设备故障、通信信道不稳定以及外界干扰等原因,往往会使用电信息采集系统采集到异常的电量数据,这会造成基于电量数据的各种应用分析失去准确性甚至无法进行。因此,必须对用电信息采集系统采集到的异常电量数据进行识别与修复。文章基于负荷数据与电量数据的物理规律以及相应的数学算法,提出了一种用电信息采集系统异常电量数据的识别与修复方法。该方法将出现异常电量数据的用户按负荷数据分为有完整负荷数据、有不完整负荷数据以及无负荷数据三种类型,并分别建立了各类型相对应的异常电量修复数学模型。通过算例分析验证了该方法的有效性。  相似文献   

14.
针对工业过程中发生故障时异常变量的精确识别以及如何准确建立"故障–征兆"表的问题,本文提出了一种基于k近邻(k–NN)变量贡献分析和数据重构的异常变量精确识别方法.首先,将k–NN算法中各个采样时刻的统计距离指标细化,分解为每个变量的贡献并对其进行详细分析,分别从单变量和多变量异常角度进行方法的可行性验证,确定过程故障时异常变量具有较大的贡献值;其次,建立正常数据中每个变量的贡献模型用于对故障样本中的异常变量进行"一次"识别;随后提出基于k–NN理论的数据重构算法,并从重构原理方面进行分析,验证该方法具有一定的有效性.对于故障样本,根据变量贡献分析方法求取每个变量对距离指标的贡献,"一次"识别出故障发生时所对应的异常变量或征兆;进而通过数据重构理论对故障样本中异常变量值进行重构、检测和"二次"识别,直至辨识出过程中发生异常的所有变量,并得到故障与变量之间的关系,即"故障–征兆"表.  相似文献   

15.
提出了一种数字滤波的新算法。为了度量测量数据的可靠性程度,该算法引入了测量数据的支持量和有效支持量等概念。确定支持量的关键在于滤波阈值的选取,算法对测量数据进行分类,并根据不同的分类数给出不同的滤波阈值,所给出的滤波阈值能在不损失有用信息的情况下,抑制异常数据影响的扩散。而有效支持量的引入,可以使异常数据的残余影响进一步被消除。数据实验的结果证明:与同类滤波算法相比,当连续出现一个或多个异常数据及测量真值出现跃变时,该算法具有更强的抗干扰和快速处理能力。  相似文献   

16.
引入数据驱动的思想,提出了一种基于异常数据驱动的簇内数据融合方法.在节点数据采集过程中,仅当异常数据发生时才发送给簇头,减少了监测网络的数据传输量.在簇头数据融合过程中,建立了各传感器之间的相互支持度矩阵,支持度值较低的监测数据将被剔除,支持度值较高的监测数据进行最优加权融合,从而保证了融合结果的准确性和有效性.仿真实验结果表明,与算术平均值法及自适应加权融合法相比,本文方法能有效去除冗余信息,在融合精度、能量消耗方面具有明显的优势.  相似文献   

17.
伴随大数据的快速发展,数据分析和知识发现成为研究热点,异常数据检测是数据质量提升的关键。基于序列集成学习的异常数据检测方法在面向高维数值型数据时可能因为噪声数据和维数过多导致检测精度下降。本文提出一种基于弹性网络的多层次序列集成学习的高维数值型异常数据检测方法,其中每层包含异常数据候选集模块、弹性网络降维模块和数据异常打分模块共3个模块。首先,异常数据候选集选择模块根据异常分数选择出一部分可能的异常数据;然后,弹性网络根据异常数据候选集和异常分数对高维数据进行特征选择,选择出与异常分数最相关的特征;最后,利用选择出来的特征对数据再次进行异常打分。每层异常数据候选集选择模块中的阈值设置为不同的值,循环地执行每一层,直到当前弹性网络的均方误差大于上一次的均方误差或者当前的检测精度小于初始的检测精度。在实验阶段,使用ODDS提供的高维异常数据检测数据集并根据检测精度、提取特征数、收敛速度等指标对本文方法的性能进行了测试。结果表明本文方法不仅能够提高对高维数值型异常数据的检测精度,而且能够有效地降低噪声对检测结果的影响。  相似文献   

18.
为了更好地对矿井瓦斯进行监控, 在迅速提取异常瓦斯数据的同时消除非异常数据带来的冗余, 本文提出了一种基于分簇的WSN(无线传感器网络)数据融合方法. 它利用总能耗最小的方法将所有节点最佳分簇, 每个簇的节点通过竞选簇头概率的大小来确定簇头,非簇头节点通过两次阈值判断采集的数据是否异常并将异常数据发送到监控基站供工作人员决策. 实验仿真表明: 该方法延长了整个传感器网络的生存周期, 对矿井瓦斯起到有效监控.  相似文献   

19.
We propose an effcient approach for classifying insu±cient dataset with missing data (incomplete data) with group di?erence detection. Specifically, missing data in an insuffcient dataset are first completed with the parimputation strategy. And then, the insuffcient dataset is grouped by contrasting with a known dataset (transfer learning). Finally, for assessing the quality of the induced models, empirical likelihood (EL) inference is used to estimate the confidence intervals of structural differences between the insuffcient dataset and the known dataset. In such a way of mining, classifying incomplete data can be beneficial to industries as it will provide easier and smarter use of information. This will include evaluating a new medical product by detecting differences between the new product and an old one for pharmaceutical companies and, identifying frauds by detecting abnormal operations. To experimentally illustrate the benefits, we evaluate the proposed approach using UCI datasets, and demonstrate that our method works much better than the boot-strap resampling method on, for example, distinguishing spam from non-spam emails; and the benign breast cancer from the malign one.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号