首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 149 毫秒
1.
基于自适应聚类的数据预处理算法I   总被引:1,自引:0,他引:1  
提出了KDD的一种逻辑模型。以数据库或数据仓库中的数据为例 ,根据先验知识或可能的挖掘目标 ,利用SQL命令滤除无关属性 ,形成基于某种概念分层的归纳数据库或汇总数据库。针对数据库中的属性 ,利用非监督学习算法 ,获取相应聚类 ,从而形成面向任务的目标数据子集 ,以保证数据挖掘结果的质量和有效性  相似文献   

2.
基于自适应聚类的数据预处理算法Ⅰ   总被引:4,自引:1,他引:4  
提出了KDD的一种逻辑模型。以数据库或数据仓库中的数据为例,根据先验知识或可能的挖掘目标,利用SQL命令滤除无关属性,形成基于某种概念分层的归纳数据库或汇总数据库。针对数据库中的属性,利用非监督学习算法,获取相应聚类,从而形成面向任务的目标数据子集,以保证数据挖掘结果的质量和有效性。  相似文献   

3.
鉴于数据库入侵检测系统中模板的数量不断增加,导致入侵检测效率也随着降低。提出基于用户行为编码的数据库入侵检测模型,该模型通过对提交的SQL进行编码,再利用挖掘方法得出语句中属性内部关系的规则,最后形成用户正常行为规则库,从而取代了模板库,提高了检测的效率。该方法不仅能够有效地防止SQL注入,而且也能检测出合法权限滥用。  相似文献   

4.
当前,医院信息系统(HIS)已成为医院信息化建设的重要内容,但HIS与财务数据库的接入仍然采用传统的方式,导致财务重要数据存在一定的安全隐患。为了有效消除用户异常行为对医院财务数据库所构成的安全隐患,设计一种财务数据库异常检测技术。通过调取财务数据库运行日志中的用户查询内容及相应结果,采用k-means聚类算法进行用户分组,采用Navie Bayes算法构建异常检测模型。应用测试结果表明,与传统的用户行为轮廓算法相比,所提出的算法准确率提高了7.06个百分点,综合F1值提高了3.33个百分点,此外,在大幅度缩减计算量的基础上模型训练时间缩短了81%,极大地提高了财务数据的安全性。  相似文献   

5.
针对海量电信数据的聚类问题,利用粗集中的知识简化方法,减少属性的数量,提取主要的特征属性,并结合性能优良的模糊Kohonen聚类网络,提出了一种新的电信欺诈行为的检测模型,采用Microsoft SQL2005和VC++6.0技术,利用电信运营商提供的真实数据对该模型进行验证,实验结果表明,基于粗集神经网络方法提出的模型快速有效且具有较高的准确率。  相似文献   

6.
针对数据库用户行为异常导致数据库泄露问题,提出了一种基于K-means和naive Bayes算法的数据库用户异常检测方法。首先,利用数据库历史审计日志中用户的查询语句与查询结果,采用K-means聚类方法得到用户的分组;然后,使用naive Bayes分类算法构造用户异常检测模型。与单独使用naive Bayes分类法构造的模型相比,在数据预处理时其精简了用户行为轮廓的表示方法,降低了计算冗余,减少了81%的训练时间;利用K-means聚类方法得到用户组别,使检测的精确率提高了7.06%,◢F◣▼1▽值提高了3.33%。实验证明,所提方法大幅降低了训练时间,取得了良好的检测效果。  相似文献   

7.
如何准确地检测出储罐运行的异常状态是工业控制系统的核心问题,针对传统的有监督学习需要大量学习样本,而无监督学习准确率不足的问题,提出一种基于FCM-ANN的异常检测方法。该方法基于三层结构模型,FCM层不需要任何先验知识,对数据进行初步异常检测,ANN层对FCM层的每个类分别进行神经网络学习,最后通过ANN集成得到检测结果。对采集的储罐运行状态数据进行仿真后,结果表明该方法比ANN、FCM和Nave Bayes方法有更优的检测性能。  相似文献   

8.
在海量数据中快速、准确地对数据进行分类分级,快速识别用户异常行为是目前数据安全领域的重要研究内容。在数据分类分级研究领域,自然语言处理技术提升了分类分级的准确率,但是中文语体混杂、无监督学习准确率低、有监督学习样本标注工作量大等问题亟待取得关键突破。本文提出多元中文语言模型和基于无监督算法构建样本,突破数据分类分级领域面临的关键问题。在用户异常行为分析研究领域,由于样本依赖度过高,导致异常行为识别准确率较低,本文提出利用离群点检测方法构建异常行为样本库,解决样本依赖过高问题。为验证方法可行性,进一步构建实验系统开展实验分析,通过实验验证所提出方法可以显著提高数据分类分级和异常行为分析的准确率。  相似文献   

9.
传统的基于身份认证和存取控制的数据库安全机制存在一定的局限性,如无法防止SQL注入、合法用户权限滥用等非法行为,而现存的入侵检测研究多集中在网络和操作系统,由此提出一个基于DBMS的无监督异常检测算法。首先定义了数据库查询的表示方法及其相似度计算方法,其次给出了包括查询聚类、标记和检测三阶段的异常检测算法,最后给出了算法在合成数据中的聚类结果及其在真实数据中检测SQL注入的应用,并讨论了利用数据库索引的扩展算法。  相似文献   

10.
数据集成是解决多数据源整合问题的有效手段.如何准确高效地集成多数据源模式具有重要研究意义.关于模式集成已有大量的研究工作,但均忽略了用户使用信息.在用户使用信息的基础上提出一种新颖的基于聚类技术的多模式数据集成方法.首先从数据库的查询日志中为模式属性提取特征向量,并对其进行聚类.然后根据结果聚类间的最小差异性,为每个结果聚类引入最大相似性阈值,利用该阈值发现结果聚类中与该类语义不相似的异常属性.最后针对结果聚类中的3类异常属性,设计3种异常属性去除规则,进一步提出异常属性去除算法EPKO.实验结果表明,该方法具有较高的准确度,可以有效地解决多个模式的集成问题.  相似文献   

11.
异常检测系统在网络空间安全中起着至关重要的作用,为网络安全提供有效的保障.对于复杂的网络流量信息,传统的单一的分类器往往无法同时具备较高检测精确度和较强的泛化能力.此外,基于全特征的异常检测模型往往会受到冗余特征的干扰,影响检测的效率和精度.针对这些问题,本文提出了一种基于平均特征重要性的特征选择和集成学习的模型,选取决策树(DT)、随机森林(RF)、额外树(ET)作为基分类器,建立投票集成模型,并基于基尼系数计算基分类器的平均特征重要性进行特征选择.在多个数据集上的实验评估结果表明,本文提出的集成模型优于经典集成学习模型及其他著名异常检测集成模型.且提出的基于平均特征重要性的特征选择方法可以使集成模型准确率平均进一步提升约0.13%,训练时间平均节省约30%.  相似文献   

12.
针对物联网场景下,传统异常检测方法在海量不均衡数据中检测准确率低、数据异构导致模型泛化能力差等问题,提出了基于联邦学习的对抗双编码异常检测网络 (GB-AEnet-FL)的物联网设备异常检测算法。首先,提出了一种基于异常数据的主动特征分布学习算法,主动学习数据的潜在特征分布,通过数据重构扩充异常数据,均衡正负样本比例。其次,在潜在特征层引入了对抗训练机制并添加一致性增强约束和收缩约束,提高特征提取的精度。最后,设计了一种基于动态模型选择的联邦学习算法,比较局部模型与全局模型的置信度评分,动态选择部分联邦体参与,加速模型的聚合,在一定程度上也保护了用户隐私。在四个不同数据集上进行验证,结果显示,所提算法在检测准确度优于传统算法,且泛化能力得到相应提升。  相似文献   

13.
针对现有异常应用协议行为检测主要针对某种特定应用,缺乏通用性的问题,提出一种基于条件随机场的异常应用协议行为检测方法,从网络数据流中提取应用协议关键字及其时间间隔作为状态特征,同时考虑关键字的频率分布特征,应用条件随机场模型对协议行为进行建模,将偏离模型的协议行为判定为异常。相比于传统的基于隐马尔可夫模型建模方法,该方法不必对特征量作出严格的独立性假设,具有能够融合多特征的优势。实验结果表明,本文方法在检测协议异常时准确率高,误报率低。  相似文献   

14.
伴随大数据的快速发展,数据分析和知识发现成为研究热点,异常数据检测是数据质量提升的关键。基于序列集成学习的异常数据检测方法在面向高维数值型数据时可能因为噪声数据和维数过多导致检测精度下降。本文提出一种基于弹性网络的多层次序列集成学习的高维数值型异常数据检测方法,其中每层包含异常数据候选集模块、弹性网络降维模块和数据异常打分模块共3个模块。首先,异常数据候选集选择模块根据异常分数选择出一部分可能的异常数据;然后,弹性网络根据异常数据候选集和异常分数对高维数据进行特征选择,选择出与异常分数最相关的特征;最后,利用选择出来的特征对数据再次进行异常打分。每层异常数据候选集选择模块中的阈值设置为不同的值,循环地执行每一层,直到当前弹性网络的均方误差大于上一次的均方误差或者当前的检测精度小于初始的检测精度。在实验阶段,使用ODDS提供的高维异常数据检测数据集并根据检测精度、提取特征数、收敛速度等指标对本文方法的性能进行了测试。结果表明本文方法不仅能够提高对高维数值型异常数据的检测精度,而且能够有效地降低噪声对检测结果的影响。  相似文献   

15.
近年来恶意软件不断地发展变化,导致单一检测模型的准确率较低,使用集成学习组合多种模型可以提高检测效果,但集成模型中基学习器的准确性和多样性难以平衡。为此,提出一种基于遗传规划的集成模型生成方法,遗传规划可以将特征处理和构建集成模型两个阶段集成到单个程序树中,解决了传统恶意软件集成检测模型难以平衡个体准确率和多样性的问题。该方法以集成模型的恶意软件检出率作为种群进化依据,保证了基学习器的准确性;在构建集成模型时自动选择特征处理方法、分类算法和优化基学习器的超参数,通过输入属性扰动和算法参数扰动增加基学习器的多样性,根据优胜劣汰的思想进化生成具有高准确性和多样性的最优集成模型。在EMBER数据集上的结果表明,最优集成模型的检测准确率达到了98.88%;进一步的分析表明,该方法生成的模型具有较高的多样性和可解释性。  相似文献   

16.
尹春勇  朱宇航 《计算机应用》2020,40(8):2194-2201
针对虚假评论会误导用户的偏向并使其利益遭受损失以及大规模人工标注评论的代价过高等问题,通过利用以往迭代过程中生成的分类模型来提高检测的准确性,提出一种基于垂直集成的Tri-training(VETT)的虚假评论检测模型。该模型在评论文本特征的基础上结合用户行为特征作为特征进行提取。在VETT算法中,迭代过程被分成组内垂直集成和组间水平集成两部分:组内集成是利用分类器以往的迭代模型集成为一个原始分类器,而组间集成是利用3个原始分类器通过传统过程训练得到这一轮迭代后的二代分类器,以此来提高标签标记的准确率。对比Co-training、Tri-training、基于AUC优化的PU学习(PU-AUC)和基于垂直集成的Co-training(VECT)等算法,VETT算法的F1值分别最大提高了6.5、5.08、4.27和4.23个百分点。实验结果表明VETT算法有较好的分类性能。  相似文献   

17.
通过分析数据库安全审计机制,提出一种基于旁路监听的数据库安全审计系统框架,并实现了针对Oracle数据库的安全审计系统。涉及Java网络抓包、TNS协议解析、SQL语法解析和数据库安全检测等技术实现,提出一种发现用户正常行为规则的异常检测算法。系统实验结果表明该系统能有效对Oracle数据库进行实时安全审计,并实现了数据库操作行为的安全检测。  相似文献   

18.
为提高云平台异常点检测的精度,解决单一检测系统误报率与漏报率高的问题,提出基于集成学习的异常点检测系统。为解决异常检测对象多样性的问题,构造监测序列的特征矩阵,采用自组织映射神经网络对监测序列进行聚类;对监测序列进行过采样,解决异常发生频率很低的问题;对异构的异常点检测器进行基于委员会的学习,集成各检测器的检测优点,提高检测的精度。通过带有标注的监测序列对异常点检测系统进行验证,结果表明,该系统效果优于单一检测系统,验证了设计的有效性。  相似文献   

19.
信用卡欺诈检测是一个重要的问题,为了提升对于真实世界的信用卡欺诈数据的识别率,提出了一种混合的信用卡欺诈检测模型AWFD(Anomaly weight of credit card fraud detection),首先通过异常检测的方法将数据划分为可信和异常数据,然后利用半监督的方法训练一个集成模型,最终再利用异常检测进一步剔除检测结果中的异常结果。AWFD在保障对于可信数据的学习效果上,通过半监督集成学习的方法,利用异常数据进一步扩充集成模型的多样性,并将异常检测和集成模型融合。实验结果表明,比起一些传统的机器学习方法,AWFD可以提高整体的信用卡欺诈检测的识别率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号