首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
数据挖掘取样方法研究   总被引:10,自引:0,他引:10  
取样是一种通用有效的近似技术.在数据挖掘研究中,取样方法可显著减小所处理数据集的规模,使得众多数据挖掘算法得以应用到大规模数据集以及数据流数据上.通过对应用于数据挖掘领域的代表性取样方法的比较研究和分析总结,提出了一个取样算法分类框架.在指出了均匀取样局限性的基础上阐述了某些应用场景中选用偏倚取样方法的必要性,综述了取...  相似文献   

2.
由于数据挖掘技术日益广泛地应用于各个领域,而大多数领域中数据都存在缺失值,因此基于缺失数据的数据挖掘方法的研究具有重要意义.利用直接删除、特殊值填充、平均值填充、Robust方法4种处理缺失值的方法建立4个缺失值处理模型以及相应的朴素贝叶斯分类器模型.通过在5个实际数据集上进行实验比较,并采用五重交叉验证来检验这些模型的性能.结果表明,用这些模型处理缺失值构建的朴素贝叶斯分类器是有效的.  相似文献   

3.
不平衡数据集的应用领域日益广泛,需求也越来越高,为提升整体数据集的分类准确率,以谱聚类欠取样为前提条件,构建一种自编码网络不平衡数据挖掘方法.把聚类问题转换成无向图多路径划分问题,通过无向图与标准化处理完成谱聚类,经过有选择地欠取样处理多数类数据集,获取分类边界偏移量,利用学习过程是无监督学习的自编码网络,升、降维数据,获取各维度隐藏特征,实现各层面的数据高效表示学习,根据最大均值差异与预设阈值的对比结果,调整自编码网络,基于得到的分类界面,完成不平衡数据挖掘.选用具有不同实际应用背景的UCI数据集,从中抽取10组数据作为测试集,经谱聚类欠取样处理与模拟实验,发现所提方法大幅提升少数类分类精度与整体挖掘性能,具有较好的适用性与可行性.  相似文献   

4.
多尺度数据挖掘方法   总被引:4,自引:0,他引:4  
多尺度理论已被引入到数据挖掘领域,但人们对其研究仍不够深入和完善,缺乏普适性理论与方法.随着大数据处理应用的不断深入,其研究变得更加迫切.针对上述问题,进行了普适的多尺度数据挖掘理论和方法的研究.首先,基于概念分层理论给出了数据尺度划分和数据尺度的定义以及多尺度数据集之间的上下层尺度数据集关系;其次,阐明了多尺度数据挖掘的定义、研究实质和方法分类;最后,提出了多尺度数据挖掘算法框架,给出其理论基础,并将此框架应用于关联规则挖掘,提出了多尺度关联规则挖掘算法MSARMA(multi-scale association rules mining algorithm),实现了多尺度数据集之间知识的跨尺度推导.利用IBM T10I4D100K数据集和H省全员人口真实数据集对MSARMA算法进行了实验和分析,实验结果表明:算法具有较高的覆盖率、精确度和较低的支持度估计误差,是可行且有效的.  相似文献   

5.
武森  冯小东  单志广 《计算机学报》2012,35(8):1726-1738
缺失数据的处理是数据挖掘领域进行数据预处理的一个重要问题.传统的缺失数据填补方法大部分是基于概率分布等一些统计假设,对于大数据集的数据挖掘不一定是最适合的方法.受不完备数据分析(ROUSTIDA)未采用传统的概率统计学方法启发,提出基于不完备数据聚类的缺失数据填补方法(MIBOI),针对分类变量不完备数据集定义约束容差集合差异度,直接计算不完备数据对象集合内所有对象的总体相异程度,以不完备数据聚类的结果为基础进行缺失数据的填补.采用UCI机器学习基准数据集进行实验表明,MIBOI对缺失数据的填补是有效可行的.  相似文献   

6.
当前医疗卫生数据呈现量大、种类多、特征混杂等特点,为数据挖掘分类带来一定的挑战。针对医疗卫生数据的这些特点,提出一种基于主成分分析和支持向量机相结合的数据挖掘分类方法,重点研究该方法的算法模型,以及在医疗卫生领域的具体实现,并在MATLAB环境下利用Cardiotocography数据集和Breast Cancer数据集进行了仿真实验。实验结果表明,该方法的分类效果较好,为当前医疗数据挖掘分类提供了一种可行的思路。  相似文献   

7.
目前,多尺度数据挖掘的研究多集中于空间图像数据,在一般数据集上的研究已经初见成果,主要包括多尺度聚类以及多尺度关联规则,但 还没有研究涉及 一般数据下的分类。结合分形理论思想,将多尺度数据挖掘相关理论、知识和方法应用于分类领域,提出基于豪斯多夫距离(HD)的相似性度量方法;相对于以往对权重的经验定义,文中明确通过广义分形维数的相似性定义权重来提高相似性度量方法的精度;提出多尺度分类尺度上推算法(Multi-Scale Classification Scaling-Up Algorithm,MSCSUA);实验采用4个UCI基准数据集和1个真实数据集(H省部分人口)进行仿真实验,实验结果表明多尺度分类思想可行有效,并且MSCSUA算法在不同数据集上的性能均优于SLAD,KNN,Decision Tree以及LIBSVM算法。  相似文献   

8.
一种基于混合重取样策略的非均衡数据集分类算法   总被引:1,自引:0,他引:1  
非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。本文提出了一种新型重取样算法,采用改进的SMOTE算法对少数类数据进行过取样,产生新的少数类样本,使类之间数据量基本均衡,然后再根据SMO算法的特点,提出使用聚类的数据欠取样方法,删除冗余或噪音数据。通过对数据集的过取样和清理之后,一些有用的样本被保留下来,减少了数据集规模,增强支持向量机训练执行的效率。实验结果表明,该方法在保持整体分类性能的情况下可以有效地提高少数类的分类精度。  相似文献   

9.
基于贝叶斯理论的数据重构方法   总被引:1,自引:1,他引:1  
数据挖掘的一个重要方向是对敏感领域涉及个人信息的处理方法,对原始数据进行数值变换可以提供对个人信息的有效保护,为了提供数据挖掘过程有效的数据源,该文利用了基于贝叶斯理论的数据重构方法,对经过随机变换后的数据进行重构。  相似文献   

10.
对随机投影算法的离群数据挖掘技术研究   总被引:1,自引:0,他引:1  
[d]维点集离群数据挖掘技术是目前数据挖掘领域的研究热点之一。当前基于距离或最近邻概念进行离群数据挖掘时,在高维数据情况下的挖掘效果不佳,鉴于此,将基于角度的离群因子应用到高维离群数据挖掘中,提出一种新的基于随机投影算法的离群数据挖掘方案,它只需要用接近线性时间的方法就能预测所有数据点的基于角度的离群因子。该方法可以用于并行环境进行并行加速。对近似质量进行了理论分析,以保证算法的可靠性。合成和真实数据集实验结果表明,对超高维数据集,该方法效率高、可伸缩性强。  相似文献   

11.
李克文  杨磊  刘文英  刘璐  刘洪太 《计算机科学》2015,42(9):249-252, 267
不平衡数据的分类问题在多个应用领域中普遍存在,已成为数据挖掘和机器学习领域的研究热点。提出了一种新的不平衡数据分类方法RSBoost,以解决传统分类方法对于少数类识别率不高和分类效率低的问题。该方法采用SMOTE方法对少数类进行过采样处理,然后对整个数据集进行随机欠采样处理,以改善整个数据集的不平衡性,再将其与Boosting算法相结合来对数据进行分类。通过实验对比了5种方法在多个公共数据集上的分类效果和分类效率,结果表明该方法具有较高的分类识别率和分类效率。  相似文献   

12.
数据挖掘在XML的维修管理系统中的应用研究   总被引:1,自引:0,他引:1  
数据挖掘(Data Mining,DM)技术是当前研究热点之一。本文根据维修管理系统利用XML(可扩展标记语言)的格式标记交换数据的特点,建立了数据挖掘系统模型,对数据结构和数据取样处理进行分析,最后利用决策树ID3修正算法,给出了数据挖掘的具体实现,通过项目验证了该数据挖掘模型在系统中的可行性。  相似文献   

13.
作为一种新兴网络技术,云计算能够为海量信息高效处理提供技术支持,与此同时能够满足网络交易期间虚拟增值资源各项需求.研究利用云计算技术构建了数据挖掘平台,并对其构架及关键技术进行分析,实践证明云计算技术下数据挖掘平台的建构能够实现对大数据集的有效处理,提升数据挖掘效率,可予以广泛推广.  相似文献   

14.
郭有强 《微机发展》2007,17(10):123-126
关联规则挖掘是数据挖掘领域中的重要研究内容之一。由于数据挖掘的过程是动态交互的,因此对已经发现的关联规则进行维护更新显得非常重要。提出了一种实用的在支持度和置信度不变的情况下数据集规模减小的负增量关联规则维护算法。算法在如何减少数据集的扫描次数,如何充分利用现有的信息减少候选集的规模等方面进行了研究,给出了算法的具体实现。理论分析和实验结果表明算法是有效的。  相似文献   

15.
粗集理论能支持数据挖掘与知识发现的多个步骤,如数据预处理、数据简化、规则生成、数据依赖关系获取等,为数据挖掘与知识发现提供了新的思路和方法。本文将粗集理论引入空间数据挖掘领域,介绍了粗集理论的基础理论和一系列方法,给出了应用实例,并探讨粗集理论在空间数据挖掘中的应用。  相似文献   

16.
随着互联网技术的飞速发展,互联网上的数据的获取也变得越来越简单与便捷。然而由于现在互联网云数据的海量性,如何精准有效地从其中获取数据变得尤为重要。针对海量互联网云数据的数据挖掘的技术研究成为不可缺少的网络数据研究领域一部分。因此,本文将数据网页以及内容间的引用与被引用行为抽象为一种关注关系,根据对此关系的分析与综合处理,设计并实现了一种互联网云数据挖掘方法。  相似文献   

17.
面向非平衡训练集分类的随机森林算法优化   总被引:2,自引:0,他引:2  
数据挖掘是当今社会最活跃的研究方向之一,迄今为止数据挖掘技术已经广泛应用到各行各业中,然而在数据挖掘过程中往往会遇到很多非平衡训练集,采用传统的数据挖掘技术对非平衡训练集集进行处理不能得到理想的效果。主要是针对非平衡训练集,对数据进行NCL(Neighborhood Cleaning Rule)技术处理并结合随机森林(Random Forest)算法进行分类,试验结果表明,改进后的随机森林算法分类效果更好。  相似文献   

18.
在关联数据挖掘领域利用RLE(Run-Length Encoding)编码可有效减少动态数据库计算时的数据量,提出了一种新的数据前处理算法,直接对存储器中的编码数据进行数据挖掘,并且在数据快速变化时能够有效更新编码数据,提升处理效能。  相似文献   

19.
简要介绍了入侵检测系统,研究了IDS中入侵检测模型和不确定性数据挖掘方法及过程,对不确定性数据挖掘算法进行了分析评价,并使用KDD CUP 1999数据集在Matlab中进行了实证分析处理及测试。  相似文献   

20.
基于知识网格的数据挖掘   总被引:8,自引:0,他引:8  
魏定国  彭宏 《计算机科学》2006,33(6):210-213
工业、科学、商务等领域的数据通常分布在不同的地方,需要在不同的地点对其进行分布式维护。只有使用计算功能超强的分布式、并行处理系统才能分析这些领域所产生的超大规模数据集。网格为分布式知识发现应用中的计算提供了有效支持。为了在网格上进行数据挖掘的开发,本文提供了一个称之为知识网格的系统,讨论如何应用知识网格设计实施数据挖掘应用,并说明如何搜索网格资源、编制软件和数据组件,以及数据挖掘应用在网格上的执行过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号