首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
随着流数据收集大量应用,数据流挖掘是数据挖掘的一个新的研究方向。本文在介绍数据流的基本特点以及分析了数据流对聚类的要求,并对现有高维数据流映射聚类算法的主要思想方法进行了总结。最后对面向高维数据流聚类的发展方向进行了展望。  相似文献   

2.
基于增量式学习的数据流实时分类模型   总被引:1,自引:0,他引:1  
传统数据挖掘方法,主要针对静态数据进行挖掘,而对数据流挖掘往往失效。为了解决数据流的数据挖掘问题,提出一种通过改变传统支持向量机增量式学习方法,利用轮转式结构将多分类器按照数据流时间顺序进行组合,并且通过对分类器的优化,可以提高模型对数据流分类的准确率并减少训练时间消耗。实验结果表明,该模型在保证学习精度和推广能力的同时,提高了训练速度,适合于数据流在线分类和在线学的问题。  相似文献   

3.
基于复杂网络数据流密度的增量子空间数据挖掘算法   总被引:1,自引:0,他引:1  
为了提升在复杂网络中对大规模网络数据流进行挖掘时的准确性,提出一种基于复杂网络数据流密度的增量子空间数据挖掘算法,在算法中先对复杂网络的数据流密度进行分析,并根据不同网络的数据流密度来划分社区,进行无向环路遍历来确定数据流的所属社区.再通过增量子空间数据挖掘算法来计算社区网络与数据流的相关度以及数据流所经过的节点与时间的相关系数,从而准确确定目标数据流所处的节点.通过仿真实验结果和数据分析表明,增量子空间数据挖掘算法的数据挖掘精度在节点、社区数较多的情况下仍达到了较高的挖掘精度.  相似文献   

4.
上世纪末,为适应网络监控、入侵检测、情报分析、商业交易管理和分析等应用的要求,数据流技术应运而生。数据流独特的特点,对传统数据的处理方法带来了很大的挑战。介绍了数据流的有关概念及数据流挖掘的特点,讨论了数据流挖掘的研究现状。最后,举例说明了数据流挖掘的应用,并展望了数据流挖掘未来的研究方向。  相似文献   

5.
数据流挖掘分类技术综述   总被引:7,自引:0,他引:7  
数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点,并有着广泛的应用前景.数据流具有数据持续到达、到达速度快、数据规模巨大等特点,因此需要新颖的算法来解决这些问题.而数据流挖掘的分类技术更是当前的研究热点.综述了当前国际上关于数据流挖掘分类算法的研究现状,并从数据平稳分布和带概念漂移两个方面对这些方法进行了系统的介绍与分析,最后对数据流挖掘分类技术当前所面临的问题和发展趋势进行了总结和展望.  相似文献   

6.
在当今的网络监控、电信数据管理、传感器数据监控等应用中,数据采取的是多维的、连续的、快速的、随时间变化的流式数据的形式,对数据的访问也是多次和连续的,并要求即时的响应。数据流独特的特点,对传统数据的处理方法带来很大的挑战。数据流应用的出现,带动了相关技术的研究,其中包括数据流挖掘的研究。文中介绍了数据流的基本概念,讨论了数据流挖掘的研究现状及相关技术,包括数据流的介绍、流行的数据流处理技术和数据挖掘中的相关算法。  相似文献   

7.
围绕挖掘动态数据流频繁模式问题,详细讨论数据流管理模型和挖掘技术;设计兼容网格基础结构、支持多种挖掘策略的数据挖掘网格平台;发展伺机挖掘思想,根据局部数据流片段的特性不断地调整存储结构和变换搜索方式,解决效率与空间的矛盾,提高微观效率;应用网格技术有效地利用计算资源进行分布式挖掘,提高宏观效率。  相似文献   

8.
数据流本身的特点使得静态挖掘方法不再满足要求。国内外学者已提出许多新的挖掘数据流频繁模式的方法和技术。对这些技术和算法进行了综述。首先介绍数据流的概念和特点,分析国内外的研究现状,总结了数据流中挖掘频繁模式的特点,并列出挖掘方法的常用技术和基于这些技术的代表性算法,最后讨论了将来的研究方向。  相似文献   

9.
随着数据流应用领域的不断扩大,数据流频繁模式挖掘技术逐渐成为数据挖掘领域研究的核心问题。对DSFPM算法进行研究和改进,提出了一种基于界标窗口的数据流频繁模式挖掘算法DSMFP_LW。该算法实现了单边扫描数据流;利用扩展的前缀模式树存储全局临界频繁模式,实现数据增量更新。通过对比实验,结果证明DSMFP_LW算法有较好的时间开销和空间利用率,优于经典的Lossy Counting算法,适合数据流频繁模式挖掘。  相似文献   

10.
数据流挖掘是当前数据挖掘研究的一个热点,概念漂移检测是数据流挖掘的一个重要研究方向.虽然有不少概念漂移的探测方法,但是它们都有一些共同的缺陷:没有整体上删除冗余属性以及利用外部属性去探测概念漂移(比如利用对外部数据的分类准确率)等.利用粗糙集和F-粗糙集的基本原理和基本方法,把数据流中的滑动窗口当成决策子表簇,提出了一种对数据流进行并行约简、整体删除冗余属性的方法,并运用并行约简后数据流决策子表簇中属性重要性的变化探测概念漂移现象.与传统的方法不同,新方法利用数据的内部特性对概念漂移进行探测.实验结果显示,该方法能够有效地整体删除冗余属性、探测概念漂移现象,并且基于互信息的属性重要性在概念漂移探测效果方面比基于正区域的属性重要性要好些.  相似文献   

11.
韩萌  丁剑 《计算机应用》2019,39(3):719-727
一些先进应用如欺诈检测和趋势学习等带来了数据流频繁模式挖掘的发展。不同于静态数据,数据流挖掘面临着时空约束和项集组合爆炸等问题。对已有数据流频繁模式挖掘算法进行综述并对经典和最新算法进行分析。按照模式集合的完整程度进行分类,数据流中频繁模式分为全集模式和压缩模式。压缩模式主要包括闭合模式、最大模式、top-k模式以及三者的组合模式。不同之处是闭合模式是无损压缩的,而其他模式是有损压缩的。为了得到有趣的频繁模式,可以挖掘基于用户约束的模式。为了处理数据流中的新近事务,将算法分为基于窗口模型和基于衰减模型的方法。数据流中模式挖掘常见的还包含序列模式和高效用模式,对经典和最新算法进行介绍。最后给出了数据流模式挖掘的下一步工作。  相似文献   

12.
数据流中基于矩阵的频繁项集挖掘   总被引:3,自引:0,他引:3       下载免费PDF全文
挖掘频繁项集是挖掘数据流的基本任务。许多近似算法能够有效地对数据流进行频繁项挖掘,但不能有效地控制内存资源消耗和挖掘运行时间。为了提高数据流频繁项集挖掘的时空效率,通过引入矩阵作为概要数据结构,提出了一种新的数据流频繁项集挖掘算法。最后通过实验证明了该算法的有效性。  相似文献   

13.
由于数据流不同于传统静态数据的特点,对其进行有效的分析和挖掘遇到了极大的挑战。本文对近年来数据流挖掘方面的进展进行了综述,介绍数据流的基本概念、数据流模型和对数据流的概要描述,总结数据流挖掘中常用的算法,最后结合其在不同领域中的应用对数据流挖掘的意义进行分析。  相似文献   

14.
一种混合属性数据流聚类算法   总被引:5,自引:0,他引:5  
杨春宇  周杰 《计算机学报》2007,30(8):1364-1371
数据流聚类是数据流挖掘中的重要问题.现实世界中的数据流往往同时具有连续属性和标称属性,但现有算法局限于仅处理其中一种属性,而对另一种采取简单舍弃的办法.目前还没有能在算法层次上进行混合属性数据流聚类的算法.文中提出了一种针对混合属性数据流的聚类算法;建立了数据流到达的泊松过程模型;用频度直方图对离散属性进行了描述;给出了混合属性条件下微聚类生成、更新、合并和删除算法.在公共数据集上的实验表明,文中提出的算法具有鲁棒的性能.  相似文献   

15.
挖掘频繁项集是挖掘数据流的基本任务.许多近似算法能够对数据流进行频繁项集的挖掘,但不能有效控制内存资源消耗和挖掘运行时间.为了提高数据流挖掘的效率,通过挖掘数据流中的频繁闭项集来减少挖掘结果项集的数量,并借鉴Relim算法和Manku算法,引入事务链表组作为概要数据结构,提出了一种新的数据流频繁闭项集的挖掘算法.最后通过实验,证明了该算法的有效性.  相似文献   

16.
为了有效解决传统的数据分类算法不能很好的适应数据流的数据无限性和概念漂移性带来的问题,提出了一种实时的数据流的挖掘算法.贝叶斯数据流分类算法充分考虑了离散属性和连续属性的不同处理,对时间窗口内的数据进行压缩,然后根据各个时间窗口的权重,重组了压缩后的数据并在重组后的压缩数据上学习和生成了单个贝叶斯分类器.实验结果表明,该算法在分类性能、分类准确率、分类速度上优于同类算法.  相似文献   

17.
数据流高效用模式挖掘方法是以二进制的频繁模式挖掘方法为前提,引入项的内部效用和外部效用,在模式挖掘过程中可以考虑项的重要性,从而挖掘更有价值的模式。从关键窗口技术、常用方法、表示形式等角度对数据流高效用模式挖掘方法进行分析并总结其相关算法,从而研究其特点、优势、劣势以及其关键问题所在。具体来说,说明了数据流高效用模式常用的概念;对处理数据流高效用模式的关键窗口技术进行了分析,涉及到滑动、衰减、界标和倾斜窗口模型;研究了一阶段和两阶段的数据流高效用模式挖掘方法;分析了高效用模式的表示形式,即完全高效用模式和压缩高效用模式;介绍了其他的数据流高效用模式,包括序列高效用模式、混合高效用模式以及高平均效用模式等;最后展望了数据流高效用模式挖掘的进一步研究方向。  相似文献   

18.
挖掘数据流最近时间窗口内频繁模式   总被引:1,自引:0,他引:1  
由于流数据的流动性与连续性,传统的频繁模式挖掘算法不能直接应用于数据流频繁模式挖掘.挖掘数据流上最近的频繁模式算法使用模式树RFP-tree增量维护数据流上最近的频繁模式,且仅需单次扫描流数据;另外,保守计算策略保证模式挖掘的正确性.仿真试验结果显示,该算法的效率优于其它同类算法.  相似文献   

19.
数据流分类是数据挖掘领域的重要研究任务之一,已有的数据流分类算法大多是在有标记数据集上进行训练,而实际应用领域数据流中有标记的数据数量极少。为解决这一问题,可通过人工标注的方式获取标记数据,但人工标注昂贵且耗时。考虑到未标记数据的数量极大且隐含大量信息,因此在保证精度的前提下,为利用这些未标记数据的信息,本文提出了一种基于Tri-training的数据流集成分类算法。该算法采用滑动窗口机制将数据流分块,在前k块含有未标记数据和标记数据的数据集上使用Tri-training训练基分类器,通过迭代的加权投票方式不断更新分类器直到所有未标记数据都被打上标记,并利用k个Tri-training集成模型对第k+1块数据进行预测,丢弃分类错误率高的分类器并在当前数据块上重建新分类器从而更新当前模型。在10个UCI数据集上的实验结果表明:与经典算法相比,本文提出的算法在含80%未标记数据的数据流上的分类精度有显著提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号