首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对数据流上变化的挖掘问题,提出了算法NBCC,首先利用精确抽样的方法对数据流构建概要数据结构,然后借鉴经典朴素贝叶斯分类方法的思想,将训练样本集分成Ci类,i=1,2,…,m。对测试样本集设定一个阈值!:当P(Ci|X)相似文献   

2.
近年来,数据流挖掘越来越引起研究人员的关注,已逐渐成为许多领域有用的工具。如何利用有限的存储空间高效地挖掘出频繁模式已成为数据流挖掘的基本问题,具有很强的现实意义和理论价值。在论述数据流管理系统模型的基础上,深入分析了国内外的各种频繁模式挖掘算法,并指出这些算法的特点及其局限性。最后对未来的研究方向进行了展望。  相似文献   

3.
程转流  王本年 《微机发展》2007,17(12):53-55
近年来,数据流挖掘越来越引起研究人员的关注,已逐渐成为许多领域有用的工具。如何利用有限的存储空间高效地挖掘出频繁模式已成为数据流挖掘的基本问题,具有很强的现实意义和理论价值。在论述数据流管理系统模型的基础上,深入分析了国内外的各种频繁模式挖掘算法,并指出这些算法的特点及其局限性。最后对未来的研究方向进行了展望。  相似文献   

4.
挖掘数据流中的频繁模式   总被引:18,自引:1,他引:17  
发现数据流中的频繁项是数据流挖掘中最基本的问题之一.数据流的无限性和流动性使得传统的频繁模式挖掘算法难以适用.针对数据流的特点,在借鉴FP-growth算法的基础上,提出了一种数据流频繁模式挖掘的新方法:FP-DS算法.算法采用数据分段的思想,逐段挖掘频繁项集,用户可以连续在线获得当前的频繁项集,可以有效地挖掘所有的频繁项集,算法尤其适合长频繁项集的挖掘.通过引入误差ε,裁减了大量的非频繁项集,减少了数据的存储量,也能保证整个数据集中项目集支持度误差不超过ε. 分析和实验表明算法有较好的性能.  相似文献   

5.
面向分布式数据流大数据分类的多变量决策树   总被引:1,自引:0,他引:1  
张宇  包研科  邵良杉  刘威 《自动化学报》2018,44(6):1115-1127
分布式数据流大数据中的类别边界不规则且易变,因此基于单变量决策树的集成分类器需要较大数量的基分类器才能准确地近似表达类别边界,这将降低集成分类器的学习与分类性能.因而,本文提出了基于几何轮廓相似度的多变量决策树.在最优基准向量的引导下将n维空间样本点投影到一维空间以建立有序投影点集合,然后通过类别投影边界将有序投影点集合划分为多个子集,接着分别对不同类别集合的交集递归投影分裂,最终生成决策树.实验表明,本文提出的多变量决策树GODT具有很高的分类精度和较低的训练时间,有效结合了单变量决策树学习效率高与多变量决策树表示能力强的优点.  相似文献   

6.
数据流中频繁闭合模式的挖掘   总被引:2,自引:2,他引:0       下载免费PDF全文
频繁闭合模式集可唯一确定频繁模式完全集。根据数据流的特点,提出一种挖掘频繁闭合项集的算法,该算法将数据流分段,用DSFCI_tree动态存储潜在频繁闭合项集,对每一批到来的数据流,建立局部DSFCI_tree,进而对全局DSFCI_tree进行更新并剪枝,从而有效地挖掘整个数据流中的频繁闭合模式。实验表明,该算法具有良好的时间和空间效率。  相似文献   

7.
随着通信技术和硬件设备的不断发展,尤其是小型无线传感设备的广泛应用,数据采集和生成技术变得越来越便捷和趋于自动化,研究人员正面临着如何管理和分析大规模动态数据集的问题。能够产生数据流的领域应用已经非常普通,例如传感器网络、金融证券管理、网络监控、Web日志以及通信数据在线分析等新型应用。这些应用的特征是环境配备有多个分布式计算节点;这些节点往往临近于数据源;分析和监控这种环境下的数据,往往需要对挖掘任务、数据分布、数据流入速率和挖掘方法有一定的了解。综述了分布式数据流挖掘的当前进展概况,并展望了未来可能的、潜在的专题研究方向。  相似文献   

8.
回归的能源有效网络大数据流汇聚算法研究   总被引:1,自引:0,他引:1  
为了降低传感器网络数据流汇聚时的能源消耗,提出了一种基于回归的能源有效数据流汇聚算法;首先,将传感器节点分为活跃节点和能源有效节点;然后,以活跃节点为中心点将所有节点进行聚类,并应用回归方法通过活跃节点的数据流对能源有效节点的数据进行预测;接下来,通过节点预测值的累积误差不断修正活跃节点集;最后,应用活跃节点的数据流信息对能源有效节点的数据进行预测;实验表明,提出的算法与其它相关算法相比具有更好的预测准确性。  相似文献   

9.
离群点检测是数据挖掘领域的一个重要分支,当前数据流的离群点检测研究越来越受到关注.为了快速准确地检测出数据流中离群点,提出一种在线数据流离群点检测算法ODDS(outlier detection in online data stream s).它利用数据与频繁模式的相异程度来度量数据的离群程度,通过构建ODDS-Tree树,能动态地更新数据流中候选离群点的离群信息.实验结果验证了该算法与其他同类算法相比具有较高的效率与优良的可扩展性能.  相似文献   

10.
一种基于双层窗口的概念漂移数据流分类算法   总被引:1,自引:0,他引:1  
数据流中概念漂移问题的研究已成为近年来流数据挖掘领域的研究热点之一. 已有的研究工作多依据单窗口中错误率的变化来检测概念漂移,难以适应不同类型的漂移. 为此, 本文提出一种新的基于双层窗口机制的数据流分类算法(Double-windows-based classification algorithm for concept drifting data streams, DWCDS),该算法采用随机决策树模型构建集成分类器, 利用双层窗口机制周期性地检测滑动窗口中流数据分布的变化,并动态地更新模型以适应概念漂移. 分析与实验结果表明: 该算法可以快速有效地跟踪检测含噪数据流中的概念漂移,且抗噪性能与分类精度显著提高.  相似文献   

11.
针对不平衡噪声数据流的分类问题,本文利用基于平均概率的集成分类器AP与抽样技术,提出了一种处理不平衡噪声数据流的集成分类器(IMDAP)模型。实验结果表明,该集成分类器更能适应存在概念漂移与噪声的不平衡数据流挖掘分类,其整体分类性能优于AP集成分类器模型,能明显提升少数类的分类精度,并且具有与AP相近的时间复杂度。  相似文献   

12.
挖掘滑动窗口中的数据流频繁模式   总被引:2,自引:0,他引:2  
随着数据流应用的不断增多,数据流环境下的数据挖掘技术受到了越来越多的关注.文章结合数据流的特点,提出一种新的基于滑动窗口的频繁模式挖掘算法:DSFPM.算法分块挖掘数据流,在内存中维持一个用于保存所有潜在的频繁模式信息的存储结构DSFPM-Tree,并在各个基本窗口进入滑动窗口后动态更新该存储结构.算法仅处理和保存各个基本窗口的临界频繁闭合项集,极大地提高了时间和空间效率.实验结果表明,该算法具有良好的性能.  相似文献   

13.
数据流频繁模式挖掘算法设计   总被引:1,自引:0,他引:1  
介绍了数据流频繁模式的概念和定义,提出了数据流频繁模式挖掘算法的通用数据流处理模型,详细总结了数据流频繁模式挖掘算法的三种分类方式:"窗口模型"、"结果集类型"和"结果集精确性".基于这些分类方法提出了数据流频繁模式挖掘算法的设计立方体,该立方体不仅涵盖了现有的数据流频繁模式挖掘算法,还对设计新的算法具有指导意义.基于设计立方体,分析了设计算法时应当采取的有效策略,旨在为设计新算法提供一个有力参考.最后讨论了数据流频繁模式挖掘的进一步研究工作.  相似文献   

14.
数据流频繁模式挖掘研究进展   总被引:24,自引:3,他引:21  
现实世界和工程实践产生了大量的数据流,这种数据不同于传统的静态数据,对其进行有效处理和挖掘遇到了极大的挑战.如何使用有限存储空间进行快速和近似的频繁模式挖掘是数据流挖掘的基本问题,具有非常重要的研究价值和实践意义,已经引起了国内外研究者的广泛关注.本文深入分析数据流中的频繁模式挖掘,对其特点和算法进行较为全面的总结和分类论述,并讨论了存在的主要问题和未来的研究方向.  相似文献   

15.
We have been developing signature-based methods in the telecommunications industry for the past 5 years. In this paper, we describe our work as it evolved due to improvements in technology and our aggressive attitude toward scale. We discuss the types of features that our signatures contain, nuances of how these are updated through time, our treatment of outliers, and the trade-off between time-driven and event-driven processing. We provide a number of examples, all drawn from the application of signatures to toll fraud detection.  相似文献   

16.
孙胜 《现代计算机》2006,(7):16-18,26
介绍了Oracle数据挖掘的基本概念与组成部分,探讨了利用ODM工具进行分类的方法和基本过程,对ODM中用到的各种分类算法做出详细的分析与比较.  相似文献   

17.
于彦伟  王欢  王沁  赵金东 《软件学报》2015,26(5):1113-1128
提出一种基于密度的簇结构挖掘算法(mining density-based clustering structure over data streams,简称MCluStream),以解决数据流密度聚类中输入参数选择困难和重叠簇识别等问题.首先,设计了一种树拓扑CR-Tree索引结构,将直接核心可达的一对数据点映射成树结构中的父子关系,蕴含了数据点依赖关系的CR-Tree涵盖了一系列subEps参数下的基于密度的簇结构;其次,MCluStream算法采用滑动窗口的方式更新CR-Tree,在线维护当前窗口上的簇结构,实现了对海量数据流的快速演化聚类分析;再次,设计了一种快速从CR-Tree提取簇结构的方法,根据可视化的簇结构,选择合理的聚类结果;最后,在真实和合成海量数据上的实验验证了MCluStream算法具有有效的挖掘效果、较高的聚类效率和较小的空间开销.MCluStream可适用于海量数据流应用中自适应的密度聚类演化 分析.  相似文献   

18.
陶克  王意洁 《计算机工程》2010,36(18):49-51
针对频繁闭项集挖掘算法中数据结构与处理机制复杂的问题,提出窗口快速滑动的数据流频繁闭项集挖掘算法——MFWSR。算法通过采用紧致的数据结构和简化的判断过程提高时空效率,支持响应不同用户支持度阈值的查询。实验结果表明,在保持已有算法精度的情况下,MFWSR具有更高的时空效率。  相似文献   

19.
Clustering Text Data Streams   总被引:2,自引:0,他引:2       下载免费PDF全文
Clustering text data streams is an important issue in data mining community and has a number of applica- tions such as news group filtering,text crawling,document organization and topic detection and tracing etc.However, most methods axe similaxity-based approaches and only use the TF*IDF scheme to represent the semantics of text data and often lead to poor clustering quality.Recently,researchers argue that semantic smoothing model is more efficient than the existing TF*IDF scheme for improving text clus...  相似文献   

20.
Parallel Formulations of Decision-Tree Classification Algorithms   总被引:5,自引:0,他引:5  
Classification decision tree algorithms are used extensively for data mining in many domains such as retail target marketing, fraud detection, etc. Highly parallel algorithms for constructing classification decision trees are desirable for dealing with large data sets in reasonable amount of time. Algorithms for building classification decision trees have a natural concurrency, but are difficult to parallelize due to the inherent dynamic nature of the computation. In this paper, we present parallel formulations of classification decision tree learning algorithm based on induction. We describe two basic parallel formulations. One is based on Synchronous Tree Construction Approach and the other is based on Partitioned Tree Construction Approach. We discuss the advantages and disadvantages of using these methods and propose a hybrid method that employs the good features of these methods. We also provide the analysis of the cost of computation and communication of the proposed hybrid method. Moreover, experimental results on an IBM SP-2 demonstrate excellent speedups and scalability.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号