首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
李燕  张玉红  胡学钢 《计算机科学》2010,37(12):138-142
具有概念漂移的含噪数据流的分类问题成为数据流挖掘领域研究的热点之一。提出了一种基于C4. 5和Naive I3ayes混合模型的数据流分类算法CDSMM。它以C4.5作为基分类器,采用朴素贝叶斯分类器过滤噪音,同时引入假设检验中的u检验方法检测概念漂移,动态更新模型。实验结果表明,CDSMM算法在处理带有噪音的概念漂移数据流时具有比同类算法更好的分类正确率。  相似文献   

2.
概念漂移数据流挖掘算法综述   总被引:1,自引:0,他引:1  
丁剑  韩萌  李娟 《计算机科学》2016,43(12):24-29, 62
数据流是一种新型的数据模型,具有动态、无限、高维、有序、高速和变化等特性。在真实的数据流环境中,一些数据分布是随着时间改变的,即具有概念漂移特征,称为可变数据流或概念漂移数据流。因此处理数据流模型的方法需要处理时空约束和自适应调整概念变化。对概念漂移问题和概念漂移数据流分类、聚类和模式挖掘等内容进行综述。首先介绍概念漂移的类型和常用概念改变检测方法。为了解决概念漂移问题,数据流挖掘中常使用滑动窗口模型对新近事务进行处理。数据流分类常用的模型包括单分类模型和集成分类模型,常用的方法包括决策树、分类关联规则等。数据流聚类方式通常包括基于k- means的和非基于k- means的。模式挖掘可以为分类、聚类和关联规则等提供有用信息。概念漂移数据流中的模式包括频繁模式、序列模式、episode、模式树、模式图和高效用模式等。最后详细介绍其中的频繁模式挖掘算法和高效用模式挖掘算法。  相似文献   

3.
随着科学技术发展的不断进步,静态数据上的分类技术已不能满足现实情况的需要了。大量的数据都是以数据流的形式出现,本文对这种新数据形式下的分类算法进行了一个综述。所描述的主要算法有:集合分类器、基于需求的数据流分类算法、最近邻数据流分类算法、快速决策树算法。通过学习研究和实验对比结果发现,这些数据流上的分类算法性能完全超过了传统的分类算法。  相似文献   

4.
挖掘带有概念漂移的数据流对于许多实时决策是十分重要的.本文使用统计学理论估计某一确定模型在最新概念上的真实错误率的置信区间,在一定概率保证下检测数据流中是否发生了概念漂移,并将此方法和KMM(核平均匹配)算法引入集成分类器框架中,提出一种数据流分类的新算法WSEC.在仿真和真实数据流上的试验结果表明该算法是有效的.  相似文献   

5.
有关数据流挖掘技术的研究是当前国际数据库研究领域的一个热点,数据流的特点在于数据规模宏大,并快速、持续地到达,对应的挖掘算法只能在内存中单遍扫描样本子集就可以获取相应的知识结构,还需要在一定时间内对学习的结果进行更新以适应数据分布的变化.本文对现有数据流上的挖掘算法进行综述,最后给出了数据流挖掘今后的一些研究方向.  相似文献   

6.
李南  郭躬德  陈黎飞 《计算机应用》2012,32(8):2176-2185
传统的概念漂移数据流分类算法通常利用测试数据的真实类标来检测数据流是否发生概念漂移,并根据需要调整分类模型。然而,真实类标的标记需要耗费大量的人力、物力,而持续不断到来的高速数据流使得这种解决方案在现实中难以实现。针对上述问题,提出一种基于少量类标签的概念漂移检测算法。它根据快速KNNModel算法利用模型簇分类的特点,在未知分类数据类标的情况下,根据当前数据块不被任一模型簇覆盖的实例数目较之前数据块在一定的显著水平下是否发生显著增大,来判断是否发生概念漂移。在概念漂移发生的情况下,让领域专家针对那些少量的不被模型簇覆盖的数据进行标记,并利用这些数据自我修正模型,较好地解决了概念漂移的检测和模型自我更新问题。实验结果表明,该方法能够在自适应处理数据流概念漂移的前提下对数据流进行快速的分类,并得到和传统数据流分类算法近似或更高的分类精度。  相似文献   

7.
基于子空间集成的概念漂移数据流分类算法   总被引:4,自引:2,他引:2  
具有概念漂移的复杂结构数据流分类问题已成为数据挖掘领域研究的热点之一。提出了一种新颖的子空间分类算法,并采用层次结构将其构成集成分类器用于解决带概念漂移的数据流的分类问题。在将数据流划分为数据块后,在每个数据块上利用子空间分类算法建立若干个底层分类器,然后由这几个底层分类器组成集成分类模型的基分类器。同时,引入数理统计中的参数估计方法检测概念漂移,动态调整模型。实验结果表明:该子空间集成算法不但能够提高分类模型对复杂类别结构数据流的分类精度,而且还能够快速适应概念漂移的情况。  相似文献   

8.
近年来,数据流分类问题已经逐渐成为数据挖掘领域的一个研究热点,然而传统的数据流分类算法大多只能处理数据项已知并且为精确值的数据流,无法有效地应用于现实应用中普遍存在的不确定数据流。为建立适应数据不确定性的分类模型,提高不确定数据流分类准确率,提出一种针对不确定数据流的集成分类算法,该算法将不确定数据用区间及其概率分布函数表示,用C4.5决策树分类方法和朴素贝叶斯分类方法训练基分类器,在合理处理数据流中不确定性的同时,还能有效解决数据流中隐含的概念漂移问题。实验结果表明,所提算法在处理不确定数据流的分类时具有较好的鲁棒性,并且具有较高的分类准确率。  相似文献   

9.
本文重点研究了数据流挖掘中存在概念漂移情形的连续属性处理算法。数据流是一种增量、在线、实时的数据模型。VFDT是数据流挖掘中数据呈稳态分布情形下最成功的算法之一;CVFDT是有效解决数据流挖掘中概念漂移问题的算法之一。基于CVFDT,本文提出了有效地解决数据流挖掘中存在概念漂移情形的连续属性处理问题的扩展哈希表算法HashCVFDT。该算法在属性值插入、查找和删除时具有哈希表的快速性,而在选取每个连续属性的最优化划分节点时解决了哈希表不能有序输出的缺点。  相似文献   

10.
针对主动挖掘和被动挖掘2种典型分类方法的特点,分析实际问题中数据流的基本变化类型及衍生的各种变化情况,证明主动挖掘方法在许多情况下无法有效工作,给出一个有效检测数据流变化的思路。采用主动学习方法,利用有限的资源可以组织高质量的类标数据,降低训练数据的需求量。  相似文献   

11.
《Information Fusion》2008,9(3):412-424
Data processing applications for sensor streams have to deal with multiple continuous data streams with inputs arriving at highly variable and unpredictable rates from various sources. These applications perform various operations (e.g. filter, aggregate, join, etc.) on incoming data streams in real-time according to predefined queries or rules. Since the data rate and data distribution fluctuate over time, an appropriate join tree for processing join queries must be adaptively maintained in response to dynamic changes to prevent rapid degradation of the system performance. In this paper, we address the problem of finding an optimal join tree that maximizes throughput for sliding window based multi-join queries over continuous data streams and prove its NP-Hardness. We present a dynamic programming algorithm, OptDP, which produces the optimal tree but runs in an exponential time in the number of input streams. We then present a polynomial time greedy algorithm, XGreedyJoin. We tested these algorithms in ARES, an adaptively re-optimizing engine for stream queries, which we developed by extending Jess (Jess is a popular RETE-based, forward chaining rule engine written in java). For almost all instances, trees from XGreedyJoin perform close to the optimal trees from OptDP, and significantly better than common heuristics-based XJoin algorithms.  相似文献   

12.
连续媒体流的理论模型及缓冲对策研究   总被引:6,自引:0,他引:6  
视频点播服务(VOD)是当前交互式多媒体IMM应用中的热门方向,而视频流的缓冲、控制策略是视频服务技术研究中相当关键的环节。本文试图采用全局的观点,利用恰当的数学工具建立了在网络并行下的请求流工作模型,并结合缓冲机制得到了一些关于媒体流服务的重要结论。同时,结合媒体服务的工作序列,给出了一些优化流控和数据缓冲的方法和策略,最后通过试验验证了该理论模型和结论的可行性。  相似文献   

13.
随着网络的发展和通讯设备的普及,一种新的数据密集型应用逐渐浮出水面,这主要包括:网络监控、电信数据管理、传感器数据监控等。在这些应用中数据采取的是多维的、连续的、快速的、随时间变化的流式数据的形式。同时,这些应用对数据的访问也是多次和连续的,并要求即时的响应,而传统的数据库技术对数据的假设和相应的查询处理技术已经无法适应这种新的应用的要求。因此,文中根据这种流式数据的特征设计了一种新的基于数据流的数据模型,并就今后如何进行数据流管理系统的研究提出一些新的看法。  相似文献   

14.
一种基于多时间粒度的数据流建模方法   总被引:2,自引:0,他引:2       下载免费PDF全文
在很多领域中,越来越多的数据以数据流的形式存在于各种应用当中,这些数据的特点是实时的、连续的、时变的、快速的。由于这些特点,在数据处理方法上引入了很多挑战性问题。本文重点从多时间粒度的角度研究了数据流建模问题,提出了多时间粒度的数据流滑窗建模方法,采用层次窗口模型对数据流进行描述,有效解决了Ad-Hoc查询
中的历史数据管理问题。  相似文献   

15.
基于数据流的移动数据挖掘研究综述*   总被引:1,自引:1,他引:0  
无线网络和移动设备的应用为我们带来巨大的便利,可以随时随地获得信息,同时它也引发了对高效数据流分析工具的需求。移动数据挖掘是在普适环境下的数据流挖掘,从连续的数据流中发现知识。讨论了数据流、数据流管理系统和移动数据挖掘以及它们的特点,介绍了该领域的一些研究成果,突出了面临的挑战和一些相应的策略,并对这些策略进行了比较,最后展望了这一领域的研究前景。  相似文献   

16.
Continuous ranking on uncertain streams   总被引:1,自引:1,他引:0  
Data uncertainty widely exists in many web applications, financial applications and sensor networks. Ranking queries that return a number of tuples with maximal ranking scores are important in the field of database management. Most existing work focuses on proposing static solutions for various ranking semantics over uncertain data. Our focus is to handle continuous ranking queries on uncertain data streams: testing each new tuple to output highly-ranked tuples. The main challenge comes from not only the fact that the possible world space will grow exponentially when new tuples arrive, but also the requirement for low space- and time-complexity to adapt to the streaming environments. This paper aims at handling continuous ranking queries on uncertain data streams. We first study how to handle this issue exactly, then we propose a novel method (exponential sampling) to estimate the expected rank of a tuple with high quality. Analysis in theory and detailed experimental reports evaluate the proposed methods.  相似文献   

17.
Multimedia applications nowadays are becoming prevalent. In the past the relational database model was generalized to the multimedia database model. More recently the relational database model was generalized to the data streams model, as the technology advanced and data became bulky and unbounded in size due to the utilization of sensor networks. In this paper we take one more step of generalization by providing a multimedia data streams model. The objective is to furnish a formal framework to design multimedia data streams (MMDS) schema for efficient content based information retrieval. We also extend the functional dependency theory and the normalization framework to handle multimedia data streams. Finally we present algorithmic methods of generating continuous multimedia queries along with examples for illustration.  相似文献   

18.
随着互联网技术的快速发展,如何处理数据流是各个行业共同面对的一个重要课题.数据流已经广泛应用在股市预测、气象分析、智能交通等各个方向.本文对数据流的特点进行了研究,在了解了数据流的特性之后,针对数据流持续性、速度、规模、无序的特性建立了一个数学模型,针对传统的数据处理方法提出了改进方案.本文的主要工作是将Haar小波、滑动窗口、贪心算法结合,实现数据流的快速处理.  相似文献   

19.
A data stream is a massive, open-ended sequence of data elements continuously generated at a rapid rate. Mining data streams is more difficult than mining static databases because the huge, high-speed and continuous characteristics of streaming data. In this paper, we propose a new one-pass algorithm called DSM-MFI (stands for Data Stream Mining for Maximal Frequent Itemsets), which mines the set of all maximal frequent itemsets in landmark windows over data streams. A new summary data structure called summary frequent itemset forest (abbreviated as SFI-forest) is developed for incremental maintaining the essential information about maximal frequent itemsets embedded in the stream so far. Theoretical analysis and experimental studies show that the proposed algorithm is efficient and scalable for mining the set of all maximal frequent itemsets over the entire history of the data streams.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号