首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
提出了基于数据抽取器的知识发现模型。在模型中,将知识发现过程分成数据预处理、数据抽取、数据挖掘和结果分析四个阶段。该模型利用标准的SQL语言构造数据抽取器,为不同的学习算法准备数据,减少数据挖掘算法对数据库直接调用的次数,避免了直接对大型数据库的数据进行调用,使得对大型数据库进行快速数据挖掘成为可能。可以加快知识发现过程,提高数据挖掘效率,实现对于大型数据库的知识发现。最后设计了SQL-C4.5算法,该算法实现了利用数据抽取器为决策树算法C4.5抽取必要的统计数据,实现了C4.5决策树的构建。  相似文献   

2.
基于数据挖掘的瓦斯灾害信息融合模型的研究   总被引:1,自引:0,他引:1  
数据挖掘和信息融合是2种功能不同的处理数据的过程,2种方法虽然原理不同,但在功能上可以相互弥补。介绍了基于数据挖掘技术建立信息融合模型的原理和算法,研究了基于模糊粗糙集的数据挖掘算法建立瓦斯灾害信息融合模型的方法,并对所建模型进行误差曲线仿真分析。  相似文献   

3.
流数据的聚类算法是当前数据挖掘的研究热点之一。本文在分析两层流数据聚类框架的基础上,引入了动微簇、成长簇等概念和FRG思想,提出了Growstream算法,更能反映出流数据的动态特性。  相似文献   

4.
随着计算机、数据仓库等技术的发展,数据挖掘在电信、银行等行业中得到了越来越广泛的应用.本文提出了应用PMML标准实现不同数据挖掘模型、工具间数据的传递的方法,同时将工作流应用到数据挖掘系统中,实现了由用户定制数据挖掘过程和选择算法的功能,解决了多个数据挖掘模型、算法间的互操作问题,同时运用工作流增强了数据挖掘系统用户自主定制和选择的能力.  相似文献   

5.
描述了离群数据挖掘的基本理论以及经典算法,提出附加约束的基于规则的离群数据挖掘算法,并根据过去几十年数据的特点,提出了一种运用离群数据挖掘进行病虫害预测的模型。实验证明,通过对实际病虫害气象数据进行挖掘,预测的结果合理,预测效率提高。  相似文献   

6.
描述了离群数据挖掘的基本理论以及经典算法,提出附加约束的基于规则的离群数据挖掘算法,并根据过去几十年数据的特点,提出了一种运用离群数据挖掘进行病虫害预测的模型。实验证明,通过对实际病虫害气象数据进行挖掘,预测的结果合理,预测效率提高。  相似文献   

7.
近几年来,流数据成为主流的数据形式之一。如网络入侵监测数据,股票数据等都是不断变化的流数据。聚类作为数据挖掘领域的主要技术手段之一,因此流数据的聚类也受到了众多学者的广泛关注。而流数据不同于静态数据的特性给流数据的聚类带来了挑战。本文总结了传统数据的聚类算法和流数据聚类挖掘的研究方法,并提出了对未来将群智能应用于流数据聚类算法的展望。  相似文献   

8.
为了解决具有密度高、关联复杂的异构大数据网络的数据挖掘效率低下问题,基于多维关联架构,结合细粒度控制提出了数据挖掘算法.首先,在异构大数据网络存储与转发、处理的数据个性特征和差异化的基础上,给出了异构大数据网络数据定义和多维关联模型.接着,基于大数据网络多维关联初始化进程,通过大数据单位重构、维度置换、细粒度化和粒度均衡等,提出了多维关联细粒度数据挖掘算法.最后,通过与粗粒度算法、线性化结构数据挖掘算法对比了在不同网络规模和数据规模下的执行效率.实验结果表明,所提算法具有更佳的执行效率.  相似文献   

9.
基于数据挖掘的知识获取与发现   总被引:9,自引:0,他引:9  
利用数据挖掘技术,提出一种从局部模式向全局模式进行数据融合的模型,并对局部模式的数据挖掘进行了探讨,提出基于事实的物理维度和基于事实数据信息的两种不同出发点的分类聚类模型与算法,并对两者作出了比较,结果是在实际应用中均能较好地解决问题,能起到辅助决策的功能。  相似文献   

10.
本文提出一种基于粗糙集理论的数据挖掘模型,从实际数据出发,运用不同简化层次的算法,导出每个层次上的信息集,最后得到规则集。在进行推理和决策分析时,按照一定算法进行匹配得出结论。还给出了模拟例子说明如何建立和运用这种数据挖掘模型。  相似文献   

11.
数据流本身的特点使得静态挖掘方法不再满足要求。国内外学者已提出许多新的挖掘数据流频繁模式的方法和技术。对这些技术和算法进行了综述。首先介绍数据流的概念和特点,分析国内外的研究现状,总结了数据流中挖掘频繁模式的特点,并列出挖掘方法的常用技术和基于这些技术的代表性算法,最后讨论了将来的研究方向。  相似文献   

12.
数据流频繁模式挖掘研究进展   总被引:21,自引:3,他引:21  
现实世界和工程实践产生了大量的数据流,这种数据不同于传统的静态数据,对其进行有效处理和挖掘遇到了极大的挑战.如何使用有限存储空间进行快速和近似的频繁模式挖掘是数据流挖掘的基本问题,具有非常重要的研究价值和实践意义,已经引起了国内外研究者的广泛关注.本文深入分析数据流中的频繁模式挖掘,对其特点和算法进行较为全面的总结和分类论述,并讨论了存在的主要问题和未来的研究方向.  相似文献   

13.
数据流挖掘算法研究综述   总被引:18,自引:3,他引:15  
蒋盛益  李庆华  李新 《计算机工程与设计》2005,26(5):1130-1132,1169
流数据挖掘是数据挖掘的一个新的研究方向,已逐渐成为许多领域的有用工具。在介绍数据流的基本特点以及数据流挖掘的意义的基础上,对现有数据流挖掘算法的主要思想方法进行了总结,并指出了这些方法的局限性。最后对数据流挖掘的发展方向进行了展望。  相似文献   

14.
概念漂移数据流挖掘算法综述   总被引:1,自引:0,他引:1  
丁剑  韩萌  李娟 《计算机科学》2016,43(12):24-29, 62
数据流是一种新型的数据模型,具有动态、无限、高维、有序、高速和变化等特性。在真实的数据流环境中,一些数据分布是随着时间改变的,即具有概念漂移特征,称为可变数据流或概念漂移数据流。因此处理数据流模型的方法需要处理时空约束和自适应调整概念变化。对概念漂移问题和概念漂移数据流分类、聚类和模式挖掘等内容进行综述。首先介绍概念漂移的类型和常用概念改变检测方法。为了解决概念漂移问题,数据流挖掘中常使用滑动窗口模型对新近事务进行处理。数据流分类常用的模型包括单分类模型和集成分类模型,常用的方法包括决策树、分类关联规则等。数据流聚类方式通常包括基于k- means的和非基于k- means的。模式挖掘可以为分类、聚类和关联规则等提供有用信息。概念漂移数据流中的模式包括频繁模式、序列模式、episode、模式树、模式图和高效用模式等。最后详细介绍其中的频繁模式挖掘算法和高效用模式挖掘算法。  相似文献   

15.
邓维维  彭宏 《计算机科学》2007,34(9):125-127
数据流的聚类作为聚类的一个分支,已经成为了数据挖掘的研究热点。虽然已经有不少数据流算法出现,但是大部分都是针对低维的数值型数据,很少有高维文本流的研究。本文在传统的数据流聚类框架基础上,提出了一种新的文本微聚类结构体,它更适合文本聚类,同时还将在线微聚类分为潜在微聚类和异常微聚类,提高了对孤立点的适应能力。实验表明该算法相对于其他文本流聚类算法更有效。  相似文献   

16.
由于数据流不同于传统静态数据的特点,对其进行有效的分析和挖掘遇到了极大的挑战。本文对近年来数据流挖掘方面的进展进行了综述,介绍数据流的基本概念、数据流模型和对数据流的概要描述,总结数据流挖掘中常用的算法,最后结合其在不同领域中的应用对数据流挖掘的意义进行分析。  相似文献   

17.
DSM-FI: an efficient algorithm for mining frequent itemsets in data streams   总被引:4,自引:4,他引:0  
Online mining of data streams is an important data mining problem with broad applications. However, it is also a difficult problem since the streaming data possess some inherent characteristics. In this paper, we propose a new single-pass algorithm, called DSM-FI (data stream mining for frequent itemsets), for online incremental mining of frequent itemsets over a continuous stream of online transactions. According to the proposed algorithm, each transaction of the stream is projected into a set of sub-transactions, and these sub-transactions are inserted into a new in-memory summary data structure, called SFI-forest (summary frequent itemset forest) for maintaining the set of all frequent itemsets embedded in the transaction data stream generated so far. Finally, the set of all frequent itemsets is determined from the current SFI-forest. Theoretical analysis and experimental studies show that the proposed DSM-FI algorithm uses stable memory, makes only one pass over an online transactional data stream, and outperforms the existing algorithms of one-pass mining of frequent itemsets.
Suh-Yin LeeEmail:
  相似文献   

18.
基于数据流的移动数据挖掘研究综述   总被引:1,自引:1,他引:0  
无线网络和移动设备的应用为我们带来巨大的便利,可以随时随地获得信息,同时它也引发了对高效数据流分析工具的需求。移动数据挖掘是在普适环境下的数据流挖掘,从连续的数据流中发现知识。讨论了数据流、数据流管理系统和移动数据挖掘以及它们的特点,介绍了该领域的一些研究成果,突出了面临的挑战和一些相应的策略,并对这些策略进行了比较,最后展望了这一领域的研究前景。  相似文献   

19.
A data stream is a massive and unbounded sequence of data elements that are continuously generated at a fast speed. Compared with traditional approaches, data mining in data streams is more challenging since several extra requirements need to be satisfied. In this paper, we propose a mining algorithm for finding frequent itemsets over the transactional data stream. Unlike most of existing algorithms, our method works based on the theory of Approximate Inclusion–Exclusion. Without incrementally maintaining the overall synopsis of the stream, we can approximate the itemsets’ counts according to certain kept information and the counts bounding technique. Some additional techniques are designed and integrated into the algorithm for performance improvement. Besides, the performance of the proposed algorithm is tested and analyzed through a series of experiments.  相似文献   

20.
韩萌  丁剑 《计算机应用》2019,39(3):719-727
一些先进应用如欺诈检测和趋势学习等带来了数据流频繁模式挖掘的发展。不同于静态数据,数据流挖掘面临着时空约束和项集组合爆炸等问题。对已有数据流频繁模式挖掘算法进行综述并对经典和最新算法进行分析。按照模式集合的完整程度进行分类,数据流中频繁模式分为全集模式和压缩模式。压缩模式主要包括闭合模式、最大模式、top-k模式以及三者的组合模式。不同之处是闭合模式是无损压缩的,而其他模式是有损压缩的。为了得到有趣的频繁模式,可以挖掘基于用户约束的模式。为了处理数据流中的新近事务,将算法分为基于窗口模型和基于衰减模型的方法。数据流中模式挖掘常见的还包含序列模式和高效用模式,对经典和最新算法进行介绍。最后给出了数据流模式挖掘的下一步工作。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号