自20世纪90年代以来,射频识别技术RFID开始在各种领域得到应用。近几年,RFID凭借其方便快捷、使用寿命长等优点,在各行业的使用范围迅速扩大,物联网的提出更是加速了RFID的发展,RFID已经成为了20世纪最重要的技术之一。面对RFID产生的海量数据,传统的数据挖掘方式已不再满足信息获取的需要。该文简单介绍了RFID系统,并通过分析RFID数据的特点,对RFID海量数据挖掘做了一些探讨。  相似文献   

为实现数据在同一个地点进行处理而无须移动,介绍一种基于高性能云的分布式数据并行处理方法。使用一个专用的网络服务分层结构,适用于高性能广域网络连接的计算机集群所产生的大型分布式数据集的数据挖掘。实验结果表明,与Hadoop方法相比,该方法的性能有显著提高。  相似文献   

关于分布式、异构、历史遗留数据的数据挖掘研究   总被引:3,自引:0,他引:3  
主要研究在分布式、异构和历史遗留数据库中进行数据挖掘的方法和策略。首先讨论分布式数据库的挖掘方法,在此基础上进行扩展讨论异构数据源的数据挖掘方法;最后,讨论历史遗留数据库的挖掘方法。  相似文献   

随着计算机网络以及数据库技术的深入发展,分布式数据挖掘成为了当今的一大研究热点。然而数据分布除了存储的物理分散性,还有具有背景异质性。本文先介绍分布式数据挖掘和其面临的一些问题,然后由此引出数据背景的异质性,最后用实例研究来说明数据背景异质性对分布式数据挖掘算法的影响。  相似文献   

首先,本文介绍了分布式数据挖掘技术、其研究现状及在林业中的应用前景;其次,设计了一个针对数字林业管护的分布式数据挖掘系统,并详细研究了各个部件的功能及系统的工作原理;最后,选择一个应用环节,引入遗传算法,具体的实现数据挖掘技术在数字林业建设中的应用.  相似文献   

针对现有公安违法取证分析系统存在效率低下、功能单一的问题,提出基于云平台和大数据的违法取证分析系统。利用Mongo DB存储原始海量的车辆轨迹数据,采用MapReduce分布式计算对轨迹数据进行挖掘与筛选,通过大数据平台上的系统调度器对系统各层资源进行有效调度并监控系统运行状态。基于提取的离散轨迹数据对违反规定时间行驶、违法规定路线行驶、疲劳驾驶3种交通违法行为进行取证分析,从而找出违法车辆。实验结果表明,当车辆轨迹数据规模较大时,该系统仍具有较高的运行效率及稳定性。  相似文献   

熊晶  郭磊  高峰 《微机发展》2012,(1):79-82
为解决传统串行检索方式在面对海量数据进行处理和查询时效率低下的问题,提出基于JPPF的分布式并行检索策略。JPPF是一种基于Java的功能强大的并行处理框架,其并行环境易于搭建、简单实用。通过分析JPPF的框架结构和分布式工作流程,利用其在执行队列管理及负载均衡方面的优势,设计和实现了一个基于JPPF的检索系统。采用对比实验的方法,以数据库查询为例,比较了串行检索和JPPF并行检索的效率。实验结果表明在数据规模较大的情况下,JPPF并行方式较之串行方式可以显著提高检索效率。  相似文献   

文章研究企业在数字化时代面临业务数据膨胀的形势下,如何有效分析和处理业务数据,从中提取对企业发展有利的信息。提高企业竞争力。基于数据挖掘技术提出了分析企业业务数据的方法,并基于某知名企业的真实业务数据,分析了企业业务量的数据特征,为企业的资源调配提供理论帮助。  相似文献   

当前,极大熵聚类(maximum entropy clustering,MEC)在面对多视角聚类任务时,是将多视角样本合并成为一个整体样本再进行处理,然而这样会破坏各视角的独立性特征,进而影响最终的划分结果。针对该问题,首先提出多视角协同划分极大熵聚类算法(multi-view collaborative partition MEC,Co MEC),该算法加入一个协调各视角空间划分的约束项,使得每一视角在单独聚类过程中考虑到其他视角的影响;然后通过区分每个视角的重要性将Co MEC算法扩展为视角加权版本,即视角加权协同划分极大熵聚类算法(view weighted collaborative partition MEC,W-Co MEC);最后利用几何均值的集成策略得到全局性的划分结果。在人工数据集以及UCI数据集上的实验结果均显示所提算法较之已有的聚类技术在应对多视角聚类任务时具有更好的聚类性能。  相似文献   

将不完全数据分为了两类:属性值残缺和属性值隐含.对基于这两类不完全数据的数据挖掘方法分别进行了探讨,给出了相应的处理方法,并对这些方法及其应用进行了讨论.属性值残缺的处理主要采用一系列"补漏"的方法,使数据成为完全数据集;属性值隐含的处理则通过EM算法来优化模型的参数,弥补数据的不完全性.  相似文献   

分布式数据挖掘中间层   总被引:3,自引:0,他引:3  
对如何简化机群系统上分布式数据挖掘系统的开发和维护,给出了一个完整的解决方案,并对数据挖掘系统的非算法部分进行深入的研究,给出了数据分布式存储、数据缓冲机制和负载平衡策略3个关键优化技术,并在实际应用中加以实现。  相似文献   

The paper presents a platform for distributed computing, developed using the latest software technologies and computing paradigms to enable big data mining. The platform, called ClowdFlows, is implemented as a cloud-based web application with a graphical user interface which supports the construction and execution of data mining workflows, including web services used as workflow components. As a web application, the ClowdFlows platform poses no software requirements and can be used from any modern browser, including mobile devices. The constructed workflows can be declared either as private or public, which enables sharing the developed solutions, data and results on the web and in scientific publications. The server-side software of ClowdFlows can be multiplied and distributed to any number of computing nodes. From a developer’s perspective the platform is easy to extend and supports distributed development with packages. The paper focuses on big data processing in the batch and real-time processing mode. Big data analytics is provided through several algorithms, including novel ensemble techniques, implemented using the map-reduce paradigm and a special stream mining module for continuous parallel workflow execution. The batch mode and real-time processing mode are demonstrated with practical use cases. Performance analysis shows the benefit of using all available data for learning in distributed mode compared to using only subsets of data in non-distributed mode. The ability of ClowdFlows to handle big data sets and its nearly perfect linear speedup is demonstrated.  相似文献   

不确定性分析是数据挖掘与知识发现的重要内容,对图像纹理特征数据挖掘的基本原理进行了分析、解释,从问题的求解、数据的产生、挖掘的过程以及最终的结果等几个角度分析了图像纹理特征数据挖掘中的不确定性,并讨论了目前不确定性问题分析与处理的若干方法,引入不确定性分析的有力工具--云模型,研究图像纹理特征数据挖掘中的不确定性,并给出了实验结果及分析.  相似文献   

时间序列数据挖掘中特征表示与相似性度量研究综述   总被引:2,自引:1,他引:1  
分别分析了时间序列特征表示和相似性度量在数据挖掘中的作用和意义,对目前已有的主要方法进行了综述,分析各自存在的优缺点;同时,探讨了将来值得关注的问题,为进一步研究时间序列数据的特征表示和相似性度量提供了方向。  相似文献   

隐私保护挖掘是近年来数据挖掘领域的热点之一,主要研究在避免敏感数据泄露的同时在数据中挖掘出潜在的知识。实际应用中,大量的数据分别存放在多个站点,因此分布式隐私保护数据挖掘(distributed privacy preserving data mining, DPPDM)的研究更具有实际意义。对该领域的研究进行了详细的阐述,比较了各种方法的优缺点,对现有方法进行了分类和总结,最后指出了该领域未来的研究方向。  相似文献   

针对电能设备异常并行诊断数据量大、种类繁多等问题,以朴素贝叶斯和Spark为基础,提出一种基于数据挖掘的电能设备异常并行诊断模型.在该模型中,首先对电能计量装置异常数据进行计算,然后采用HDFS+Hive+Spark SQL的方案实现对异常信息的多维分析;应用Spark并行框架搭建朴素贝叶斯并行诊断模型.最后,通过搭建...  相似文献   

Distribution of data and computation allows for solving larger problems and executing applications that are distributed in nature. The grid is a distributed computing infrastructure that enables coordinated resource sharing within dynamic organizations consisting of individuals, institutions, and resources. The grid extends the distributed and parallel computing paradigms allowing for resource negotiation and dynamical allocation, heterogeneity, open protocols, and services. Grid environments can be used both for compute-intensive tasks and data intensive applications by exploiting their resources, services, and data access mechanisms. Data mining algorithms and knowledge discovery processes are both compute and data intensive, therefore the grid can offer a computing and data management infrastructure for supporting decentralized and parallel data analysis. This paper discusses how grid computing can be used to support distributed data mining. Research activities in grid-based data mining and some challenges in this area are presented along with some promising future directions for developing grid-based distributed data mining.  相似文献   


Clustering techniques are very attractive for identifying and extracting patterns of interests from datasets. However, their application to very large spatial datasets presents numerous challenges such as high-dimensionality, heterogeneity, and high complexity of some algorithms. Distributed clustering techniques constitute a very good alternative to the Big Data challenges (e.g., Volume, Variety, Veracity, and Velocity). In this paper, we developed and implemented a Dynamic Parallel and Distributed clustering (DPDC) approach that can analyse Big Data within a reasonable response time and produce accurate results, by using existing and current computing and storage infrastructure, such as cloud computing. The DPDC approach consists of two phases. The first phase is fully parallel and it generates local clusters and the second phase aggregates the local results to obtain global clusters. The aggregation phase is designed in such a way that the final clusters are compact and accurate while the overall process is efficient in time and memory allocation. DPDC was thoroughly tested and compared to well-known clustering algorithms BIRCH and CURE. The results show that the approach not only produces high-quality results but also scales up very well by taking advantage of the Hadoop MapReduce paradigm or any distributed system.  相似文献   

潘定  沈钧毅 《控制与决策》2007,22(3):278-283
基于一阶线性时态逻辑。形式化定义时态数据挖掘中的主要概念。利用线性状态结构对每个时间点上的一阶语言符号进行赋值。并度量公式的真值范围.按照挖掘段概念.开发持续挖掘过程模型,用于归纳局部一阶规则与推导高阶规则.基于信息扩散原理.提出一阶规则的度量值估计方法和规则泛化算法.最后通过算例说明了扩散估计和算法的有效性.  相似文献   

