首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
基于Multi—agents系统的分布式数据挖掘   总被引:3,自引:0,他引:3  
计算机网络的发展以及海量数据的分布式存储,滋生了分布式数据挖掘(DDM)这一新的数据挖掘方式。本文针对多agent系统下的分布式数据挖掘进行了初步的研究,对agent方法用于DDM的优势、基于agents的分布式数据挖掘的问题,以及典型的基于agent的分布式数据挖掘系统和该领域的进一步研究方向作了一个概要的综述。  相似文献   

2.
随着经济的快速发展,当前很多企业构成了产业链,通过对其进行分布式的商务智能分析,能够获取很多有价值的信.研究了适用于产业链型数据的大规模分布式隐私保护数据挖掘架构,重点研究基于安全多方计算技术的分布式隐私保护数据挖掘通用算法组件,特别是研究面向产业链型数据的分布式隐私保护数据挖掘算法.该研究不仅将有助于大规模分布式环境下的隐私保护数据挖掘系统的研发,而且能够达到更好地服务经济的目的.  相似文献   

3.
随着信息技术的不断发展,传统的主要面向集中的数据源的数据挖掘系统已经不能满足时代发展的需要,web分布式数据挖掘技术应运而生,作为新兴的数据挖掘技术,建立了分布式计算平台,解决了传统数据挖掘技术中常见的操作困难、效率低、传输过程中安全性不能得到保证等问题。在web服务的基础上建立的分布式数据挖掘体系,可以挖掘出分布式异构环境下的大量数据,并且对数据隐私保护起着重要的作用。这样不仅使分布式数据挖掘系统处理大规模分布式异构数据得到用户的满足,也大大提高了系统的安全性、可扩展性、可交互性等。本文内容主要涉及到web服务、web挖掘技术的概念、于Web服务的分布式数据挖掘体系结构。  相似文献   

4.
信用评估往往需要多个机构和部门共同提供关于某客户的信用资料,来评定客户信用。对于这些分布于不同场地的信息源。分布式数据挖掘就显得尤为摘要。分布式数据挖掘是出于安全性、容错性、商业竞争以及法律约束等多方面因素的考虑,在许多情况下,将所有数据集中在一起进行分析往往是不可行的。分布式数据挖掘系统则可以充分利用分布式计算的能力对相关的数据进行分析与综合。本文就客户信用评估中如何应用分布式数据挖掘进行了深入的探讨,具有一定的参考价值。  相似文献   

5.
分布式数据挖掘模型假定数据源分布在多个站点上,而各站点在进行分布式数据挖掘的同时需要隐藏私有数据以便保持隐私。本文将多方计算与数据挖掘技术相结合,在两点积运算的基础上提出安全的两点积运算公式,并将其简化,使得分布式挖掘算法的效能与集中式挖掘一致或近似,而又确保分布于不同站点的数据保持隐私。  相似文献   

6.
分布式数据挖掘是数据挖掘领域的一个新兴研究课题,而其主要问题是知识共享和软组件重用.结合Web服务技术的跨平台、统一数据表示格式以及可实现软组件重用和数据重用等优点,文中提出了一种基于Web服务的分布式数据挖掘体系,可实现分布式异构环境下的大容量数据的数据挖掘,旨在对异构数据库的数据挖掘进行一些有意义的探讨.  相似文献   

7.
本文介绍了分布式入侵检测系统的重要性和现有分布式入侵检测系统的局限性,提出了一种基于数据融合和数据挖掘的分布式入侵检测系统模型(DIDSFM),叙述了数据融合和数据挖掘应用于分布式入侵系统的意义,并详细说明了系统的体系结构和工作原理。  相似文献   

8.
面向服务的云数据挖掘引擎的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
数据挖掘算法处理海量数据时,扩展性受到制约。在商业和科学研究的各个领域,知识发现的过程和需求差异较大,需要有效的机制来设计和运行各种类型的分布式数据挖掘应用。提出了一种面向服务的云数据挖掘引擎的框架CloudDM。不同于基于网格的分布式数据挖掘框架,CloudDM利用开源云计算平台Hadoop处理海量数据的能力,以面向服务的形式支持分布式数据挖掘应用的设计和运行,并描述面向服务的云数据挖掘引擎系统的关键部件和实现技术。依据面向服务的软件体系结构和基于云平台的数据挖掘引擎,可以有效解决海量数据挖掘中的海量数据存储、数据处理和数据挖掘算法互操作性等问题。  相似文献   

9.
一种基于Web服务的分布式数据挖掘体系结构   总被引:4,自引:0,他引:4  
分布式数据挖掘是数据挖掘领域的一个新兴研究课题,而其主要问题是知识共享和软组件重用。结合Web服务技术的跨平台、统一数据表示格式以及可实现软组件重用和数据重用等优点,文中提出了一种基于Web服务的分布式数据挖掘体系,可实现分布式异构环境下的大容量数据的数据挖掘.旨在对异构数据库的数据挖掘进行一些有意义的探讨。  相似文献   

10.
随着计算机网络以及数据库技术的深入发展,分布式数据挖掘成为了当今的一大研究热点。然而数据分布除了存储的物理分散性,还有具有背景异质性。本文先介绍分布式数据挖掘和其面临的一些问题,然后由此引出数据背景的异质性,最后用实例研究来说明数据背景异质性对分布式数据挖掘算法的影响。  相似文献   

11.
由于信息化的不断拓展,一方面数据广泛分布于不同的部门,各部门需求在不泄漏自身数据的情况下进行充分合作;另一方面由于数据量的巨大,集中式的运算已经很难满足各种应用的需求。在这一个背景下,分布式数据挖掘已经成一个研究的热点,通过将系统划分为中心节点和边缘节点,分层管理并减少数据交流给系统带来的负担;文章还将给出微簇的定义,并在边缘节点中进行算法的描述。实验说明在保证各部门的数据不泄漏的情况下,分布式算法具有跟集中式的K-means算法相近的准确率,说明算法具有可行性和有效性。  相似文献   

12.
随着信息技术的发展,分布式系统被广泛应用于金融、医疗等领域。其中以基于MapReduce的数据挖掘为代表的应用对隐私的保护往往有很高的要求。本文提出一个基于分布式信息流控制的MapReduce框架,用以保证MapReduce中信息的私密性和完整性,同时给出系统原型的实现。  相似文献   

13.
The purpose of data mining from distributed information systems is usually threefold: (1) identifying locally significant patterns in individual databases; (2) discovering emerging significant patterns after unifying distributed databases in a single view; and (3) finding patterns which follow special relationships across different data collections. While existing research has significantly advanced the techniques for mining local and global patterns (the first two goals), very little attempt has been made to discover patterns across distributed databases (the third goal). Moreover, no framework currently exists to support the mining of all three types of patterns. This paper proposes solutions to discover patterns from distributed databases. More specifically, we consider pattern mining as a query process where the purpose is to discover patterns from distributed databases with patterns' relationships satisfying user specified query constraints. We argue that existing self-contained mining frameworks are neither efficient, nor feasible to fulfill the objective, mainly because their pattern pruning is single-database oriented. To solve the problem, we advocate a cross-database pruning concept and propose a collaborative pattern (CLAP) mining framework with cross-database pruning mechanisms for distributed pattern mining. In CLAP, distributed databases collaboratively exchange pattern information between sites so that each site can leverage information from other sites to gain cross-database pruning. Experimental results show that CLAP fits a niche position, and demonstrate that CLAP not only outperforms its other peers with significant runtime performance gains, but also helps find patterns incapable of being discovered by others.  相似文献   

14.
电网公司多年来建设了很多业务系统,各业务系统相互孤立应用.随着企业信息化建设的深入,业务系统中数据特别是非结构化数据的数据量急剧增长,人员查找数据信息极为不便.建设面向整个电网公司的分布式非结构化数据检索平台,该平台在Linux计算机集群上部署Hadoop开发框架以及Solr分布式全文检索系统,将各业务系统中的非结构化数据进行集中式的存储、管理,并且提供统一的搜索服务,使得企业相关人员能够高效、便捷地检索出所需的数据.实现知识服务无处不在,为员工工作提供帮助,为企业提供决策支持.  相似文献   

15.
With the proliferation of the Web and ICT technologies there have been concerns about the handling and use of sensitive information by data mining systems. Recent research has focused on distributed environments where the participants in the system may also be mutually mistrustful. In this paper we discuss the design and security requirements for large-scale privacy-preserving data mining (PPDM) systems in a fully distributed setting, where each client possesses its own records of private data. To this end we argue in favor of using some well-known cryptographic primitives, borrowed from the literature on Internet elections. More specifically, our framework is based on the classical homomorphic election model, and particularly on an extension for supporting multi-candidate elections. We also review a recent scheme [Z. Yang, S. Zhong, R.N. Wright, Privacy-preserving classification of customer data without loss of accuracy, in: SDM’ 2005 SIAM International Conference on Data Mining, 2005] which was the first scheme that used the homomorphic encryption primitive for PPDM in the fully distributed setting. Finally, we show how our approach can be used as a building block to obtain Random Forests classification with enhanced prediction performance.  相似文献   

16.
Centralized data mining techniques are widely used today for the analysis of large corporate and scientific data stored in databases. However, industry, science, and commerce fields often need to analyze very large datasets maintained over geographically distributed sites by using the computational power of distributed systems. The Grid can play a significant role in providing an effective computational infrastructure support for this kind of data mining. Similarly, the advent of multi-agent systems has brought us a new paradigm for the development of complex distributed applications. During the past decades, there have been several models and systems proposed to apply agent technology building distributed data mining (DDM). Through a combination of these two techniques, we investigated the critical issues to build DDM on Grid infrastructure and design an Agent Grid Intelligent Platform as a testbed. We also implement an integrated toolkit VAStudio for quickly developing agent-based DDM applications and compare its function with other systems.  相似文献   

17.
信息安全是指防止未经授权的使用、披露、破坏、修改、查看记录和销毁访问信息与信息系统。使用数据挖掘技术,我们可以完成对信息安全的预警。主观Bayes方法是一种不确定性推理方法,影响信息安全的因素定义为证据,由安全专家给出或从统计历史数据得出证据的充分度量LS值,使用这种方法,可以推理出企业安全预警的值。  相似文献   

18.
基于松散耦合的分布式信息系统的数据挖掘   总被引:3,自引:0,他引:3  
朱晓明  刘卫东 《计算机工程》2004,30(2):181-182,F003
讨论了松散耦合的分布式信息系统中的数据挖掘问题。采用XML作为松散耦合的分布式信息系统各自治系统之间的中介,将可能的信息和数据挖掘结果都采用XML。表示,并采用统一的DTD来实现信息标准化。给出了扩展后的系统整体结构以及自治系统结构,并在此基础上讨论了自治系统间的知识共享和合作问题。  相似文献   

19.
Due to the increasing availability and sophistication of data recording techniques, multiple information sources and distributed computing are becoming the important trends of modern information systems. Many applications such as security informatics and social computing require a ubiquitous data analysis platform so that decisions can be made rapidly under distributed and dynamic system environments. Although data mining has now been popularly used to achieve such goals, building a data mining system is, however, a nontrivial task, which may require a complete understanding on numerous data mining techniques as well as solid programming skills. Employing agent techniques for data analysis thus becomes increasingly important, especially for users not familiar with engineering and computational sciences, to implement an effective ubiquitous mining platform. Such data mining agents should, in practice, be intelligent, complete, and compact. In this paper, we present an interactive data mining agent — OIDM (online interactive data mining), which provides three categories (classification, association analysis, and clustering) of data mining tools, and interacts with the user to facilitate the mining process. The interactive mining is accomplished through interviewing the user about the data mining task to gain efficient and intelligent data mining control. OIDM can help users find appropriate mining algorithms, refine and compare the mining process, and finally achieve the best mining results. Such interactive data mining agent techniques provide alternative solutions to rapidly deploy data mining techniques to broader areas of data intelligence and knowledge informatics.  相似文献   

20.
针对分布式环境中数据自治、异构和私有的特点,提出将现有数据挖掘算法分解为分布式统计信息获取和模型生成两部分.以决策树为研究对象,分析了分布式信息需求并设计了分布式挖掘算法步骤.通过性能分析,文中算法在数据自治和通信费用上比集中式算法有优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号