首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于Web Services的语义异构数据集成设计与实现   总被引:2,自引:1,他引:1  
高校在信息化建设过程中积累了大量异构、异质的数据源,如何将这些异构数据源中相关的数据资源进行有效整合是当前急需解决的问题.为此,提出了一种新的基于Web Services的异构数据集成解决方案,利用Web Services技术在异构数据集成中的优势,采用虚拟数据库法设计思想,通过设计领域字典表及字段映射表,有效地解决了异构数据集成中最难解决的语义异构问题,并从数据模型转换、全局查询等方面阐述了该方案的可行性.实验结果表明,该方案具有可用性和高效性.  相似文献   

2.
分析了异构数据库访问的技术及目前访问异构数据库系统存在的问题,提出在数据库管理系统前端增加中间数据源模块,数据交换双方共同约定好彼此需要交换的接口,设计了一个基于Web服务的异构数据集成方案,该方案提供给用户一个使用多种数据源的统一接口,消除了企业信息孤岛,解决了异构数据带来的一系列数据共享问题。  相似文献   

3.
《计算机工程》2017,(3):32-39
针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增量数据源选择和集成策略,采用基于数据源质量的选择器过滤大量低质量Deep Web数据源,仅选择若干个高质量的数据源作为第2层选择器的输入。从候选数据源集合中递归地选择,使集成系统在获得尽可能多的高质量数据的同时,避免出现较高覆盖率的k个数据源,作为集成系统最终需要爬取和集成的数据源。实验结果表明,该方法结合两类选择器的优点,缩减了候选数据源的空间并保证集成数据的质量,同时避免了系统处理大量重复数据,有效降低Deep Web数据爬取与集成的代价。  相似文献   

4.
针对信息工程监理数据管理的特点,采用XML技术与Web Services技术开发出了一个三层架构的信息工程监理异构数据集成系统.该系统结合了XML技术与全局数据模式,以XML技术进行数据的交互,转换来自不同数据源的数据,对各异构数据源中的数据进行集成,为各异构数据源建立可共享的集成查询平台.应用结果表明,该异构数据集成系统具有良好的透明性、各平台独立性以及可共享性,较好地解决了信息工程监理中异构数据的管理.  相似文献   

5.
Deep Web中蕴含了海量可供访问的信息,如何构建一个具有较好适用性和高效数据处理能力的Deep Web数据集成系统是有效利用Deep Web信息的关键.提出一种基于结果模式的Deep Web数据集成机制,通过结果模式可以实现高效的数据抽取,并且在结果模式的基础上可以根据用户查询请求动态生成结果输出模式,为高效的查询结果处理奠定了良好基础;同时,针对Deep Web数据源特点,给出数据源间冲突的分类及解决策略,为解决数据源间的异构问题奠定了良好基础.  相似文献   

6.
利用XML技术解决Web数据挖掘中数据异构的问题   总被引:1,自引:0,他引:1  
讨论了Web数据挖掘中的数据异构问题,通过XML技术建立了一个半结构化数据模型和一个自动抽取模型,以解决Internet上绝大多数因异构、非结构化、动态数据集成问题所导致的Web数据挖掘的困难。  相似文献   

7.
Web数据挖掘中的数据预处理   总被引:11,自引:0,他引:11  
Web数据挖掘是分析网络应用的主要手段,其数据源一般是网络服务器日志,然而日志记录的是杂乱的,不完整的,不准确的并且是非结构化的数据,必须进行数据预处理。文章将预处理过程分为3个阶段-数据清洗、区分使用者,会话识别,并提出了一个高效的Web数据挖掘预处理结构WLP和相应的算法。  相似文献   

8.
李立耀 《福建电脑》2007,(10):109-110
Web数据挖掘是分析网络应用的主要手段.其数据源一般是网络服务器日志,然而日志记录的是杂乱的、不完整的、不准确的并且是非结构化的数据,必须进行数据预处理.本文将预处理过程分为4个阶段:数据净化、用户识别、会话识别、路径补充,并提出了一个高效的Web数据挖掘预处理结构和相应的算法.  相似文献   

9.
基于Web的数据挖掘技术的应用研究   总被引:7,自引:0,他引:7  
Web是一个动态性极强的信息源,要访问、分析这些数据必须要研究异构数据的集成问题和选择合适的技术进行数据分析、集成和处理.文中介绍了多数据源数据仓库体系结构,多数据源数据的集成思想和实现的框架;分析了转换器在面向Web的数据挖掘中存在的不足和XML语言的技术特点;提出了应用XML技术对多数据源数据进行集成与转换以便构建数据仓库,同时给出了关键技术的实现方法.  相似文献   

10.
计算机网络的迅猛发展使企业内部数据交换越来越频繁,然而,系统实现技术及实现时间上的差异造成了在不同的信息系统中存在着大量异构数据.异构数据源的存在给实现不同信息系统间数据互访带来了很大的不便.为了解决异构数据源共享和部署集成平台过于复杂的问题,在充分调研国内外信息集成文献的基础上,基于XML和Web Service技术实现了一个新型的异构数据集成平台.该平台采用XML文件存储元数据,部署时无需新建数据库,实现了轻量级部署;将中介器和包装器发布成Web Service,支持多种集成平台客户端; 该平台能够屏蔽网络、操作系统、各种关系型数据库、XML文件的异构性,支持企业集成历史遗留数据、发布信息,并具有高度灵活性、轻便性和可重用性.  相似文献   

11.
随着网络通信技术的快速发展与成本的不断降低,越来越多的信息都被发布到网络上.但是,由于Web数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向Web的数据挖掘成了一个新的课题.介绍了Web数据挖掘的分类以及当前的发展状况,并将XML技术应用在Web数据挖掘中,介绍了一个自动挖掘的模型,应用于股票信息自动采集系统,展示了Web数据自动挖掘方法的可行性与优越性.同时,也指出了Web数据自动挖掘尚存的不足及其发展前景.  相似文献   

12.
吴小竹  陈崇成 《计算机工程与设计》2007,28(15):3563-3565,3620
提出了一种新颖的数据挖掘系统的体系结构,该结构把SOA与传统的挖掘系统结构相结合.在此体系结构的基础上,实现了一个开放式挖掘系统,能够动态集成挖掘算法.将该系统应用于福州地热资源的数据挖掘中,结果证明通过将WebServices技术引入数据挖掘系统的构建中,能大大增强挖掘系统的功能.  相似文献   

13.
In recent years, the deep web has become extremely popular. Like any other data source, data mining on the deep web can produce important insights or summaries of results. However, data mining on the deep web is challenging because the databases cannot be accessed directly, and therefore, data mining must be performed by sampling the datasets. The samples, in turn, can only be obtained by querying deep web databases with specific inputs. In this paper, we target two related data mining problems, association mining and differential rulemining. These are proposed to extract high-level summaries of the differences in data provided by different deep web data sources in the same domain. We develop stratified sampling methods to perform these mining tasks on a deep web source. Our contributions include a novel greedy stratification approach, which recursively processes the query space of a deep web data source, and considers both the estimation error and the sampling costs. We have also developed an optimized sample allocation method that integrates estimation error and sampling costs. Our experimental results show that our algorithms effectively and consistently reduce sampling costs, compared with a stratified sampling method that only considers estimation error. In addition, compared with simple random sampling, our algorithm has higher sampling accuracy and lower sampling costs.  相似文献   

14.
基于Web的文本挖掘   总被引:22,自引:1,他引:22  
万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息资源。在茫茫的信息海洋如何快速有效地获取所需要的信息,一直是困绕着网上用户的难题。而Web挖掘可以从这个信息海洋中提取出所需要的有用知识,在一定程度上解决了用户的困绕。该文主要介绍了Web挖掘基本情况,并在此基础上对基于Web的文本挖掘进行了分析研究;给出了一个基于Web的文本挖掘的结构模型图。同时,在Web挖掘和数据挖掘研究的基础上,提出了一个智能化、个性化的现代远程教育系统结构模型。它比传统的远程教育系统具有更大的发展前景。  相似文献   

15.
Distributed data mining for e-business   总被引:2,自引:1,他引:1  
In the internet-based e-business environment, most business data are distributed, heterogeneous and private. To achieve true business intelligence, mining large amounts of distributed data is necessary. Through a thorough literature review, this paper identifies four main issues in distributed data mining (DDM) systems for e-business and classifies modern DDM systems into three classes with representative samples. To address these identified issues, this paper proposes a novel DDM model named DRHPDM (Data source Relevance-based Hierarchical Parallel Distributed data mining Model). In addition, to improve the quality of the final result, the data sources are divided into a centralized mining layer and a distributed mining layer, according to their relevance. To improve the openness, cross-platform ability, and intelligence of the DDM system, web service and multi-agent technologies are adopted. The feasibility of DRHPDM was verified by building a prototype system and applying it to a web usage mining scenario.  相似文献   

16.
许国艳 《计算机工程与设计》2006,27(10):1791-1792,1796
数据集成是共享分布的异构数据资源的核心问题.在分析常用数据集成技术的基础上,结合Web Services技术和组件技术,提出了基于Web Services和组件技术实现Mediated系统的数据集成方案.最后,以J2EE为平台给出了一种面向服务的低偶合的数据集成框架,中介器和包装器由EJB组件实现,由组件部署的Web服务为用户提供一个透明的统一的接口,实现异地异构数据资源的共享和整合.  相似文献   

17.
Web日志挖掘是目前Web挖掘研究的一个重点.针对Web日志挖掘中存在的问题,给出了基于数据仓库技术的Web日志挖掘方案,就数据预处理、数据立方体设计及数据挖掘技术的应用进行了较为深入的探讨.并以一个Web站点日志为例,详细阐述了Web日志数据预处理、Web日志立方体设计以及数据挖掘算法的实现过程,并实现了一个Web日志多维数据集,能够有效解决Web日志分析中的难题.  相似文献   

18.
数据挖掘在Web智能化中应用研究   总被引:12,自引:9,他引:3  
分析了Web信息的特点和目前开发利用的局限,提出在Web上采用数据挖掘技术即Web挖掘,促进web智能化的观点。全面阐述了Web挖掘在Web智能化中的几个重要应用。指出Web挖掘是Web技术中一个重要的研究领域,是发现蕴藏在web上知识、区分权威链接、理解用户访问模式和网页语义结构的关键,它使充分利用Web大量的真正有价值的信息成为可能,为智能化Web奠定了基础。  相似文献   

19.
Compared with structured data sources that are usually stored and analyzed in spreadsheets, relational databases, and single data tables, unstructured construction data sources such as text documents, site images, web pages, and project schedules have been less intensively studied due to additional challenges in data preparation, representation, and analysis. In this paper, our vision for data management and mining addressing such challenges are presented, together with related research results from previous work, as well as our recent developments of data mining on text-based, web-based, image-based, and network-based construction databases.  相似文献   

20.
明德廷  李娟  尹怡欣 《计算机工程与设计》2007,28(9):1995-1997,2065
数据挖掘是从海量数据中发现有意义的模式和规则的一项关键技术.国内很少有商家使用数据挖掘来辅助商业决策.给出了基于Web Service的数据挖掘系统结构及实现方案;描述了一个基于Web Service的数据挖掘系统原型,进一步说明了所提出的系统结构具有较高的效率、可信度、可实施性和安全性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号