首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
针对混合数据源的采集、集成和应用问题,提出一种面向混合数据源的数据库私有云设计,针对混合数据源的不同结构化程度,将数据源分成结构化、半结构化和非结构化;针对混合数据源不同的不同时序特点,数据库私有云设计定时采集和实时采集两种采集方式;为了提高混合数据源的存取效率,数据库私有云将非结构化和半结构化数据存储在分布式文件系统,将结构化数据存储在分布式数据库;针对混合数据源的大数据应用需求,数据库私有云的计算层由数据仓库、实时数据处理、机器学习和数据查询服务组成;数据库私有云通过服务使能系统辅助用户开发具体应用程序,通过服务管理系统管理和监控这些具体应用程序。数据库私有云设计可以有效提供企业采集、集成和应用混合数据源的效率和效益。  相似文献   

2.
基于XML的关系型数据源包装器的设计   总被引:2,自引:0,他引:2  
用XML表示的半结构化数据越来越普遍,同时,大量的结构化数据组织存放在关系数据库中,如何集成这些不同结构的数据成了研究的一个热点。文章设计了一种关系型数据源包装器,它主要有两个功能模块,一个负责将XQuery查询转换为SQL查询,称为查询转换器;另一个负责将SQL查询返回的元组转换为XML数据格式,称为结果产生器。包装器是一种软件,它相当于数据源的外衣,不影响数据源的本身,它是异构数据集成系统的一个重要组成部分。  相似文献   

3.
数据树——一种用于异构数据源集成的公共数据模型   总被引:7,自引:0,他引:7  
文中提出一种异构数据源集成的公共数据模型-附有元数据的数据树。数据树的元数据附在数据上,便于表达没有稳定模式的数据、自描述的数据、非结构化和半结构化的数据以及从各种异构数据源集成的数据。作为数据树操纵语言的数学基础,文中提出了数据树代数,它提供了八种操作,比关系代数具有更大的灵活性和较强的功能。  相似文献   

4.
利用ASP和XML技术集成多数据源的数据   总被引:2,自引:0,他引:2  
ASP提供了一个可以集成脚本语言、组件等到 HTML或 XML主页的环境。可在数据源和用户间建立一个中间的集成层 ,在集成层上将来自于不同数据源的数据统一起来。数据源集成的目的是要为用户提供涉及多数据源的统一的查询机制 ,让用户用统一的方式使用来自不同数据源的各种各样的数据 ,可屏蔽各数据源结构、运行环境上的差异。  相似文献   

5.
针对信息集成领域中各异构数据源间的语义冲突问题,提出基于转换规则集的自动语义转换方法。该方法根据规则,利用触发器自动完成对集成数据的实时语义转换。实践证明本方法能有效地对数据源端的变化数据,完成实时语义转换。本方法适用于对当前企业中仍大量存在的多个异构数据源进行混合集成的情形。  相似文献   

6.
企业ERP建设中形成了许多异构数据源。为了有效使用长期积累的数据,需要对异构数据进行共享一致处理。针对数据集成的许多已有方案的不足,介绍了PostgreSQL的实现方案和技术优点,提出了基于PostgresQL有序字段查询优化的方法,实现了异构数据源集成中间件具有对用户查询命令优化的处理,这样不仅大大提高了异构数据源中间件的查询速度,而且避免了库表之间集成时关联数据之间的冲突等问题。  相似文献   

7.
异构数据库数据集成的研究与实现   总被引:6,自引:1,他引:6  
由于企业间数据的交互和共享越来越广泛,迫切需要对异构数据库数据进行集成。根据异构数据集成的需要.提出了利用XML技术集成异构数据库数据源的一个框架。框架核心部分由3层结构组成,综合管理层负责数据抽取和数据交互,XML数据库层负责数据预处理和查询,装配管理层根据需要过滤和组装数据,最终得到需要的数据。用Java编程实现了一个原型系统,对Oracle和SOL server实际数据源做了数据集成测试。实验结果证明该架构是一个较优的解决方案。  相似文献   

8.
王博  郭波 《计算机科学》2007,34(10):129-132
异构数据源集成系统的主要任务是屏蔽数据源数据模型的异构性,提供对数据的统一访问。公共数据模型、模型变换和中间数据模型被广泛用来解决该问题。由于数据集成工作的工作量和任务对象日益复杂、规模日趋庞大,仅采用公共数据模型不能满足现有集成要求。异构数据源数据模型内在的关联性虽然使得面向语义集成变得更加复杂,但更利于模型转换方法在数据集成中的应用。模型转换是模式集成的基础,本文给出了异构数据源模型的形式化描述方法和基础模型转换操作形式化框架。该框架能够保证模型、实例和约束三者的相互独立,适用于大多数基础数据模型及其之间的转换和集成应用。通过该框架可简化和规范异构数据源数据模型转换和模式集成过程。  相似文献   

9.
Web数据挖掘中数据集成问题的研究   总被引:3,自引:0,他引:3  
在分析Web环境下数据源特点的基础上,对Web数据挖掘中的数据集成问题进行了深入的研究,给出了一个基于XML技术的集成方案.该方案采用Web数据存取方式将不同数据源集成起来,为Web数据挖掘提供了统一有效的数据集,解决了Web异构数据源集成的难题.通过一个具体实例介绍了Web数据集成的过程.  相似文献   

10.
王江海  吴扬扬 《计算机科学》2012,39(10):170-173,186
提出了一种数据空间中的命名实体集成模型(NEIM)及其在异质异构数据源中的集成方法。命名实体模型描述了数据源、实体与实体描述间的关系,能够实现从其中任意一个息查询到其它相关信息。命名实体的集成架构指出了数据空间中命名实体集成要完成的主要任务,包括命名实体的识别、实体的集成映射和实体的统一。集成算法描述了数据空间中异构数据源包含的命名实体及其描述信息的集成方法。针对结构化半结构化数据,它采取构建映射规则,使系统可以在后期持续集成这些数据源中的实体信息,实验验证了集成方法的构建映射规则的有效性。  相似文献   

11.
源代码漏洞的自动检测是一个重要的研究课题。目前现有的解决方案大多是基于线性模型,依赖于源代码的文本信息而忽略了语法结构信息,从而造成了源代码语法和语义信息的丢失,同时也遗漏了许多漏洞特征。提出了一种基于结构表征的智能化漏洞检测系统Astor,致力于使用源代码的结构信息进行智能化漏洞检测,所考虑的结构信息是抽象语法树(Abstract Syntax Tree,AST)。首先,构建了一个从源代码转化而来且包含源码语法结构信息的数据集,提出使用深度优先遍历的机制获取AST的语法表征。最后,使用神经网络模型学习AST的语法表征。为了评估Astor的性能,对多个基于结构化数据和基于线性数据的漏洞检测系统进行比较,实验结果表明Astor能有效提升漏洞检测能力,降低漏报率和误报率。此外,还进一步总结出结构化模型更适用于长度大,信息量丰富的数据。  相似文献   

12.
通过对信息过滤一般过程的分析,提出了一种基于内容的网络异常信息过滤方法。在源信息采集方面,建立了网络信息捕获构架,基于协议分析实现网络数据的提取;在信息内容处理方面,采用设立切分标志进行文本信息的预处理,在此基础上,基于向量空间模型实现文档的结构化表示;在信息匹配算法方面,通过计算文档向量之间的相似度,实现网络信息的有效过滤。  相似文献   

13.
Wireless ad-hoc networks composed of resource-constrained camera-enabled sensors can provide visual information for a series of monitoring applications, enriching the understanding of the physical world. In many cases, source nodes may have different sensing relevancies for the monitoring functions of the applications, according to the importance of the visual information retrieved from the monitored field. As a direct result, high quality is only required for the most relevant information and, as it is expected that many visual monitoring applications can tolerate some quality loss in the data received from the least relevant source nodes, the network operation can be optimized exploiting this innovative concept. As a novel global QoS parameter, we envisage that the sensing relevancies of source nodes can be considered for a series of optimizations in different aspects of the wireless sensor network operation, achieving energy saving or assuring high quality transmission for the most relevant data. In this paper we discuss some approaches for the establishment of the sensing relevancies of the nodes and propose a protocol to support them. Moreover, we present two practical examples of optimizations based on the sensing relevancies of source nodes that transmit still images of the monitored field, addressing issues as energy-efficient data transmission and packet prioritization in intermediate nodes.  相似文献   

14.
Dimensionality reduction has been considered as one of the most significant tools for data analysis. In general, supervised information is helpful for dimensionality reduction. However, in typical real applications, supervised information in multiple source tasks may be available, while the data of the target task are unlabeled. An interesting problem of how to guide the dimensionality reduction for the unlabeled target data by exploiting useful knowledge, such as label information, from multiple source tasks arises in such a scenario. In this paper, we propose a new method for dimensionality reduction in the transfer learning setting. Unlike traditional paradigms where the useful knowledge from multiple source tasks is transferred through distance metric, we attempt to learn a more informative mapping function between the original data and the reduced data by Gaussian process that behaves more appropriately than other parametric regression methods due to its less parametric characteristic. In our proposal, we firstly convert the dimensionality reduction problem into integral regression problems in parallel. Gaussian process is then employed to learn the underlying relationship between the original data and the reduced data. Such a relationship can be appropriately transferred to the target task by exploiting the prediction ability of the Gaussian process model and inventing different kinds of regularizers. Extensive experiments on both synthetic and real data sets show the effectiveness of our method.  相似文献   

15.
Web data being transmitted over a network channel on the Internet with excessive amount of data causes data processing problems, which include selectively choosing useful information to be retained for various data applications. In this paper, we present an approach for filtering less-informative attribute data from a source Website. A scheme for filtering attributes, instead of tuples (records), from a Website becomes imperative, since filtering a complete tuple would lead to filtering some informative, as well as less-informative, attribute data in the tuple. Since filtered data at the source Website may be of interest to the user at the destination Website, we design a data recovery approach that maintains the minimal amount of information for data recovery purpose while imposing minimal overhead for data recovery at the source Website. Our data filtering and recovery approach (1) handles a wide range of Web data in different application domains (such as weather, stock exchanges, Internet traffic, etc.), (2) is dynamic in nature, since each filtering scheme adjusts the amount of data to be filtered as needed, and (3) is adaptive, which is appealing in an ever-changing Internet environment.  相似文献   

16.
We describe a method to use the source code change history of a software project to drive and help to refine the search for bugs. Based on the data retrieved from the source code repository, we implement a static source code checker that searches for a commonly fixed bug and uses information automatically mined from the source code repository to refine its results. By applying our tool, we have identified a total of 178 warnings that are likely bugs in the Apache Web server source code and a total of 546 warnings that are likely bugs in Wine, an open-source implementation of the Windows API. We show that our technique is more effective than the same static analysis that does not use historical data from the source code repository.  相似文献   

17.
基于数据质量的Deep Web数据源排序   总被引:1,自引:1,他引:0  
Deep Web技术使得大量隐藏在接口背后的有用信息更容易被用户查找到.然而,随着数据源的增多,如何从众多的数据源中快速地找到合适的结果这一问题变得越来越重要.通过传统的链接分析方法和相关性评估方法来对数据源进行排序,已经不能满足高精度的要求.提出一种通过抽样方法和数据质量评估来判断数据源的优劣性的算法.本文提出的抽样方法,改进了分层抽样和雪球抽样,使得在较少的样本点时,能够准确的反映整体特征.定义了能基本反映数据源的优劣程度的6个主要质量标准,并给出计算方法;通过质量标准,结合权重向量来量化数据源的质量.实验通过对数据源进行抽样分析,求解数据源得分的期望值,并根据该期望值对数据源进行了整体排序.结果表明,利用抽样对数据源的数据质量进行估计和评分,具有很好的准确性和可操作性.  相似文献   

18.
Transfer learning is a widely investigated learning paradigm that is initially proposed to reuse informative knowledge from related domains, as supervised information in the target domain is scarce while it is sufficiently available in the multiple source domains. One of the challenging issues in transfer learning is how to handle the distribution differences between the source domains and the target domain. Most studies in the research field implicitly assume that data distributions from the source domains and the target domain are similar in a well-designed feature space. However, it is often the case that label assignments for data in the source domains and the target domain are significantly different. Therefore, in reality even if the distribution difference between a source domain and a target domain is reduced, the knowledge from multiple source domains is not well transferred to the target domain unless the label information is carefully considered. In addition, noisy data often emerge in real world applications. Therefore, considering how to handle noisy data in the transfer learning setting is a challenging problem, as noisy data inevitably cause a side effect during the knowledge transfer. Due to the above reasons, in this paper, we are motivated to propose a robust framework against noise in the transfer learning setting. We also explicitly consider the difference in data distributions and label assignments among multiple source domains and the target domain. Experimental results on one synthetic data set, three UCI data sets and one real world text data set in different noise levels demonstrate the effectiveness of our method.  相似文献   

19.
随着深度摄像机的发展,不同模态的视频数据更易获得.基于多模态数据的视频动作识别也受到越来越广泛的关注.不同模态的数据能够从多个角度对视频动作进行描述,如何有效地利用多模态数据并形成优势互补是视频动作识别中的重要方向.提出了一种基于关联模态补偿的视频动作识别算法.该方法以RGB和光流场视频数据为源模态,以3D骨架数据为辅助模态,利用源模态和辅助模态高层特征空间的关联性,补偿源模态的特征提取.该算法基于卷积神经网络和长短期记忆网络,对源模态数据和辅助模态数据进行时空域特征建模.在此基础上,提出了基于残差子网络的模态适应模块,通过统一源模态特征和辅助模态特征的数据分布,实现辅助模态对源模态的特征补偿.考虑到源模态数据和辅助模态数据在动作类别或动作样本等方面存在不同程度的对齐情况,设计了多层次模态适应算法,以适应不同的训练数据.所提算法仅在训练过程中需要辅助模态的帮助,在测试过程中可以仅根据源模态数据进行动作的识别,极大地拓展了该算法的实用性.在通用公共数据集上的实验结果表明,相比于现有动作识别算法,该算法取得了更加优越的性能.  相似文献   

20.
基于社交媒体大数据的交通感知分析系统   总被引:2,自引:0,他引:2  
社交媒体数据中蕴含了丰富的交通状态信息,这些信息以人类语言为载体,包含了大量对交通状态的因果分析与多角度描述,可以为传统交通信息采集手段提供有力补充,近年来已成为交通状态感知的重要信息来源.本文以新浪微博为主要数据来源,分别利用支持向量机算法、条件随机场算法以及事件提取模型完成微博的分类、命名实体识别与交通事件提取,开发了基于社交媒体大数据的交通感知分析与可视化系统,可以为交通管理部门及时提供交通舆情及突发交通事件的态势、影响范围、起因等信息.在交通信息采集系统建设较为薄弱的地区,本文建立的系统可以为交通管理提供信息补充.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号