首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 812 毫秒
1.
论文重点研究异构数据模型间的映射关系,并参考ETL框架思想,设计了针对异构数据模型间数据映射、转换和加载于一身的双向映射策略,分析并定义了数据模型间的映射关系与映射规则.基于元数据驱动理论方法设计了数据映射元模型,并将映射关系按照复杂程度分类,分为简单映射与复合映射关系,明确给出了分类原则.论文还对双向映射关系进行了描述,并分析了双向映射中遇到的问题.  相似文献   

2.
王毅喆  张力 《计算机工程》2007,33(12):93-95
提出了一个在金融领域范围内基于本体模式关联数据转换的解决方案。通过本体标注表现XML Schema与本体之间的关系,经过本体推理和匹配完成模式之间元素和路径的匹配映射关系,生成的XQuery脚本可以完成整个数据转换工作。  相似文献   

3.
为充分利用新兴图系统探索关系数据库中实体或对象之间的隐式互联结构,将关系数据转换为图数据,设计并实现一个数据管道工具R2GPipe。给出一种简洁的声明式领域特定语言,指定关系元素和图元素之间的对应关系。用户根据分析需求以声明式的方法使用R2G映射语言编写从关系到属性图的映射。R2GPipe通过解析R2G映射语言,生成向源系统和目标系统发送的代码。应用数据集TPC-H进行案例研究,将关系数据建模为图数据,以测试R2GPipe的扩展性,结果表明,随着转换数据规模的增加,R2GPipe的整体运行时间呈线性增长。  相似文献   

4.
一种有效的XML数据清洗方法   总被引:1,自引:0,他引:1       下载免费PDF全文
研究XML格式的重复数据元素的特点,提出对于特定应用领域,在具体的上下文环境中主动学习XML重复元素的识别规则。通过结构转换,将结构不尽相同的XML数据映射成结构一致的数据,并通过学习不同层次数据元素间的依赖关系权重来获得匹配规则。根据学习得到的转换和匹配规则,采用哈希过滤的方法来提高检测重复XML元素的效率。该方法能够有效地解决XML重复检测面临的结构多样性的问题,理论分析和实验表明,该方法有较高的精度和效率。  相似文献   

5.
为了使ETL系统能够高效的实现任意异构数据库之间的数据转换,需要通用的元模型支撑任意数据库之间数据转换元数据的定制。通过对数据转换中数据映射应用技术分析,重点对数据映射进行了抽象研究,定义数据映射的详细分类、基于数据映射关系的数据转换元数据描述形式,并构建支撑数据转换元数据定制的元模型,技术在中国石油数据中心大型数据迁移中应用,取得良好效果。  相似文献   

6.
基于扩展关系代数的数据集成映射模式的研究   总被引:1,自引:0,他引:1  
杨岳  郭绍忠  何晓忠 《计算机应用》2009,29(12):3290-3292
集成映射是数据集成领域的基础性问题,尚存在去重效率低,准确度不高等不足。在对数据集成两种基本映射模式全局视图映射(GAV)、本地视图映射(LAV)和模式匹配进行研究的基础上,针对集成映射中去重和布尔元素值与语义值的转换等问题,对关系代数中已有理论进行扩展。设计了一种从源模式到目标模式的映射方案,通过将源模式中对象集合和关系集合进行扩充,而后使用扩展关系代数对扩充后模式进行处理得到目标模式,并给出了操作过程中的具体推导过程。通过举例,对该方案的可行性进行了验证。  相似文献   

7.
XML的自描述性、可扩展性等特点使得XML非常适用于异构域数据的交换,以XML作为数据交换格式需要XML转换技术的强力支持。为实现异构域XML文档自动转换,提出一种XML Schema模式匹配方法,建立了模式元素之间的映射关系。该映射关系文件可翻译成XSLT脚本,实现XML文档的自动转换;实验结果证明了该方法具有较高的查准率和查全率。  相似文献   

8.
异构数据资源的语义映射,是大数据时代数据集成与共享研究中的一个关键问题。围绕语义搜索的应用需求,针对海量异构数据资源到领域知识本体的语义映射问题,提出基于中间模型的映射算法,通过模型解析转换、映射规则设计、映射策略选择、映射关系表达等最终获得二者的映射关系。系统面向用户提供基于知识本体的统一视图,屏蔽了底层数据资源的异构性,保证了用户对异构数据资源的透明访问和准确理解,提供了一种灵活、通用、可扩展的语义集成机制,为准确高效的语义搜索应用提供支持。  相似文献   

9.
一种基于RDBMS的XML数据的存储方法   总被引:1,自引:0,他引:1  
XML作为一种数据交换的标准在互联网上推出,使得XML数据和数据库的相互交换成为必要:一是因为WEB中大量的多样化数据需要进行有效的存储和管理;二是因为在现有的数据库中存储有大量的数据并且需要将这些数据转换为XML发布到WEB中。论文提出了一个基于关系数据库的数据转换框架,基于数据的完整性讨论XML数据存储策略。建立一个XML通用数据模型,把文档树分解成多个节点,根据一定的映射规则存储到关系表中,从而不用考虑文档的模式信息(DTD、XMLSchema)。最后通过一个具体的文档实例来说明这种策略的有效性。  相似文献   

10.
目前在同一行业内使用着多种XML模式语言,因此XML数据转换已成为数据交换的研究热点。当前一些转换模型不能清晰而有力地描述转换语义,为此我们提出了一种关系树模型,它能有效地把XML层次化的特点和成熟的关系理论结合在一起,能处理XML元数据而不是XML实例,并支持DTD和W3C XML模式语言。基于这一模型的转换语义不仅能进行简单元素的映射,而且也能提供复杂关系代数运算的能力,例如整合。这种转换语义中还提供算术运算,极限运算,统计运算和关系演算等多种运算,增加了该模型的转换能力。  相似文献   

11.
目前的XML文档映射关系数据库方法普遍存在生成的数据表较多、查询效率较低等问题,基于模型映射提出一种包含Dewey编码的XML文档映射关系数据库方法。给出了映射的逻辑结构模型、详细设计方案、映射算法和实验结果。实验结果表明,该方法生成的数据表结构简单,与传统算法相比在文档解析和数据查询方面具有一定的性能优势。  相似文献   

12.
传统预测基因表达的线性模型无法解决基因表达谱数据高维度、少样本和非线性的现实问题。对此提出一种基于直连输入输出深度神经网络(DCIO-DNN)和迁移学习的基因表达回归预测模型(DCIO-DNN_GM)。提出一种可以建模landmark和target基因的线性和非线性映射关系的新型网络结构;引入迁移学习策略和正则化技术在小数据集上训练了模型。实验结果表明,该模型各项指标都更高。  相似文献   

13.
中间数据源在异构数据互访中的应用   总被引:4,自引:0,他引:4  
针对异构数据源互访问题的传统解决方案和利用通用数据库访问技术解决方案的不足-系统复杂度高,系统可扩展性差,数据存储格式异构的数据源互访困难,提出并分析了中国数据源解决方案,同时阐述了在实际工作中,是如何运用中间数据源思想解决类似问题的。  相似文献   

14.
目前还没有一个不依赖于模式映射、且支持复杂嵌套XQuery到SQL的查询转换解决方案.针对现状,设计并实现了一个将XQuery转换为等价SQL的查询转换模型(EXSM).该模型基于Shrex框架,以简洁的方式解决了模式依赖问题,并采用树形中间结构,使之支持复杂的嵌套XQuery.因此,该模型有效地涵盖解决了目前存在的两个问题.  相似文献   

15.
网上招生数据传输模型的研究与实现   总被引:3,自引:0,他引:3  
本文对网上招生模式中的数据传输问题进行了深入的研究和具体实现。针对数据传输的安全性、数据传输效率、及时的信息反馈等问题,提出了以四个控制文件为中心的FTP数据传输模型。然后围绕该模型,讨论了FTP的数据传输效率、数据安全性控制,以及控制文件的读写策略等问题,证明该模型在安全性、数据传输效率和信息反馈的时效性方面都满足了网上招生在数据传输方面提出的要求。  相似文献   

16.
图数据划分是基于BsP(bulksynchronousparallel)编程模型的大规模图处理系统中一个关键技术问题。传统的图划分技术需要多次迭代,时间复杂度过高,且划分结果不具有图顶点到分区的映射信息,因此这些算法并不适用于BSP模型下的数据划分。提出了一种新的面向BSP模型的负载均衡Hash数据划分算法(balancedHashpartition,BHP)。为了实现各个分区的出边数尽可能均衡,该算法引入了虚拟桶的概念,通过贪婪算法将虚拟桶重组为实际分区,保证了每个实际分区负载均衡,同时数据本地化策略使本分片上的数据尽可能地保留在本节点上,从而减小在数据加载时的数据迁移开销。从三个方面对比了BHP算法和经典Hash算法的性能,结果表明BHP算法能够提高作业的执行效率,减少消息发送的数量,有效解决了经典Hash算法的负载不均衡和分区间交互边过多的问题,当数据量变大时,效果尤为明显。  相似文献   

17.
Parallel architectures with physically distributed memory provide a cost-effective scalability to solve many large scale scientific problems. However, these systems are very difficult to program and tune. In these systems, the choice of a good data mapping and parallelization strategy can dramatically improve the efficiency of the resulting program. In this paper, we present a framework for automatic data mapping in the context of distributed memory multiprocessor systems. The framework is based on a new approach that allows the alignment, distribution, and redistribution problems to be solved together using a single graph representation. The Communication Parallelism Graph (CPG) is the structure that holds symbolic information about the potential data movement and parallelism inherent to the whole program. The CPG is then particularized for a given problem size and target system and used to find a minimal cost path through the graph using a general purpose linear 0-1 integer programming solver. The data layout strategy generated is optimal according to our current cost and compilation models  相似文献   

18.
分布式存储系统作为数据存储的载体,广泛应用于大数据领域.纠删码存储方式相对副本方式,既具有较高的空间利用效率,又能保证数据存储的可靠性,因此被越来多的应用于存储系统当中.在EB级大规模纠删码分布式存储系统中,元数据管理成本较大,位置信息等元数据查询效率影响了I/O时延和吞吐量.基于位置信息记录的有中心数据放置算法需要频...  相似文献   

19.
异构数据库互访中间件的设计和应用   总被引:3,自引:0,他引:3  
随着数据库实践中基于分布、异构问题的进一步增多,异构数据库互访的实现需要进一步完善和更新。针对异构数据库互访问题的传统解决方案和利用通用数据库访问技术解决方案的不足———系统复杂度高、系统可扩展性差、系统局限性大,提出了一种异构数据库互访中间件方案。该方案着重于给出公共数据格式、查询语言模式的一个统一标准来规范异构数据库互访的过程。文中详细介绍了该中间件提供的服务功能及实现的关键技术。同时阐述了在实际工作中是如何运用中间件解决异构数据库互访问题的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号