首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
大数据时代的到来催生了一门新的学科——数据科学。首先,探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系。其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业中的数据科学及大数据生态系统中的相对热门话题。接着,探讨了数据科学研究中的10个争议及挑战:思维模式的转变(知识范式还是数据范式)、对数据的认识(主动属性还是被动属性)、对智能的认识(更好的算法还是更多的数据)、主要瓶颈(数据密集型还是计算密集型)、数据准备(数据预处理还是数据加工)、服务质量(精准度还是用户体验)、数据分析(解释性分析还是预测性分析)、算法评价(复杂度还是扩展性)、研究范式(第三范式还是第四范式)、人才培养(数据工程师还是数据科学家)。然后,提出了数据科学研究的10个发展趋势:预测模型及相关分析的重视,模型集成及元分析的兴起,数据在先、模式在后或无模式的出现,数据一致性及现实主义的回归,多副本技术及靠近数据原则的广泛应用,多样化技术及一体化应用并存,简单计算及实用主义占据主导地位,数据产品开发及数据科学的嵌入式应用,专家余及公众数据科学的兴起,数据科学家与人才培养的探讨。最后,结合文中工作,对数据科学研究者给出了几点建议和注意事项。  相似文献   

2.
数据的集成与交换,对企业的管理和决策意义重大.数据集成和交换必须解决抽取、转换和加载,但过去的异构系统很难实现,从需求分析、系统设计和系统实现3个方面,设计了一种针对数据抽取、转换和装载(Extract、Transform、Load)的ETL工具.根据ETL工具的综合要求,通过结构化分析需求,构建了系统逻辑模型;设计了...  相似文献   

3.
介绍一种高效、可靠的基于实时数据库读写的工业实时数据清洗系统的实现方案.目前,工业实时数据的清洗主要采用了基于关系型数据库的方式,在数据量呈现海量增长的今天,弊端显著.针对该现状,提出了一种基于实时数据库本身的工业实时数据清洗系统设计思路,从系统功能需求、系统分析与设计,以及系统实现3个方面做了阐述.实践表明,系统实现了对工业实时数据的快速、稳定清洗目的.  相似文献   

4.
数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不准确的数据,精确恢复其时间戳是困难的,但可以依据一定的规则对其时间先后顺序进行还原恢复,满足数据清洗及各类应用需求.在数据时效性应用需求分析的基础上,首先明确了属性的时效规则相关概念,对属性的时效规则等进行了形式化定义;然后提出了基于图模型的时效规则发现以及数据时序修复算法;随后,对相关算法进行了实现,并在真实数据集上对算法运行效率、修复正确率等进行了测试,分析了影响算法修复数据正确率的一些影响因素,对算法进行了较为全面的分析评价.实验结果表明,算法具有较高的执行效率和较好的时效修复效果.  相似文献   

5.
《软件工程师》2017,(1):1-4
为解决当前分布式系统中多数据源、多异构数据库问题,针对现有的数据库同步方案在实际应用中所暴露出的资源损耗大、可移植性差、应用范围窄等问题,在分析了现有的数据同步技术的各自优缺点的基础上,提出了采用Sql plus和Merge语句相结合的数据库同步方案,并对数据同步的系统进行了设计,最后通过功能比较和性能分析,该方案在资源损耗、可移植性、应用范围等方面更具优势。  相似文献   

6.
数据基因:数据的遗传信息载体   总被引:3,自引:0,他引:3       下载免费PDF全文
基因是生命体进化过程中遗传信息的载体,该文参照生命体基因的概念,提出了用于描述数据生命历程的简单的数据基因模型。给出了数据基因、数据基因序列、数据基因组等概念,介绍了这种模型的应用领域及应用方法,对下一步工作进行了展望。  相似文献   

7.
电、水、气等行业存在信息无法共享、抄表、漏损等难题,并且具有数据异构、海量等特点,如何应对数据的集中治理和清洗是面临的挑战之一。文章基于非关系型数据库设计了一种多源数据平台,提出的数据平台包括数据传输、数据治理和数据发布,并研究了异构数据融合、批处理计算能力、高可用性、平台安全与可靠性四方面的关键技术。在实际工程应用中,通过对复杂数据的有效处理,验证了所设计的数据平台可以支持实际应用中的功能要求。  相似文献   

8.
基于移动行业的ETL方法及策略探讨   总被引:2,自引:1,他引:2  
基于移动行业的数据仓库,对数据抽取、数据转换、数据装载和数据审计的方法和策略进行了探讨,这些方法和策略对其他行业数据仓库的构建具有借鉴作用。  相似文献   

9.
基于VB,设计了棉麻纤维纱线晶变改性成套装备传感器信号数据处理方案.方案主要由数据标定、数据滤波、数据补偿、数据应用及储存四部分组成.介绍了传感器相关参数,给出了传感器物理值计算公式.通过数据滤波,降低了数据采集过程中随机干扰对数据造成的随机误差.通过数据补偿,采集值更加接近传感器液晶屏数显值.对处理后数据应用的同时将数据导入到SQL数据库保存.经现场运行,该方案稳定可靠,满足了设计要求.  相似文献   

10.
数据质量的定义、数据质量问题的来源、数据质量提高途径等基本问题,是数据质量控制研究的基础。分析了现有数据质量定义的局限性和片面性,依据国际标准化组织对质量的定义,重新对其进行了定义。将数据质量问题来源分为四种情况:数据录入错误、测量错误、简化错误和数据集成错误。归纳了数据质量提高的具体手段,指出数据质量控制需综合应用管理和技术手段。校正了对以上基本问题的认识偏差,为更深入的数据质量研究提供了依据。  相似文献   

11.
Edge computing pushes application logic and the underlying data to the edge of the network, with the aim of improving availability and scalability. As the edge servers are not necessarily secure, there must be provisions for users to validate the results—that values in the result tuples are not tampered with, that no qualifying data are left out, that no spurious tuples are introduced, and that a query result is not actually the output from a different query. This paper aims to address the challenges of ensuring data integrity in edge computing. We study three schemes that enable users to check the correctness of query results produced by the edge servers. Two of the schemes are our original contributions, while the third is an adaptation of existing work. Our study shows that each scheme offers different security features, and imposes different demands on the edge servers, user machines, and interconnecting network. In other words, all three schemes are useful for different application requirements and resource configurations.  相似文献   

12.
面向海量数据的数据一致性研究   总被引:6,自引:0,他引:6  
复制是实现海量数据管理的关键技术之一,多副本之间的数据一致性维护是提高分布式系统的容错能力与性能的重要保证。强一致性确保并发的修改操作不会发生冲突,但是限制了系统的可用性、连通性以及副本数量;弱一致性确保副本的最终一致,提高了系统的容错能力。本文从已有的一致性维护方法出发,结合海量数据的特点,对一致性维护过程中所涉及的更新发布、更新传播方式、更新传播内容以及更新冲突解决等几个方面进行了分析,提出了相应的解决方法。  相似文献   

13.
数据网格中的数据复制技术研究   总被引:4,自引:0,他引:4  
数据复制技术是数据网格系统中广泛采用的改善网格系统性能的关键技术之一。与传统分布式系统应用领域中的复制相比,数据网格中的复制技术在复制目标、复制粒度、复制关键技术等方面表现出独特性质。本文将数据复制技术概括为副本创建、数据传输、副本删除、副本选择、副本一致性管理、安全管理等环节,深入分析、探讨了数据网格系统中数据复制的各项关键技术,为建立综合的数据网格复制策略和技术框架提供了全面的技术分析。最后,对数据复制技术下一步的研究方向作了分析和预测。  相似文献   

14.
Data grid is a distributed collection of storage and computational resources that are not bounded within a geophysical location. It is a fast growing area of research and providing efficient data access and maximum data availability is a challenging task. To achieve this task, data is replicated to different sites. A number of data replication techniques have been presented for data grids. All replication techniques address some attributes like fault tolerance, scalability, improved bandwidth consumption, performance, storage consumption, data access time etc. In this paper, different issues involved in data replication are identified and different replication techniques are studied to find out which attributes are addressed in a given technique and which are ignored. A tabular representation of all those parameters is presented to facilitate the future comparison of dynamic replication techniques. The paper also includes some discussion about future work in this direction by identifying some open research problems.  相似文献   

15.
陈江山  康慕宁  李兰兰 《微处理机》2007,28(6):59-62,66
数据更新流程是远程复制系统的框架。针对不同的应用需求,系统可以采用不同的复制模式。文中主要讨论异步模式下的数据更新流程。在分析借鉴了已有的异步复制协议基础上,提出了一种改进性能的异步复制流程。原型实验表明,此数据更新流程的设计在保持数据的一致性以及系统简单、可靠性的同时,也降低了复制过程中对网络带宽的需求和I/O操作的数量。  相似文献   

16.
数据网格中,数据副本技术提高了数据的访问速度,减少了带宽的消耗.副本创建策略是数据副本研究中的重要问题之一.提出了在P2P网络环境下,一种基于滑动窗口技术的副本创建和替换策略.使用传输时间比作为副本创建和替换的依据.分析和模拟显示,该方法能在控制访问空间的同时,获得良好的性能.  相似文献   

17.
针对传统的集中式复制结构存在的单点瓶颈和扩展性差等不足,提出了基于分布式结构的数据复制系统。通过将数据同步分散的复制到从节点,使得从节点能在单位时间内获得主节点的最大备份。通过从节点之间点对点的数据复制,使得在保证主从端数据一致性的同时,充分利用了从节点的资源,分散了主节点的负荷。  相似文献   

18.
We present the AMGA metadata catalogue, which was developed as part of the EGEE (enabling Grids for EsciencE) project’s gLite Grid middleware. AMGA provides access to meta data for files stored on the Grid, as well as a simplified general access to relational data stored in database systems. Design and implementation of AMGA was done in close collaboration with the very diverse EGEE user community to make sure all functionality, performance and security requirements were met. In particular, AMGA targets the needs of the high energy physics community to rapidly access very large amounts of metadata, as well as the needs for security of the biomedical community. AMGA therefore tightly integrates fine grained access control making use of a virtual organisation management system. In addition, it offers advanced federation and features to increase dependability, performance and data security.  相似文献   

19.
Informix高可用性数据复制及应用   总被引:1,自引:0,他引:1  
文章首先详细介绍了InformiX高可用性数据复制的原理、对计算机系统的要求和初始化过程。然后提出了建立人寿保险地市级分公司灾难备份中心和改善人寿保险计算机处理系统性能方面的一些设想和建议。  相似文献   

20.
信息技术的进步推动了OA系统特别是远程OA系统的应用,网络流量的限制使Internet日益变成了OA系统的瓶颈。针对Internet瓶颈问题提出了OA系统的数据分布策略,对数据复制操作进行了研究,分析了数据复制的原理及冲突解决策略,最后设计了一种基于Agent的透明复制模型并进行了实际应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号