首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
蔡珉官  王朋 《计算机应用研究》2023,40(12):3529-3538
传统存储技术已经不适合大数据时代的数据分析和应用,数据湖概念的出现有效解决了数据存储成本高、灵活性低、异构数据多样化等问题。目前数据湖研究还处于早期阶段,缺乏覆盖数据处理全过程的综述性研究。为了更全面地了解数据湖技术,调查分析了近几年数据湖技术的研究成果。首先,梳理了数据湖发展历程和概念,并与其他类似的概念进行了比较;其次,对数据湖架构进行了调查,并根据架构特征把数据湖关键技术分为存储、数据摄取、数据维护、数据探索、数据治理等部分,分析和讨论了关键技术的最新研究进展、技术方案、研究缺陷以及今后研究方向;最后,调查了数据湖在各个应用领域的典型应用,为各行业数据湖的实施者提供了参考。  相似文献   

2.
数据湖作为一种新兴的数据处理和分析技术,在处理大规模数据集方面表现出了显著的性能优势。国内外相关文献对数据湖的架构、关键技术和应用进行了全面而深入的研究,为相关研究人员提供了有价值的参考。文章首先对数据湖与数据仓库的概念进行了辨析,明确了两者的区别;其次概述了当前流行的数据湖框架和架构,并详细阐述了数据湖的核心功能,包括多源数据的集成、高效的数据存储和计算能力,以及有效的数据治理等;最后探讨了数据湖研究未来的发展方向,如存算分离技术和云原生应用等。  相似文献   

3.
云原生数据湖已经成为数据管理和分析领域的研究热点,相关技术和应用也得到了广泛的关注和探索。数据湖部署存在着成本高、组件之间兼容性差等问题,存算不分离制约着数据湖平台延展性,缺乏完备的数据入湖体系容易引起数据湖沼泽的形成,导致用户无法从中提取数据价值。该文设计并实现了云原生数据湖服务平台,平台以Kubernetes为底层构建云原生环境,结合容器技术将数据湖组件镜像化,同时设计数据湖存算分离方案来提高数据湖平台的可扩展性和可移植性,并配合监控、组装生产线将镜像容器化,实现数据湖上云操作。并建立用户入湖作业与云原生计算引擎之间的桥梁,对入湖信息进行预处理,提供多类型作业以满足多元化入湖场景,以统一catalog的方式将数据写入数据湖中。实际运行结果表明,该平台既提高了数据湖平台的灵活性和可靠性,又确保了元数据和数据资产的规范性存储。  相似文献   

4.
针对目前高校在数据集成、数据治理和数据服务等方面的问题,提出了基于数据中台的解决方案,在数据的采集和加工处理中引入数据湖、主题层和专题层,并对数据中台的整体架构设计、中台内数据的分层设计、数据模型的构建、数据服务体系的设计进行了详细阐述;对基于数据中台的快速应用构建,提出了采用大中台、微服务的系统建设方式,通过对系统进行解构,重新根据不同业务逻辑进行模块化组装,实现快速灵活构建业务系统。经过实际案例验证,该研究对于高校如何建设数据中台以及如何在中台上开展各类数字应用建设提供了很好的范例。  相似文献   

5.
随着大数据技术的发展,如何存储和处理各类民机运行支持数据,为企业用户提供所需数据,已成为主制造商企业进行数字化转型、洞察企业盈利和增值的关键因素之一;当前,主制造商数据采用传统数据库或数据仓库的模式无法满足航空运行数据指数级增长的需求;同时,数据管理标准、格式差异较大,不同用户无法快速获取有用信息,造成"企业数据孤岛";鉴于此,文章提出了一种基于Lambda的运行支持数据湖系统设计方法;首先介绍了数据湖的概念和特点;然后,介绍了基于Lamb-da 的运行支持数据湖系统的架构设计方案;结合运行支持数据湖的服务需求对系统功能进行设计;基于Angular、Spring Boot等开发了民机运行支持数据湖系统,为主制造商开展集中式数据管理、挖掘数据应用价值,实现企业数字化转型提供支撑.  相似文献   

6.
田蕾 《信息与电脑》2023,(18):30-32
随着大数据技术的不断发展,数据湖在企业的信息管理、决策支持、业务流程优化等方面起着越来越重要的作用。目前,油气田企业中的信息化孤岛现象严重,亟待治理。针对此问题,提出油气田企业数据湖的构建与应用方案。该方案能够为各业务板块提供数据存储环境,打破数据孤岛,为企业提供良好的数据应用生态。  相似文献   

7.
高校无线网在为师生提供联网方式的同时,也积累下大量的数据,这些数据作为高校大数据的重要内容,可以为高校的教育管理决策提供支撑。本文以中国政法大学为例总结了无线网的建设现状及已有的无线网数据,提出了无线网的应用场景,助力于高校的改革开展。  相似文献   

8.
《信息与电脑》2019,(24):116-118
根据高校信息化对数据可视化的需求,笔者首先构建了高校大数据平台的总体框架,对数据采集、数据清洗和数据可视化做了着重阐述;然后就高校大数据平台的具体应用构建了四大数据分析主题,助力高校管理效率和决策水平的提升,为师生提供优质的数据服务。  相似文献   

9.
与过去传统的数据存储库相比,数据湖在数据收集、数据价值的发挥、数据孤岛的消除等方面都有着显著的优势,加之有着良好的扩展性与敏捷性,因此被越来越多的行业所重视。烟草行业作为高税负行业,如何将数据湖技术应用其中,对于数据集成能力以及数据治理能力的提升起着至关重要的作用,不仅能为营销环节做出更为精准的预测分析,而且对于财务管理也能起到十分积极的影响。本文基于此背景,首先对数据湖相关概念进行了简单介绍;其次对数据湖方案的价值以及可行性进行了分析;最后详细阐述了数据湖在烟草行业中的应用与研究,以供相关工作者参鉴。  相似文献   

10.
为更好助力企业和高校复工复学,由奥德塔自主研发的企通查企业风控大数据+教育科研大数据服务平台,特面向企业和高校免费开放大数据资源服务,为企业实现供应商和客户业务风控提供核心数据保障,为高校教学和科研提供丰富的大数据资源保障。  相似文献   

11.
数据网格的数据管理策略   总被引:6,自引:0,他引:6  
数据网格的目标是使数据密集型的高性能计算和数据密集型的数据共享事务处理及科学研究成为可能,数据网格主要包括数据存储系统和数据管理系统两大部分.数据管理系统对所存储的数据进行管理,主要包括数据的传送和复制等操作.文章对数据管理策略进行了详细的分类评述并且讨论了目前数据管理系统中的某些局限性和进一步的工作.  相似文献   

12.
 大数据处理是目前研究的一个热点问题,大数据给数据存储、数据管理、数据检索带来巨大的挑战,它对存储硬件、存储策略、检索方法等研究提出了更高的要求。针对大数据处理问题,提出基于业务分割的、并行式数据迁移策略,并在此基础上开发数据迁移平台。实验结果表明:该平台在数据访问速度、占用系统内存等方面,比传统的数据迁移方法拥有更大的优势。目前该平台已在某银行收支核查系统中取得了很好的使用效果。  相似文献   

13.
随着语义网的快速发展,为了实现科学数据的共享,越来越多的科学数据被加工发布为关联数据,进而应用于关联查询和关联发现。针对大规模关联数据的管理,本文通过构建 RDF 数据库集群来存储海量数据,设计了基于 SPARQL 端点的联合查询系统来解决用户跨机器透明查询的问题,分析了存储策略和联合查询系统的查询处理相关技术。实际运行表明,本平台易于集成使用,可以实现大规模 RDF 数据的可扩展性存储和有效查询。  相似文献   

14.
为解决智能电网的发展中电网运行和设备检测或监测数据、电力企业管理数据、电力企业营销等数据海量的增加带来的不同业务系统之间分散地开发、运行和管理,系统数据存储结构独立,带来数据多源、格式不一致,数据准确性、实时性不强,数据质量不高,缺乏统一的数据规范等问题,本文利用Hadoop的分布式文件系统HDFS和并行处理框架MapReduce的工作原理,搭建电网调度大数据应用平台系统,解决了不同业务系统之间的数据不能及时共享、访问、管理与分析挖掘等问题。采用数据清洗数据,解决数据质量不高的问题。搭建电网调度大数据应用平台系统,既能实现跨专业、跨部门的多维度关联分析,又能满足海量的智能电网数据存储和数据处理需求,并具有强大的伸缩性,可扩展为电网实现安全、可靠、经济、高效地运行提供保障。  相似文献   

15.
提出一种适应动态环境、无需数据映射表的多副本数据对象映射算法.该算法引入节点权重,借鉴一致性Hash技术,使得海量的数据对象按照节点服务能力在各存储节点间均匀分布;当存储节点个数发生变化时,数据依然在节点间均匀分布,且数据迁移量接近理论下限;只需维护少量数据即可计算得到数据布局,从而有效提高了系统的可扩展性.测试结果表明,算法可使所有节点分配对象个数与理论值偏差小于5%,节点个数变化时移动数据数量与理论下限偏差小于1%.  相似文献   

16.
为了对大规模脉冲星及暂现源数据处理技术运用研究的突破,为国家大科学工程FAST实现提供有效的技术支持,加速在脉冲星和暂现源科学研究方面科研成果的产出.尽可能详细记录脉冲星科研数据处理结果,解决数据分析处理过程、科研结果不便于管理、共享等问题.FAST早期科学数据中心设计开发了面向FAST的脉冲星科学数据管理平台.讨论了...  相似文献   

17.
高校事务信息的数据规模较大,更新速度较快,复杂度较高,需要设计有效的高校管理信息系统,提高信息管理能力。传统的高校管理信息系统设计采用嵌入式Visual Basic的信息管理系统构架方法,系统的信息再植入能力和多线程处理性能不好,提出一种基于多元特征数据挖掘和嵌入式Linux内核的高校管理信息系统设计方法。首先在嵌入式Linux的核单元中进行高校管理信息系统总体设计和文件配置,进行系统的功能模块分析和技术指标描述。设计基于相空间重构和关联特征提取的数据挖掘算法,进行高校管理信息的有用特征挖掘和提取。以数据挖掘结果进行程序加载和引导,进行高校管理信息系统的软件开发和设计,主要包括程序加载模块、数据存储模块、交叉编译模块以及网络通信模块的设计,实现基于数据挖掘的高校管理信息系统的改进设计。实验结果表明,采用该系统进行高校管理信息的挖掘和存取调度,具有较好的可靠性和人机交互性,系统的吞吐性能和执行时间开销等指标具有优越性。  相似文献   

18.
数据中心平台是信息采集、加工处理和存储各类共享数据,并为学校师生提供信息共享服务的平台,用以存放数据的同时能够有效地管理数据,对大量的信息进行科学、规范的定义和分类,并提供数据访问的手段,为多个系统的集成和各个系统之间的数据共享提供平台,保证数据的及时性、完整性和一致性。本文以广州电大实施的数据中心平台系统为例,分别对数据中心平台的总体结构和各个子系统进行了详细的说明,并指出了今后数据中心发展的趋势。  相似文献   

19.
作业描述语言为远程教育中的Web作业管理系统,提供了一套基于XML的分割、表示与处理半结构化作业数据的解决方案,并可为异构型作业管理系统之间交换作业文档提供一种技术规范。介绍了基于XML模式的作业描述语言的设计过程与使用方法,并对XML作业文档的验证、显示与存储等处理方式进行了讨论。  相似文献   

20.
电力系统动态信息数据库关键技术   总被引:4,自引:0,他引:4  
在介绍了基于时间序列的动态信息数据库结构的基础上,结合电力系统数据特点,分析了并发数据处理、内存映射文件、磁盘缓存、关联数据存储等构建动态信息数据库的关键技术,并着重研究了数据采集流程和混合压缩算法。经实际应用案例表明,采用该关键技术构建的动态信息数据库满足了电力系统海量数据高速存储的要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号