首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
电力企业业务数据存在人为干预多、数据口径不一致、缺乏管理规范等现象,造成数据统计困难、及时性低、数据失真等问题,严重影响数据的深化应用。针对该问题,本文提出一种基于数据全生命周期管理的电网企业数据治理方案,通过构建公共数据云,开展数据资源池建设,部署结构化数据中心、非结构化数据中心及海量准实时数据中心等三大公共数据资源管理平台,定义完整的电网数据管控流程和数据责任机制,对数据进行从数据获取到数据加工、数据分发到数据使用的数据全生命周期管理,从各环节把控数据质量,辅以数据质量评估,提升电网数据的及时性、准确性及完整性。经过在输电、配电、电网调度、电网规划等多方面应用实践,该方案实现了多口径业务数据的质量管控及集中应用,提升了数据质量及综合治理水平,实现了专业数据资产全面共享。  相似文献   

2.
随着智能时代和大数据时代的到来,各种复杂异构数据不断涌现,成为数据驱动的人工智能方法、机器学习模型的基础。复杂异构数据的表征直接关系着后续模型的学习性能,因此如何有效地表征复杂异构数据成为机器学习的一个重要研究领域。文中首先介绍了数据表征的多种类型,并提出了现有数据表征方法面临的挑战;其次,根据数据类型将数据划分成单一类型数据和复合类型数据,针对单一类型数据,分别介绍了4种典型数据的表征学习发展现状和代表算法,包含离散数据、网络数据、文本数据和图像数据;然后,详细介绍了4种由多个单一数据或数据源复合而成的复杂数据,包含了离散特征与连续特征混合的结构化数据、属性数据与复杂网络复合的属性网络数据、来自不同领域的跨领域数据和由多种数据类型复合的多模态数据,分别介绍了基于上述复杂数据的表征学习现状以及最新的表征学习模型;最后,对复杂异构数据表征学习的发展趋势进行了探讨。  相似文献   

3.
在大数据产业发展的背景下,医疗卫生领域也开始探索生物医疗大数据的新用途、新价值。随着生物医疗大数据在临床治疗与科学研究中的应用,相应的数据安全隐患也随之出现,其隐私安全保障问题开始引起人们的重视。为了降低隐私泄露的风险,加强人们对生物医疗数据的保护意识,需要从数据的生命周期角度出发,在采集、存储、访问、应用、共享、销毁这些阶段,对生物医疗大数据的操作、管理行为进行规范,并初步搭建了一个大数据云平台来实现电子数据的安全保障。  相似文献   

4.
数据仓库/数据集市体系结构的改进   总被引:2,自引:0,他引:2  
本文提出了一种新的建立数据集市/数据仓库体系结构的方法。它使用同一数据加载机制同时向各数据集市和中心数据仓库加载数据,将当前数据和轻度综合数据加我到数据集市,将历史数据和共享数据加载到中心数据仓库.并通过二次集成特各部门高度综合的数据加载到中心数据仓库。这种结构既具有自底向上方法的优点,又具有自顶向下方法的优点,例如。开发简单、数据结构统一等;而且比联合方法优越的是,解决数据的重复存储,使数据存储结构更合理,提供的数据更符合各级决策者需要。  相似文献   

5.
针对运载火箭测试发射数据分散存储且数据利用不充分的问题,提出了以数据仓库技术对火箭的测试发射数据进行组织和存储管理,实现对火箭数据价值的深层次发掘。根据运载火箭数据的特点,提出了数据仓库基础层、源数据层、数据交互层、数据架构层、应用层、显示层六个层次的框架设计;通过面向火箭数据分析和故障诊断的数据清洗规则设计,对不同来源、不同格式的数据进行清洗和加载;对火箭的数据应用方向进行了探索,设计了包络分析、相关性分析、故障诊断等数据分析模块。用某型号火箭测试发射数据进行了验证,结果表明,数据仓库方案切实可行,为后续火箭数据的持续性管理和分析奠定了基础。  相似文献   

6.
详细介绍了“黑河综合遥感联合试验”(Watershed Allied Telemetry Experimental Research,WATER)的地面观测数据(气象水文和涡动相关数据除外)的数据质量控制和处理过程。从观测规范的制定和执行、数据处理和规范化、数据文件命名规范化、数据质量评价等方面进行详细阐述。不仅为数据用户提供数据质量参考信息,也为以后类似试验的开展提供一些数据质量控制和处理的借鉴。通过数据评价可以看出WATER试验的地面观测数据总体上具有较高的数据质量,这些质量控制措施为最后获取高质量的试验数据提供了重要的保证。利用这一套多尺度、标准化的高质量综合数据集开展大量数据分析和应用研究是下一步工作的重点。  相似文献   

7.
高云君  葛丛丛  郭宇翔  陈璐 《软件学报》2023,34(5):2365-2391
目前,各个国家和地区均已将大数据视为重要的战略资源.然而,大数据时代普遍存在数据流通困难、数据监管不足等问题,致使数据孤岛现象严重,数据质量低下,数据要素潜能难以释放.这驱使研究人员探索数据集成技术,以打破数据壁垒、实现信息共享、提升数据质量,进而激活数据要素潜能.关系型数据和知识图谱作为两种至关重要的数据组织与存储形式,在现实生活中应用广泛.为此,聚焦关系型数据和知识图谱,归纳总结并分析实体解析、数据融合、数据清洗3方面的数据集成关键技术,最后展望未来研究方向与趋势.  相似文献   

8.
试飞数据是民机飞行试验的重要产物,具有测量参数数量大,数据体量大,飞行试验数据与试飞任务信息关联性强等特征,支撑飞机型号取证与设计优化等任务。试飞数据平台数据架构对多源异构数据集成接入、多类形态数据存储管理、多种层次数据处理分析等技术进行了研究,采用湖仓一体的关键技术和方法打造试飞数据全集。试飞数据接入采用流批一体的数据处理技术,融合Spark和Flink主流数据处理引擎,具备试飞数据快速入库能力。提出按秒聚合方法,具备PB级多维度试飞数据压缩存储功能,存储性能提升近10倍;采用以秒为索引条件支持快速检索,强化数据湖查询能力。研究数据仓库技术,设计试飞数据多层数据模型,具备多维信息精细查询,多层数据灵活钻取,多功能自定义函数集成等功能,并成功应用在某型国产民机的飞行试验数据管理中,服务于试飞数据用户,提高了试飞数据管理效率与试飞数据应用价值。  相似文献   

9.
在数据中心放置海量数据时,每个数据常有多个副本,服务提供商需要支付巨额电费以运行存储这些数据副本的服务器。同时,为保证多个数据副本的一致性,放置在不同数据中心的副本需要通过数据中心之间的网络进行同步,从而引发高额的网络传输费用。为此,以最小化多副本数据放置代价为目标,建立数据放置问题模型,并提出一种基于数据组和数据中心划分的数据放置算法DDDP。将数据划分为多个数据组,按用户访问数据的延迟要求将数据中心划分成数据中心子集,并将每个数据组中的数据放置到能满足访问延迟要求且能最小化放置代价的数据中心子集中。仿真结果表明,相比NPR算法,DDDP算法能有效降低数据中心存储数据时的放置代价。  相似文献   

10.
工业大数据是在工业领域信息化应用中所产生的海量数据,作为决策问题服务的大数据集、大数据技术和大数据应用的总称。首先分析工业大数据4V特性与工业数据的特有特征,以及工业大数据来源;从多源异构工业数据集成与数据融合方法、工业大数据计算架构、大数据带来的信息安全等三方面论述工业大数据面临的挑战与潜在价值。探讨了工业大数据分析与挖掘方法,提出了工业大数据平台的计算架构与大数据处理平台,构建轮胎企业大数据资源中心、大数据分析与决策应用系统。从销售数据分析和宏观数据趋势两个层面进行轮胎销售大数据分析与预测。采用多个不同领域的销售数据源来解决销售预测历史数据特征空间稀疏的问题,使用LASSO(The Least Absolute Shrinkage and Selectionator Operator)方法的多任务学习方法来解决高维样本空间的缺点,实验数据验证能够提升轮胎销售预测的准确率。  相似文献   

11.
为了解决实际问题,大数据分析处理系统需要获取数据,然而实际场景中收集到的实际数据通常不完备.另外,大多数问题的解决方案通常是由问题引导或者仅仅进行数据分析,运行参数调整和设定带有较大的盲目性,难以达到应用的智能性.为此,文中提出平行数据的概念和框架,根据实际数据经计算实验产生真正的虚拟大数据,结合默顿定律,以期待的解决方案与问题进行广义对偶,引导大数据聚焦到实际问题.实际数据与虚拟数据动态互动,平行演化,形成一个虚实相生、数据动态变化的过程,最终使数据具备智能,进而解决未知的问题.平行数据不但是一种数据表示形式,更是一种数据演化机制与方式,其特色是虚实互动,所有数据的动力学轨迹构成了数据动力学系统.平行数据为数据处理、表示、挖掘和应用提供了一个新的范式.  相似文献   

12.
气象数据共享是气象预报预警、公共气象服务的基础。针对地市级气象数据存储分散、共享水平低、无标准等问题,从气象应用需求和数据共享角度,首先设计标准化数据获取客户端,以灵活配置的形式完成多种气象资料的解析。通过气象资料的逻辑划分,实现物理上集中存储,逻辑上相对独立的方式进行数据存储和管理。同时,系统以多种方式进行数据共享服务和安全访问控制。在标准化气象数据获取、一体化气象数据存储与管理,数据共享服务等方面,构建了灵活、高效的气象数据流程,设计和实现了一种面向地市级的实时气象数据共享系统。在整个数据流程中,均考虑每个环节的监控,为集中运维提供可靠的数据参考。目前,该系统已经投入业务使用,为市县两级气象应用的数据调取和公共气象服务提供稳定、高效的实时数据共享服务,取得了较好的应用效果。  相似文献   

13.
Fˉ-残缺数据是由Fˉ-数据(x)Fˉ与损失数据(x)-构成的数据对((x)Fˉ,(x)-),((x)Fˉ,(x)-)具有内-动态特性,应用于一类具有数据元减少特征的信息系统。基于Fˉ-残缺数据可视化问题,应用Fˉ-残缺数据提出Fˉ-残缺数据圆概念,讨论Fˉ-残缺数据辨识与恢复的几何方法。给出Fˉ-残缺数据圆位置关系定理,Fˉ-残缺数据的Fˉ-残缺数据圆辨识定理与辨识准则;给出Fˉ-残缺数据的Fˉ-残缺数据圆恢复定理,并给出应用。Fˉ-残缺数据圆是由数据圆OFˉ,O-构成的数据圆对(OFˉ,O-),Fˉ-残缺数据圆为研究Fˉ-残缺数据提供了一种几何方法。  相似文献   

14.
数据布局的合理性直接影响数据中心间的数据调度效率,进而提高对用户的数据采集效率。论文以数据中心之间数据调度为基础建立数学模型,利用分布式云计算技术处理用户的海量数据,并提供高性能计算资源和海量存储资源模式。在分布式云计算系统中,数据密集型计算可以有效处理数据中心之间的数据调度,通过遗传算法的全局优化能力产生最佳的近似解,并最终获得数据布局的最佳近似结果。实验结果表明,遗传算法可以有效地计算出最优数据布局的近似结果,并使数据中心之间的数据调度最小化。  相似文献   

15.
分布式海量矢量地理数据共享研究   总被引:16,自引:0,他引:16       下载免费PDF全文
地理空间数据的应用应用范围迅速扩大,实现空间数据的共享,充分有效利用已有数据,可节约用户成本,栅格数据的共享方式在多媒体领域有较多研究,而矢量数据研究得不多,本文讨论了分布式海量矢量地理空间数据共享的几个问题-海量空间数据的管理,传输,可视化及空间数据共享的安全问题。  相似文献   

16.
为了使网络大数据应用的范围更广,更大程度地提高网络数据存储与管理精度,减少网络数据处理与控制的时间,需要对网络大数据进行研究。当前的网络大数据研究方法多是采用Hadoop基础架构对网络大数据进行研究,在数据存储中没有设定具体的安全存储指标,无法得到数据安全存储指标权重,存在数据存储安全性能低,网络大数据研究精度偏差大等问题。为此,提出一种基于云计算和物联网的网络大数据研究方法。该方法首先利用分级网络编码对网络数据进行传输,以传输的数据为基础,采用CRC算法实现网络数据的计算,然后依据分组存储的方式将数据进行存储,最后利用分层逆序叠加定位法对网络数据进行高精度查询,由此完成对网络大数据的研究。实验结果表明,所提方法可以全面具体地对网络大数据进行研究,提高了数据处理精度和网络数据计算速度,增加了网络数据存储空间容量和查询效率,减少了网络数据运行时的丢失率,扩展了网络数据的运作范围,为后续网络大数据的研究提供了强有力的依据。  相似文献   

17.
针对当前数据治理过程中面临的数据标准不统一、数据质量良莠不齐以及数据安全隐私凸显等问题,提出一种基于区块链的数据治理协同方法,将区块链多方协作、安全可信等特性应用到数据标准的构建、数据安全的保障和数据共享过程的控制。本方法首先根据数据治理要求和区块链特征,提炼形成基于区块链的数据治理协同模型,通过构建多方协作的数据标准流程、数据标准构建和更新机制、安全可靠的数据共享和访问控制等,实现区块链数据治理协同方法,从而提升数据标准化工作的效率和安全性。实验及分析结果表明,该方法比传统的数据标准构建方法在标准用语申请时间效率上有明显的提升,特别是在大数据环境下,基于区块链智能合约的方法对时间效率提升更为明显,基于区块链的分布式存储等特性为系统的安全、用户行为追溯和审计提供了有力依据和保障。该方案对于数据治理工作具有良好的应用示范效果,为行业的元数据管理、数据标准的共享和应用提供了借鉴思路。  相似文献   

18.
Data preparation is an important and critical step in neural network modeling for complex data analysis and it has a huge impact on the success of a wide variety of complex data analysis tasks, such as data mining and knowledge discovery. Although data preparation in neural network data analysis is important, some existing literature about the neural network data preparation are scattered, and there is no systematic study about data preparation for neural network data analysis. In this study, we first propose an integrated data preparation scheme as a systematic study for neural network data analysis. In the integrated scheme, a survey of data preparation, focusing on problems with the data and corresponding processing techniques, is then provided. Meantime, some intelligent data preparation solution to some important issues and dilemmas with the integrated scheme are discussed in detail. Subsequently, a cost-benefit analysis framework for this integrated scheme is presented to analyze the effect of data preparation on complex data analysis. Finally, a typical example of complex data analysis from the financial domain is provided in order to show the application of data preparation techniques and to demonstrate the impact of data preparation on complex data analysis.  相似文献   

19.
数据树——一种用于异构数据源集成的公共数据模型   总被引:7,自引:0,他引:7  
文中提出一种异构数据源集成的公共数据模型-附有元数据的数据树。数据树的元数据附在数据上,便于表达没有稳定模式的数据、自描述的数据、非结构化和半结构化的数据以及从各种异构数据源集成的数据。作为数据树操纵语言的数学基础,文中提出了数据树代数,它提供了八种操作,比关系代数具有更大的灵活性和较强的功能。  相似文献   

20.
各种各样网络的兴起和发展,半结构化及非结构化数据成几何倍数增长,数据规模和数据种类正以前所未有的速度增长,大数据时代已经来临。如何更好地管理和利用大数据已经成为普遍关注的话题。简要分析了数据库技术的发展历程,阐述了大数据时代数据管理方式,并对大数据时代数据管理方式作出了展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号