首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
数据的开放、共享、流通是当前发展大数据的关键问题。数据交易是数据流通的新型手段。大数据试验场和大数据交易中心成为大数据产业的两大支撑基础设施。大数据交易中心迫切需要大数据试验场提供技术支撑,研制安全可信公平的数据交易技术和规范、数据访问和权属管控,以有效地支持数据交易,促进数据流通。  相似文献   

2.
科学数据出版现状及其体系框架   总被引:3,自引:0,他引:3  
科学数据出版是深化数据共享的重要手段,能够激励数据生产者发布和共享数据,又能保护数据的知识产权。回顾了国内外科学数据出版现状,从数据中心和传统出版系统两个角度,提出和完善了科学数据出版体系架构。提出数据出版涉及数据提交、同行审议、数据发布和永久存储、数据引用和影响评价5个基本环节,应由出版系统、数据中心和第三方数据评价机构协同实施。重点讨论了科学数据出版面临的关键问题:数据授权、数字资源唯一标识符、数据集成和数据稿源问题。倡议建立我国的科学数据出版体系,科学数据中心在开展数据收集和共享的同时,加强与学术期刊的合作,成为数据出版的永久存储机构;学术期刊积极开展机制创新,推动学术论文相关数据的公开发布;积极开展数据知识产权保护,倡导对科学数据的引用;加强科学数据的影响评价研究,让数据成果成为普遍认同的科研产出成果,激励科学家主动参与科学数据共享。  相似文献   

3.
数据集成包括数据的抽取、转换、加载三个过程。针对当前大多数据集成工具适应性差、源数据端和目的数据端的耦合度太紧和数据不易自动更新的问题,基于发布/订阅机制的消息代理模式提出了一种新型的数据集成体系结构,把数据集成划分为源数据处理(抽取转换)和目的数据处理(过滤加载)两个过程,不仅实现了数据的可靠异步传输,而且降低了源数据端和目的数据端的耦合度,增加了数据集成的灵活性,并使数据的抽取转换和过滤加载独立、并行执行。实验结果也证明了提出的数据集成方法有效地提高了数据集成的效率。  相似文献   

4.
当前,数据要素潜能加快激活,数字中国建设稳步推进,数字化力量成为我国加快供给侧结构性改革、实现经济高质量发展的重要驱动力。在数字时代,数据是驱动经济社会发展的关键生产要素和新引擎,数据市场是数据要素流通交易、场景对接和价值实现的重要媒介和场所,而健全优化数据市场治理是促进数据资源开发利用和数字经济发展的重要环节。近年来,以数据采集、数据储存、数据加工、数据流通等环节为核心的数据要素市场增长迅速。虽然我们已经在数据确权、定价、交易等方面取得了一些成绩,但我国数据要素市场的培育和发展仍处于起步阶段,数据市场治理尚不成熟,面临着数据权属界定不明晰、数据流通交易机制尚不完善、数据监管法律法规亟待完善等问题。“十四五”时期是我国由工业经济向数字经济大踏步迈进的关键时期,数据要素的价值释放和数据市场的统筹建设成为了当下的重要命题。  相似文献   

5.
针对人工智能算法和大数据技术在地质灾害监测和预警上的应用需求,基于分布式文件系统(HDFS)和列式存储非关系型数据库(HBase)提出了地质灾害相关数据的存储策略。分析了地质灾害监控系统、地质灾害预测预报系统所需使用数据的数据种类、数据格式、数据容量、数据频率及数据增长速度等信息。从数据粒度大小的角度来对数据进行分类和组织,对不同粒度的数据设计了不同的存储模式,以实现高效的存取效率。根据数据的应用特性对数据进行类别划分,为不同类型的数据提供不同的存储结构和访问接口,以获得最优的数据访问性能。  相似文献   

6.
大数据是指海量数据的储存、分析和处理,应用于军事、金融、通讯、电信以及生物学、环境生态学等领域。科技信息飞速发展,数据信息成为必备生产工具,完全渗透在每个领域,人们对数据的精准度和需求随之增加,由于对海量数据的运用和开发,数据隐私权和计算机网络安全保护引起了专业人士的关注。在互联网快速发展的背景下,大数据信息丢失、被盗的风险系数增高,高度重视大数据信息的安全性是大数据时代下网络安全防范的重点。  相似文献   

7.
地理信息系统的迅速发展和广泛应用导致了地理数据多元性的产生,这对地理数据存储和管理技术提出了更高的要求.针对地理数据多元性的特点,提出了地理数据的管理和存储策略,设计了一种基于关系数据库的面向对象地理数据模型,从而实现了对矢量数据、影像数据、像素图数据、DEM数据、多媒体数据等各种数据的统一,灵活管理.  相似文献   

8.
高云君  葛丛丛  郭宇翔  陈璐 《软件学报》2023,34(5):2365-2391
目前,各个国家和地区均已将大数据视为重要的战略资源.然而,大数据时代普遍存在数据流通困难、数据监管不足等问题,致使数据孤岛现象严重,数据质量低下,数据要素潜能难以释放.这驱使研究人员探索数据集成技术,以打破数据壁垒、实现信息共享、提升数据质量,进而激活数据要素潜能.关系型数据和知识图谱作为两种至关重要的数据组织与存储形式,在现实生活中应用广泛.为此,聚焦关系型数据和知识图谱,归纳总结并分析实体解析、数据融合、数据清洗3方面的数据集成关键技术,最后展望未来研究方向与趋势.  相似文献   

9.
数据标注是大部分人工智能算法得以有效运行的关键环节.数据标注越准确、标注的数据量越大,算法的性能就越好.数据标注行业的发展带动了中国许多城市和城镇的就业,促使中国逐渐成为世界数据标注的中心.本文阐述了数据标注的发展概况,包括起源、应用场景、分类和任务;列举了目前常用的标注数据集、开源的数据标注工具和商业数据标注平台;提出了标注中的角色、标准和流程等数据标注规范;给出了一个情感分析场景中的数据标注实例;描述各类主流的标注质量评估算法及其特点,并对比它们优缺点;最后,从任务、工具、数据标注质量和安全性四个方面对数据标注的研究方向和发展趋势进行了展望.  相似文献   

10.
提出了一种新的基于元目录的数据管理模型,给出了一个应用案例。该模型结构灵活、适应性强,可以有效实现数据整合、数据实时共享和数据可控,适用于大规模数据的数据整合和数据应用。  相似文献   

11.
李建中  王宏志  高宏 《软件学报》2016,27(7):1605-1625
信息技术的迅速发展催生了大数据时代的到来.大数据已经成为信息社会的重要财富,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信息.然而,随着数据规模的增长,劣质数据也随之而来,导致大数据质量低劣,极大地降低了大数据的可用性,严重困扰着信息社会.近年来,数据可用性问题引起了学术界和工业界的共同关注,开展了深入研究,取得了一系列研究成果.本文介绍数据可用性的基本概念,讨论数据可用性的挑战与研究问题,综述数据可用性方面的研究成果,探索大数据可用性的未来研究方向.  相似文献   

12.
何龙祥  葛继成  王轻  范紫辉  王通 《软件》2021,(1):104-106,123
本文以病人费用分析为例,基于数据仓库技术,研究了抽取和整合医院使用的事务处理型系统中的数据,并设计面向医院管理者的数据可视化系统的相关工作,以便充分利用医院日益增加的数据为医院管理者提供决策支持,也为医疗数据行业的工作者提供一些简单的参考。  相似文献   

13.
针对长期积累的病历数据不仅数量庞大,记录方式、内容千差万别,而且噪声、缺省值大量存在的问题,提出了智能医疗诊断系统,利用以往的病历数据经过数据挖掘等技术来产生决策规则,以期为潜在的患者及早发现病情,获得早期诊治:总结了病历文本的记录内容和特点,对每一类的特点和形成原因进行了分析研究,并结合医疗诊断分别提出了针对它们的预处理方法,为下一步数据挖掘做好了准备。  相似文献   

14.
数据治理技术   总被引:2,自引:0,他引:2       下载免费PDF全文
吴信东  董丙冰  堵新政  杨威 《软件学报》2019,30(9):2830-2856
随着信息技术的普及,人类产生的数据量正在以指数级的速度增长,如此海量的数据就要求利用新的方法来管理.数据治理是将一个机构(企业或政府部门)的数据作为战略资产来管理,需要从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化.目前,各行各业对大数据的研究比较火热,但对于大数据治理的研究还处于起步阶段,一个组织的正确决策离不开良好的数据治理.首先介绍数据治理和大数据治理的概念、发展以及应用的必要性;其次,对已有的数据治理技术——数据规范、数据清洗、数据交换和数据集成进行具体的分析,并介绍了数据治理成熟度和数据治理框架设计;在此基础上,提出了大数据HAO治理模型.该模型以支持人类智能(HI)、人工智能(AI)和组织智能(OI)的三者协同为目标,再以公安的数据治理为例介绍HAO治理的应用;最后是对数据治理的总结和展望.  相似文献   

15.
伴随着人类进入大数据时代,大数据在彰显出巨大应用价值的同时,也凸显出数据可用的科技问题。如何解决数据可用带来的挑战,成为各国政府和学界高度关注的问题。目前,针对大数据的可用性研究刚刚起步,对大数据可用性进行了探讨,并就数据可用性的研究前景进行了展望。  相似文献   

16.
目前常规的多源异构数据治理方法主要通过对数据属性进行判断,从而实现分区域数据清洗,由于缺乏对非线性数据的分析,导致治理性能不佳;对此,提出基于云数据中心的多源异构数据治理技术。采用关系型数据库中的ETL功能对数据进行清洗,对数据转换模式以及数据清洗规则进行定义;引入互信息系数对数据相关程度进行判定,并进行非线性数据相关性分析;以云数据中心作为载体,对多源异构数据治理体系进行构建;在实验中,对提出的数据治理技术进行了治理性能的检验;最终的实验结果表明,提出的数据治理技术具备较高的查准率,对云数据中心多源异构数据具备较为理想的数据治理效果。  相似文献   

17.
数据仓库中的数据不是传统数据库中数据的简单堆积,它是一个复杂的容纳数据集成的系统工程,为决策者提供访问、分析及共享信息的能力,从而发挥数据仓库的真正功效。本文针对于零售业,阐述了在零售业数据仓库系统中ETL的流程并结合实际应用提出了在零售业数据仓库系统中的ETL过程应考虑的诸多问题及解决方案。  相似文献   

18.
IPSec(IPSecurity Protcol,IP安全协议)是一组开放标准集,它们协同地工作来确保对等设备之间的数据机密性、数据完整性以及数据认证。这些对等实体可能是一对主机或是一对安全网关(路由器、防火墙、VPN集中器等等),或者它们可能在一个主机和一个安全网关之间,就像远程访问VPN这种情况。IPSec能够保护对等实体之间的多个数据流,并且一个单一网关能够支持不同的成对的合作伙伴之间的多条并发安全IPSec隧道。  相似文献   

19.
数据质量的定义、数据质量问题的来源、数据质量提高途径等基本问题,是数据质量控制研究的基础。分析了现有数据质量定义的局限性和片面性,依据国际标准化组织对质量的定义,重新对其进行了定义。将数据质量问题来源分为四种情况:数据录入错误、测量错误、简化错误和数据集成错误。归纳了数据质量提高的具体手段,指出数据质量控制需综合应用管理和技术手段。校正了对以上基本问题的认识偏差,为更深入的数据质量研究提供了依据。  相似文献   

20.
数据迁移的一般原则   总被引:4,自引:0,他引:4  
在应用软件及数据库开发中经常要做数据迁移工作 ,数据迁移就是将数据从一种数据环境移入另一种数据环境中。进行彻底而精确的数据转换应遵循以下关键步骤 :识别源数据、确定数据集成转换的规则以及开发转换规则代码。介绍了数据迁移的一般步骤 ,并提出了从数据转换、选择迁移方法以及从元数据管理的角度评价迁移工具的标准  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号