首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 625 毫秒
1.
作为一种先进计算方式的云计算,不断在信息服务与科研领域升温,并且影响了存储和运算大规模数据。本文主要分析了云存储技术,非结构化数据存储方式,面向云存储的非结构化数据存储系统架构,面向云存储的非结构化数据存储结构设计和实现。  相似文献   

2.
介绍了一种基于WEB架构,面向飞行试验各类海量测试数据处理应用的分布式事后数据处理网络系统的设计结构;用户可以方便地通过WEB浏览器,建立自己的数据处理任务,定义需要处理的参数、时间段等,由系统网络调度服务器群集和分布式计算服务器群集共同完成数据处理任务;系统能够满足多用户对海量数据的快速处理要求,提供了多功能的分析处理工具,实现了海量试飞数据的集中管理,分布式应用,网络计算资源的分配和调度等,避免了对海量试飞原始数据的拷贝,分发或无序共享等应用,解决了困扰已久的海量非结构化数据的统一管理和处理的问题.  相似文献   

3.
典型大数据仓库-飞行试验数据仓库设计   总被引:2,自引:1,他引:1  
在现代数据仓库技术思想的指导下,围绕试飞数据的非结构化大数据的特点,面向型号工程对试飞数据的统一管理和高效处理需求,分别针对试飞大数据的粒度描述和综合管理,设计了飞行试验元数据标准和特有的基于二进制文件的数据库管理服务,解决了飞行试验数据仓库设计中结构化与非结构化大数据的统一维度建模和数据关系维护的关键技术问题,为基于数据仓库的试飞大数据在线管理与分析系统的建立提供了基础,满足了型号工程对试飞数据的高效分析需求.  相似文献   

4.
非结构化数据呈爆炸态势增长, 传统存储技术在吞吐能力可扩展性及易管理性等方面急需改进, 通过分析安保视频数据存储的问题, 设计一种云计算架构下的安保视频监控存储系统, 基于框架技术搭建了对等架构的云计算环境, 并对其中的云存储策略进行了设计和建模. 实现在廉价不可信节点上存储海量私有化只读视频数据, 并提供高效可靠地访问. 仿真结果显示, 系统的存储性能可靠度高且易于扩展, 可提供效能较高的视频云存储服务.  相似文献   

5.
孙惠芬 《信息与电脑》2022,(23):147-149
云计算技术是大数据存储、处理和管理的一项热门技术。随着互联网中海量数据的爆炸性增加,传统数据存储方式逐渐无法充分满足对海量数据存储的要求,而云计算中的云存储技术为海量数据存储提供了解决思路。为实现对海量数据的管理、存储以及智能分析,基于云计算技术对海量大数据的存储和管理等展开相应的研究,并根据Hadoop架构技术提出了一种新型的海量大数据存储系统设计方案,同时给出了各项模块的设计方案,增强了对海量大数据的高效存储、处理以及管理的能力。  相似文献   

6.
针对海量数据的指数级增长,现有的文件存储系统很难满足现有系统需求,提出基于Hadoop的Scool云存储平台,系统通过采用Linux集群技术、分布式文件系统和云计算框架等技术,来实现海量数据存储和高速数据处理。通过比较云存储和传统存储模式的区别,分析了云存储技术优势和可行性,介绍了云存储架构模型,设计了基于Hadoop的Scool云存储文件管理系统,为今后深入研究云计算和云存储提供了一定的基础。  相似文献   

7.
提出了一种云环境下海量数据组织与资源共享的存储总模型,该模型包括:结构化、半结构化及其非结构化数据与资源的对应存储方法;能兼顾海量大小数据文件处理的分布式文件系统THDFS;云数据库系统设计模型THCloudDB;云环境下强于MapReduce弱于SQL,以Hadoop++为基础的一种针对互联网海量数据文件处理且具有语义计算效能的计算模型THMapReduce;针对THDFS及其THCloudDB的具有语义效能的智能挖掘分析工具THBI;最后以"清华通"为案例分析了该模型平台的具体应用.  相似文献   

8.
飞行试验数据是航空武器装备研制过程中所形成的最重要的科研信息资料,是型号定型、鉴定的根本依据,具有宝贵的科研价值;试验数据管理的目的不仅是保证数据的完整性和可靠性,更重要的是能够广泛地、灵活地满足各类用户对数据的处理需要;针对飞行试验数据及其应用的特点,设计出了一种基于先进SOA技术架构的飞行试验数据管理系统(FTDMS),以飞行试验数据总线为纽带,采用分布式网络计算服务模式,有效适应了飞行试验数据处理方法的不断发展,而且同时满足了多用户对多型号、多类型非结构化试飞数据的完整管理和应用,综合提高了试验数据的管理和应用效率。  相似文献   

9.
面向服务的云数据挖掘引擎的研究   总被引:1,自引:0,他引:1  
数据挖掘算法处理海量数据时,扩展性受到制约。在商业和科学研究的各个领域,知识发现的过程和需求差异较大,需要有效的机制来设计和运行各种类型的分布式数据挖掘应用。提出了一种面向服务的云数据挖掘引擎的框架CloudDM。不同于基于网格的分布式数据挖掘框架,CloudDM利用开源云计算平台Hadoop处理海量数据的能力,以面向服务的形式支持分布式数据挖掘应用的设计和运行,并描述面向服务的云数据挖掘引擎系统的关键部件和实现技术。依据面向服务的软件体系结构和基于云平台的数据挖掘引擎,可以有效解决海量数据挖掘中的海量数据存储、数据处理和数据挖掘算法互操作性等问题。  相似文献   

10.
互联网技术的发展产生的海量非结构化数据在传统关系型数据库中难以被高速有效地进行存储和处理,各类NoSQL数据库可以有效存储处理非结构化数据,但是对关系运算功能的弱化难以满足应用场景的需求。具备非结构化数据处理能力的新型关系型数据库提供了适用多种应用场景的高效存储方式。为了能够定量地比较关系型数据库和面向文档的NoSQL数据库的数据存储与处理能力,比较了PostgreSQL的hstore数据类型和MongoDB的内嵌文档对非结构化数据的储存方式,并通过非结构化数据的批量加载、磁盘占用、主键查询、非主键查询、地理空间坐标查询等方面的对比来以分析性能特征与适用场景。  相似文献   

11.
A Taxonomy of Dirty Data   总被引:3,自引:0,他引:3  
Today large corporations are constructing enterprise data warehouses from disparate data sources in order to run enterprise-wide data analysis applications, including decision support systems, multidimensional online analytical applications, data mining, and customer relationship management systems. A major problem that is only beginning to be recognized is that the data in data sources are often dirty. Broadly, dirty data include missing data, wrong data, and non-standard representations of the same data. The results of analyzing a database/data warehouse of dirty data can be damaging and at best be unreliable. In this paper, a comprehensive classification of dirty data is developed for use as a framework for understanding how dirty data arise, manifest themselves, and may be cleansed to ensure proper construction of data warehouses and accurate data analysis. The impact of dirty data on data mining is also explored.  相似文献   

12.
李建中  王宏志  高宏 《软件学报》2016,27(7):1605-1625
信息技术的迅速发展催生了大数据时代的到来.大数据已经成为信息社会的重要财富,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信息.然而,随着数据规模的增长,劣质数据也随之而来,导致大数据质量低劣,极大地降低了大数据的可用性,严重困扰着信息社会.近年来,数据可用性问题引起了学术界和工业界的共同关注,开展了深入研究,取得了一系列研究成果.本文介绍数据可用性的基本概念,讨论数据可用性的挑战与研究问题,综述数据可用性方面的研究成果,探索大数据可用性的未来研究方向.  相似文献   

13.
数据治理技术   总被引:2,自引:0,他引:2       下载免费PDF全文
吴信东  董丙冰  堵新政  杨威 《软件学报》2019,30(9):2830-2856
随着信息技术的普及,人类产生的数据量正在以指数级的速度增长,如此海量的数据就要求利用新的方法来管理.数据治理是将一个机构(企业或政府部门)的数据作为战略资产来管理,需要从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化.目前,各行各业对大数据的研究比较火热,但对于大数据治理的研究还处于起步阶段,一个组织的正确决策离不开良好的数据治理.首先介绍数据治理和大数据治理的概念、发展以及应用的必要性;其次,对已有的数据治理技术——数据规范、数据清洗、数据交换和数据集成进行具体的分析,并介绍了数据治理成熟度和数据治理框架设计;在此基础上,提出了大数据HAO治理模型.该模型以支持人类智能(HI)、人工智能(AI)和组织智能(OI)的三者协同为目标,再以公安的数据治理为例介绍HAO治理的应用;最后是对数据治理的总结和展望.  相似文献   

14.
数据迁移的一般原则   总被引:4,自引:0,他引:4  
在应用软件及数据库开发中经常要做数据迁移工作 ,数据迁移就是将数据从一种数据环境移入另一种数据环境中。进行彻底而精确的数据转换应遵循以下关键步骤 :识别源数据、确定数据集成转换的规则以及开发转换规则代码。介绍了数据迁移的一般步骤 ,并提出了从数据转换、选择迁移方法以及从元数据管理的角度评价迁移工具的标准  相似文献   

15.
涂菲菲  周明辉 《软件学报》2019,30(5):1522-1531
问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据质量问题,通过文献调研和访谈,并基于自有经验对数据进行分析,总结出了9种数据质量问题,覆盖了数据产生、数据收集和数据使用这3个不同的阶段.进一步地,提出了相应的方法以帮助发现和解决数据问题.发现问题是指加强对数据上下文的理解和通过统计分析及数据可视化发现潜在的数据质量问题,解决问题是指利用冗余数据或者挖掘用户行为模式进行修正.  相似文献   

16.
伴随着人类进入大数据时代,大数据在彰显出巨大应用价值的同时,也凸显出数据可用的科技问题。如何解决数据可用带来的挑战,成为各国政府和学界高度关注的问题。目前,针对大数据的可用性研究刚刚起步,对大数据可用性进行了探讨,并就数据可用性的研究前景进行了展望。  相似文献   

17.
数据提取、转换和装载技术研究   总被引:4,自引:0,他引:4  
来自企业操作环境的数据是数据仓库的数据源,通过提取、转换、装载填充数据仓库,对数据提取、转换与装载技术进行了研究与实践。对数据提取、转换与装载要解决的问题进行了详细论述并提出了相应的解决方法,并以MS SQL Server2000为例,介绍了可用于析取数据的一些工具。在此基础上,以电信行业话单数据载入数据仓库为实例,就如何实现各步骤进行了详细说明,提出了在数据提取、转换与装载过程中需注意的一些问题。  相似文献   

18.
数据仓库系统中源数据的提取与集成   总被引:12,自引:0,他引:12  
人们对数据分析的要求的不断提高导致了数据仓库的发展,而在建设数据仓库的过程中非常关键的一步就是从事务数据库或其它的数据源中抽取和集成原始数据。本文在对数据集成方法和数据获取中可能碰到的问题进行全面分析的基础上,较为详细地介绍了我们自行开发的数据仓库系统SEUwarehouse中源数据提取与集成工具的设计与实现.  相似文献   

19.
数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不准确的数据,精确恢复其时间戳是困难的,但可以依据一定的规则对其时间先后顺序进行还原恢复,满足数据清洗及各类应用需求.在数据时效性应用需求分析的基础上,首先明确了属性的时效规则相关概念,对属性的时效规则等进行了形式化定义;然后提出了基于图模型的时效规则发现以及数据时序修复算法;随后,对相关算法进行了实现,并在真实数据集上对算法运行效率、修复正确率等进行了测试,分析了影响算法修复数据正确率的一些影响因素,对算法进行了较为全面的分析评价.实验结果表明,算法具有较高的执行效率和较好的时效修复效果.  相似文献   

20.
大数据的一个重要方面:数据可用性   总被引:9,自引:0,他引:9  
随着信息技术的发展,特别是物理信息系统、互联网、云计算和社交网络等技术的突飞猛进,大数据普遍存在,正在成为信息社会的重要财富,同时也带来了巨大的挑战.数据可用性问题就是大数据的重要挑战之一.随着数据的爆炸性增长,劣质数据也随之而来,数据可用性受到严重影响,对信息社会形成严重威胁,引起了学术界和工业界的共同关注.近年来,学术界和工业界开始研究数据可用性问题,取得了一些的研究成果,但是针对大数据可用性问题的研究工作还很少.介绍了大数据可用性的基本概念,讨论大数据可用性的挑战,探讨大数据可用性方面的研究问题,并综述数据可用性方面的研究成果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号