首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
谢华成  陈向东 《计算机应用》2012,32(7):1924-1928
非结构化数据呈爆炸态势增长,现有存储技术在I/O吞吐能力、可扩展性及易管理性等方面亟待改进。存储系统以云存储和可靠性理论为基础,建立了非结构化数据的分布式存储模型,并设计了可靠度函数。采用分布式关系数据库管理系统(RDBMS)作为存储底层,将非结构化数据直接存储于数据表中,实现了非结构化数据和元数据的分离式存储和统一管理,进而提升了存储系统性能。相对于集中式存储,新系统具有较高的可用性。仿真结果显示,存储系统可靠度高且易于扩展。该分布式存储系统可应用于动态开放计算环境,提供效能较高的云存储服务。  相似文献   

2.
海量信息分级存储数据迁移策略研究   总被引:3,自引:0,他引:3  
以数据为中心的计算模式对存储系统的性能和可靠性提出了新的更高的要求。目前,PB量级的存储系统需要数千甚至上万块磁盘,高并行性、高可靠性和高性价比是海量磁盘存储系统的三项关键要求。本文提出由性能和可靠性不同的两级磁盘阵列组成二级海量存储系统,通过数据自动迁移,可在保证存储系统高性价比的条件下,获得更高的并行访问速率和可靠性。本文基于分级存储管理的思想,提出了FC—SAS和SATAII两级存储模型,设计了FV数据价值评定模型和迁移过程控制策略,实现对数据价值的精确判定,在尽量减小对系统访问性能影响的基础上,实现数据在两级设备间的高效迁移和用户的透明访问。  相似文献   

3.
非结构化数据呈爆炸态势增长, 传统存储技术在吞吐能力可扩展性及易管理性等方面急需改进, 通过分析安保视频数据存储的问题, 设计一种云计算架构下的安保视频监控存储系统, 基于框架技术搭建了对等架构的云计算环境, 并对其中的云存储策略进行了设计和建模. 实现在廉价不可信节点上存储海量私有化只读视频数据, 并提供高效可靠地访问. 仿真结果显示, 系统的存储性能可靠度高且易于扩展, 可提供效能较高的视频云存储服务.  相似文献   

4.
保证数据的可用性是Peer-to-Peer(P2P)存储系统最重要的属性之一.可用性分析模型和数据的放置是P2P存储系统设计的两个关键问题.由于用户在P2P存储系统中同时作为服务节点和访问节点,决定了可用性分析必须以用户为中心,从而提高服务质量,并降低系统开销.目前广泛使用的可用性分析模型以及随机放置方法存在以下缺点:1.忽视了节点在线时间的模式,会在不同时间段高估或低估节点的可用性;2.忽视了节点对数据的访问规律,不能准确评估用户体验到的可用性;3.忽视了节点可用性差异,缺乏激励机制.本文提出了一个新的基于用户体验的可用性模型,它能够从用户体验的角度,评价P2P存储系统的可用性,同时它也可以兼容传统的可用性分析模型.在新模型的基础上,本文针对两种典型的P2P存储应用:数据共享和个人备份,提出了相应的分布式数据分发算法.通过真实日志驱动实验证明,新的算法在数据共享应用中能大大降低可用性方差,减少低可用性数据;同时,在个人备份应用中能针对不同用户的贡献提供不同层次的服务,起到有效的激励作用.  相似文献   

5.
谷洪彬  杨希  魏孔鹏 《计算机时代》2020,(5):109-111,115
针对高校本身业务系统带来的不同结构海量数据的存储管理和高效利用问题,通过比较新兴的数据湖技术和传统的数据仓库的区别,构建了基于数据湖的高校数据管理体系和数据处理机制,为高校的数据治理提供了数据层的存储支持,为使用机器学习方法进行大数据分析提供了非结构化数据来源。  相似文献   

6.
随着气象事业发展,非结构化数据海量增长,针对传统非分布式、直联式存储方式支撑能力受限问题及对存储系统需要支持大容量、集中管理、高可扩展性、高可靠性的新需求出发,利用网络附加存储,采用分布式架构、堆叠组网冗余和纠删码冗余保护机制、运用NFS、CIFS、FTP等协议,搭建一个分布式架构集群存储系统,通过分布式文件系统对外提供统一网络存储空间,通过CIFS、NFS、FTP三种方式实现文件共享。解决旧系统存储能力不足、动态扩展性差、效率不高、可靠性和安全性低的问题,进一步提升重庆气象数据云平台基础支撑能力。  相似文献   

7.
基于存储结构重配置的分布式存储系统节能算法   总被引:2,自引:0,他引:2  
作为云计算底层核心基础设施,分布式数据存储系统是各种云计算服务的基础,是云计算重要的组成部分.然而随着系统规模的不断扩大以及设计时对能耗因素的忽略使其暴露出高能耗问题.由于存在数据可用性要求,使其并不能简单采用已有节能技术解决能耗问题,保证数据可用性成为设计分布式存储系统节能算法的前提.对系统与数据的可用性进行了建模,并通过对存储结构与机制、节点状态与数据块可用性之间的关系的研究提出构造数据块可用性度量矩阵解决数据可用性完全覆盖问题.定义了分布式存储系统的节能模型,将RACK划分为Active-Zone与Sleep-Zone两个存储区域,根据不同数据的访问频率与规律计算活动因子以配置数据的存储区域,通过数据中心负载规律适时对Sleep-Zone区域中的服务器进行休眠处理以达到节能的目的.实验结果表明:算法在适应数据访问规律与可用性保证前提下,能够提高分布式存储系统的能耗利用率,并且当系统负载与数据平均活动因子越低时算法节能效率越高.  相似文献   

8.
针对云存储系统中数据副本管理的延时响应等问题,提出一种面向非结构化数据的分布式副本管理模型.该模型采用机架选举算法,通过提高每个机架能源利用率的方法降低系统整体能耗,为绿色数据中心提供技术保障.运用多路线性散列算法,将数据副本动态均匀地分布到不同机架的不同节点中,以提高系统性能、平衡负载和资源利用率.仿真实验结果证明,与传统的全局映射法相比,该模型可以达到较高的存储与负载平衡,具有良好的扩展性和可用性.  相似文献   

9.
为解决当前数据分类算法效率低的问题,提出一种非结构化海量变电工程数据的分类算法.通过构建非结构化海量变电工程数据模型,计算非结构化数据相似度,设计分类算法流程等方式,完成对算法的设计.此外,设计对比实验,证明了设计的非结构化海量变电工程数据分类算法,对于海量数据的处理效率更高,综合性能更优,可满足变电单位对数据分类处理...  相似文献   

10.
国内大型企业开展内容管理平台的搭建,有效的整合了各个业务应用系统生成的非结构化数据,合理的实现了数据从分散存储到集中存储的巨大跨越,但是对于现有业务应用系统中海量历史非结构化数据迁移至内容管理平台的问题有待解决。保证业务应用系统和内容管理平台的安全稳定运行前提下,文中提出了通过第三方数据迁移工具和标准的数据迁移方案,从而保障各个业务应用系统非结构化数据的迁移工作有序的开展,并对迁移的历史数据的完整性和一致性进行校验,确保历史数据迁移后能够正常访问。  相似文献   

11.
随着国网公司信息化建设的不断推进,在整个电网的运检和管理的过程中都会产生海量的数据,这些数据中包含各场景产生的视频、图片、传感器数据和一些企业档案信息等非结构(异构)化数据.在面对如此大规模非结构化的数据存储要求时,传统关系型数据库已经表现的力不从心了.如何对此类数据进行高效地、廉价地和安全可靠地存储,并且可以快速检索与分析,是当下研究的重要热点课题之一.本文首先分析了电网大数据的产生及特征,然后综述了工业界大数据分布式文件存储技术,最后分析适合国网非结构化数据的分布式文件存储策略.  相似文献   

12.
互联网技术的发展产生的海量非结构化数据在传统关系型数据库中难以被高速有效地进行存储和处理,各类NoSQL数据库可以有效存储处理非结构化数据,但是对关系运算功能的弱化难以满足应用场景的需求。具备非结构化数据处理能力的新型关系型数据库提供了适用多种应用场景的高效存储方式。为了能够定量地比较关系型数据库和面向文档的NoSQL数据库的数据存储与处理能力,比较了PostgreSQL的hstore数据类型和MongoDB的内嵌文档对非结构化数据的储存方式,并通过非结构化数据的批量加载、磁盘占用、主键查询、非主键查询、地理空间坐标查询等方面的对比来以分析性能特征与适用场景。  相似文献   

13.
Together with the big datamovement,many organizations collect their own big data and build distinctive applications. In order to provide smart services upon big data, massive variable data should be well linked and organized to form Data Ocean, which specially emphasizes the deep exploration of the relationships among unstructured data to support smart services. Currently, almost all of these applications have to deal with unstructured data by integrating various analysis and search techniques upon massive storage and processing infrastructure at the application level, which greatly increase the difficulty and cost of application development.This paper presents D-Ocean, an unstructured data management system for data ocean environment. D-Ocean has an open and scalable architecture, which consists of a core platform, pluggable components and auxiliary tools. It exploits a unified storage framework to store data in different kinds of data stores, integrates batch and incremental processing mechanisms to process unstructured data, and provides a combined search engine to conduct compound queries. Furthermore, a so-called RAISE process modeling is proposed to support the whole process of Repository, Analysis, Index, Search and Environment modeling, which can greatly simplify application development. The experiments and use cases in production demonstrate the efficiency and usability of D-Ocean.  相似文献   

14.
现有的金融行业的数据管理模式主要依赖于传统关系型数据库,然而传统架构受到拓展能力和存储性能的限制,难以满足大数据时代快速增长的海量数据量处理的需要。针对金融数据规模大、跨地域、跨系统存储、数据多样化等特点,提出了HiETL大数据迁移管理平台,实现了异构关系型数据库业务系统向Hadoop大数据平台的统一迁移,以及海量数据的集中整合、拓展存储、高效分析查询等一站式管理平台,在保证迁移准确的情况下,其速度可达到3?MB/s。  相似文献   

15.
如何高效地组织和管理日益增长的多源海量空间科学数据、提高数据的可用性和易用性,是空间科学目前需要重点解决的技术问题。在充分分析现有空间科学数据管理技术和数据特点的基础上,提出了一种有效的系统架构,研究并利用空间关系数据库及分布式数据库技术,实现了海量异构数据的高效存储、检索与定位;研究基于三维数字地球的多层次细节展示方法、三维数据剪裁、多线程并行加载等关键技术,提高了空间科学数据的集成可视化显示与应用效率。最后设计并集成了多源空间科学数据可视化组织与管理系统,在实际工程应用中验证了设计的合理性与有效性。  相似文献   

16.
针对在大数据管理中,在压缩的数据上无需解压即可进行相关操作的问题,在数据服从正态分布的前提下,根据列数据存储的特点,提出了一种新的面向列存储的压缩方法——CCA。首先,通过对列数据的长度进行归类;然后,采用抽样的方法获得重复度较高的前缀;最后,使用字典编码进行压缩,提出了列索引(CI)和列实体(CR)作为数据压缩结构来降低大数据存储的空间需求,从而直接有效地在压缩数据上支持选择、投影、连接等基本操作,并实现了基于CCA的数据库原型系统——D-DBMS。理论分析和在1 TB数据上的实验结果表明,该压缩算法能够显著提高大数据的存储效率和数据操作性能,与BAP和TIDC压缩方法相比,在压缩率分别提高了51%、14%;在执行速度上提高了47%、42%。  相似文献   

17.
为解决传统设备管理中物联网(IoT)动态数据的优化存储和高效调用,对物联网动态数据的存储和调用做深入研究,提出一个基于IoT数据的数据存储框架,有效存储大量物联网数据,集成结构化和非结构化数据。进一步结合BIM数字化技术开发一个面向建筑设备管理云平台,对如何使BIM数据和设备动态数据进行业务交互做详细的交互设计。以某净水厂泵房设备管理为案例,充分验证该研究方法的实用性和价值所在,优化传统设备管理方式的同时,提高了管理界面的友好交互性,使管理变得更加高效便捷。  相似文献   

18.
基于三级存储器的Join算法   总被引:2,自引:0,他引:2  
研究了基于三级存储器的海量关系数据库的Join算法.目前,在所有磁带数据Join算法中,基于Hash思想的算法是最优的.但是,这些算法没有考虑从第三级存储器中读取数据时,磁带定位时间对算法性能的影响.磁带的磁头随机定位耗时大,是影响基于三级存储器的数据操作算法时间复杂性的关键因素.针对这个问题,提出了两种新的基于三级存储器的海量关系数据库连接算法,即Disk-Based-Hash-Join算法和Tertiary-Only-Hash-Join算法.这两种算法采用了磁盘缓冲技术和散列数据集中存储方法,降低了算法的磁带磁头随机定位时间复杂性,提高了基于三级存储器的连接算法的性能.理论分析和实验结果表明,提出的基于三级存储器连接算法的性能高于目前所有同类算法的性能,可以有效地应用于海量数据管理系统.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号