共查询到20条相似文献,搜索用时 171 毫秒
1.
《计算机应用与软件》2017,(8)
商业银行的数据规模随着传统业务扩展和互联网发展水平的不断提高而与日俱增,使得银行对数据的存储、管理和应用要求越来越高。通过搭建基于Hadoop技术的大数据平台,利用分布式文件系统HDFS、SQL分析引擎Inceptor、Nosql数据库工具Hyperbase、流处理工具Stream等架构,探索了大型商业银行Hadoop分布式数据仓库的构建过程,最终实现了由基于集中式存储架构的传统关系型数据仓库向分布式数据仓库的迁移工作。该分布式数据仓库实现了结构化数据和非结构化数据的存储、ETL调度管理、历史数据检索、交互式分析以及流数据处理。应用表明,相比基于集中式存储架构的传统关系型数据仓库,分布式数据仓库可大幅提高数据存储和数据服务的效率。 相似文献
2.
大数据、云计算技术的迅猛发展为挖掘气象数据丰富的科研和经济价值提供了技术支撑,促进了Hadoop及其包含的文件存储系统(HDFS,Hadoop Distributed File System)和分布式计算模型在气象数据处理领域广泛应用。由于气象数据具有大数据的4V特征,还需要引入新的数据处理算法来提高气象数据处理效率。通过对决策树算法原理的研究,基于Hadoop云平台,创建随机森林模型,为数据挖掘算法在云平台上的应用提供一种新的可能性。基于决策树(CART,Classification And Regression Trees)挖掘算法的气象大数据云平台设计,采用Hadoop系统架构和MapReduce工作流程,对气象大数据云平台采用集群部署。平台总体架构分为基础设施层、数据管理与处理层、应用层,减少了决策树建立的时间,实现了气象数据高效加工和挖掘分析等平台功能。 相似文献
3.
在传统的关系型数据库模式的使用中,存在大量的农业数据存储容量小和管理不够完善的问题。基于对Hadoop的分析,提出运用Hadoop框架构建海量农业数据处理云平台,并给出了平台架构和部分实验结果。通过实验数据表明,该方法可以为搭建农业海量数据云平台提供方法论基础,并实现了农业大数据有效的存储和管理。 相似文献
4.
提出了一种云环境下海量数据组织与资源共享的存储总模型,该模型包括:结构化、半结构化及其非结构化数据与资源的对应存储方法;能兼顾海量大小数据文件处理的分布式文件系统THDFS;云数据库系统设计模型THCloudDB;云环境下强于MapReduce弱于SQL,以Hadoop++为基础的一种针对互联网海量数据文件处理且具有语义计算效能的计算模型THMapReduce;针对THDFS及其THCloudDB的具有语义效能的智能挖掘分析工具THBI;最后以"清华通"为案例分析了该模型平台的具体应用. 相似文献
5.
针对海量数据的指数级增长,现有的文件存储系统很难满足现有系统需求,提出基于Hadoop的Scool云存储平台,系统通过采用Linux集群技术、分布式文件系统和云计算框架等技术,来实现海量数据存储和高速数据处理。通过比较云存储和传统存储模式的区别,分析了云存储技术优势和可行性,介绍了云存储架构模型,设计了基于Hadoop的Scool云存储文件管理系统,为今后深入研究云计算和云存储提供了一定的基础。 相似文献
6.
7.
针对传统的大数据信息监控云平台模式单一、虚拟化程度不高,容易导致信息泄露的问题,为了提高对大数据的信息安全溯源能力,提出基于Hadoop的大数据信息安全监控云平台设计方法。在信息资源云体系下构建大数据信息安全融合模型,通过信息挖掘与匹配方法把云平台中的数据资源、物理资源进行关联性整合,方便数据安全溯源,在Hadoop平台下构建多源信息资源云,建立用户接口注册机制,采用虚拟化技术进行信息保护,实现在云平台下进行信息安全溯源。实验结果表明,采用该方法进行大数据信息安全溯源,大数据信息分类存储性能较好,对异常数据挖掘精度较高。具有较好的信息安全保护能力,确保了信息安全。 相似文献
8.
为解决气象观察数据的频繁写入和大数据存储的问题,设计私有云存储模型。该模型分为用户访问接口层、元数据存储层、实体数据存储层和关系数据库4层结构。采用HDFS集群分布式文件系统,实现气象大数据的存储和高效查询与搜索业务;使用关系数据库系统,实现数据采集端频繁数据写入的业务。实验结果表明,该平台实现了海量气象数据存储、查询统计和属性管理,克服了云存储单条插入效率低的缺点,较好满足了气象部门大数据存储和管理的需求。 相似文献
9.
余庆檄 《计算机光盘软件与应用》2013,(4):166-167
Hadoop平台作为一种新技术,近些年发展非常迅速,它的应用不仅能实现计算的"平民化",而且它可以忽略开发并行应用程序的细节,使程序员只需要专注于业务逻辑即可,从而大大提高了编程开发效率。在云计算相关技术日益发展的今天,Hadoop在企业云存储平台构建中的应用已成为当前企业信息化管理的重要发展趋势,本文在对基于Hadoop的企业云存储构建所依赖的云计算技术以及Hadoop平台作分析说明的基础上,就基于Hadoop的企业云存储的实现进行探究。 相似文献
10.
11.
12.
13.
14.
In this article, we analyze file access characteristics of smartphone applications and find out that a large portion of file data in smartphones are written only once. This specific phenomenon appears due to the behavior of SQLite, a lightweight database library used in most smartphone applications. Based on this observation, we present a new buffer cache management scheme for smartphone systems that considers non-reusability of write-only-once data that we observe. Buffer cache improves file access performances by maintaining hot data in memory thereby servicing subsequent requests without storage accesses. The proposed scheme classifies write-only-once data and aggressively evicts them from the buffer cache to improve cache space utilization. Experimental results with various real smartphone applications show that the proposed buffer cache management scheme improves the performance of smartphone buffer cache by 5%–33%. We also show that our scheme can reduce the buffer cache size to 1/4 of the original system without performance degradation, which allows the reduction of energy consumption in a smartphone memory system by 27%–92%. 相似文献
15.
高能物理是典型的数据密集型计算,数据访问性能对整个系统至关重要并与应用的计算模式密切相关.从剖析高能物理的典型计算模式入手,总结出其数据访问的特点,提出针对操作系统I/O调度、分布式文件系统缓存等多个因素的优化措施,优化后数据访问性能和CPU利用率明显提高.大规模存储系统对于元数据管理、数据可靠性、扩容等可管理性等功能也有较高要求,结合现有Lustre并行文件系统的不足,提出了Gluster的高能物理存储系统设计,在进行数据管理以及扩容等方面的优化后,系统已经正式投入使用,数据访问性能能够满足高能物理计算的需求,同时具有更好的可扩展性和可靠性. 相似文献
16.
在传统的实化视图维护时,数据源把增量数据以XML文档的方式报送给数据仓库,数据仓库从此文档中解析出数据,利用JDBC完成对实化视图的更新。文中提出在数据源把增量数据封装成序列化对象存储于文件中再报送给数据仓库,而数据仓库从文件中读出对象,利用Hibernate直接把对象更新到实化视图。通过两种方案性能的比较,表明后一种方案是可行并且更加高效的。 相似文献
17.
超高频RFID标签感应距离远、读取速度快和抗干扰能力强,应用于仓储管理系统可以提高其管理效率。针对中小型仓储应用提出物品入库关联RFID标签,出库解除关联,RFID标签可重复使用。采用静态字典编码和时间压缩算法对单一仓储物品信息压缩编码至128比特,通过对RFID标签顺序增计数编号,二维表被简化为线性表并存储在RFID阅读器中,RFID阅读器将仓储数据同步更新管理数据库。讨论了仓储管理系统RFID阅读器的硬件及软件设计架构。仓储物品信息压缩编码和数据顺序存储降低了系统对RFID阅读器硬件和存储资源的需求。 相似文献
18.
为了简化文件系统的实现,支持超大规模数据集的流式访问,HDFS牺牲了文件的随机访问功能,而在实际场景中很多应用都需要对文件进行随机访问。在深入分析HDFS数据读写原理的基础上,提出了一种面向HDFS的数据随机访问方法。其设计思想是为Datanode添加本地数据访问接口,用户程序可以读取Datanode上存放的数据块文件以及把数据写入到Datanode上的数据块存放目录。文件的首副本由用户程序直接产生,其余副本在首副本写入完成之后采用数据复制的方式生成。此外,为数据块添加了权限管理功能,Datanode上的文件副本属于用户所有。若名字空间中文件权限发生变化,文件对应的数据块权限也会改变。测试表明,数据读取性能提升了约10%,数据写入性能提升了20%以上,在高并发下写入性能最大可提升2.5倍。 相似文献
19.
随着大数据时代的到来,全球信息存储量呈现爆发式的增长,传统的存储系统在存储性能、存储容量、数据可靠性和成本等方面存在诸多不足。近年来,以云计算平台为依托的存储技术得到了飞速的发展,成为了处理海量数据的重要工具。本文针对分布式文件系统元数据管理的问题,提出了一种自适应元数据服务负载均衡策略。该策略主要包括以下三点内容:第一,介绍了一种实时的元数据服务器的性能评价模型;第二,提出了一种基于服务器负载变化的检测周期自适应调整机制;第三,提出了一种基于元数据服务器性能指标的自适应负载均衡算法。实验证明了该方法的可行性,有效性和稳定性。 相似文献
20.
基于HBase的气象地面分钟数据分布式存储系统 总被引:1,自引:0,他引:1
针对气象地面分钟数据要素多样、信息量大、产生频次高等特点,传统的关系型数据库系统在存储和管理数据上出现负载饱满、读写性能不理想等问题。结合对分布式数据库HBase的存储模型的研究,行主键(row key)采用时间加站号的方式设计了气象分钟数据存储结构模型,实现对海量气象数据的分布式存储和元信息管理。对HBase的唯一索引在面对气象业务的复杂查询用例时响应时间过长的问题,使用搜索引擎solr提供的API接口并参考气象业务中的查询用例对相关字段建立辅助索引,来满足业务检索时效。实验结果表明,该系统具有很好的存储能力和检索效率,入库效率最高可达每秒34000条,并且在常规查询用例的结果返回时效达到毫秒级,能够满足大规模气象数据在业务应用中对存储和查询时效的性能要求。 相似文献