首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 79 毫秒
1.
针对现有的技术架构和主流软件工具存储水文大数据存在的问题,分析非关系型数据库存储水文大数据的优势和技术特点,提出非关系型数据库TRIP存储水文大数据的方法。TRIP数据库管理系统部署在PC机上,水文结构化和非结构化数据存储在与PC机数据连接的磁盘存储装置的数据库文件中,根据水文数据的规模,增加磁盘存储装置的数量和容量。研究结果证明,TRIP数据库能够存储多种类型、格式的水文结构化和非结构化数据,可为水文行业存储水文大数据提供新的技术途径。  相似文献   

2.
并行数据库系统的数据重组研究   总被引:2,自引:0,他引:2  
数据倾斜对并行数据库系统性能的影响极大,本文提出解决初始数据倾斜的记录移动法,确定了数据平衡的记录移动法,负载平衡的记录移动法,及通常的重新划分之间取得的界线,并举例进行模拟研究。  相似文献   

3.
当前,在各类电力生产经营财务数据管理活动中产生的海量、高频数据,具有实时性、突发性、易失性、无序性、无限性等特征。为解决电力企业接入的财务数据的不一致、不规范的问题,以及如何快速从这些海量高频数据中获取有价值的信息、提高数据资产带来的经济效益和数据管理效率,本文在分析目前电力大数据应用现状的基础上,构建了基于大数据的电力企业财务数据管理系统,同时从基于NoSQL的大数据存储管理、基于Hadoop的财务大数据预处理以及财务大数据分析挖掘算法3个方面详细描述了电力企业财务数据管理的关键技术,大幅提升了电力企业财务数据的管理效率和准确性,为在线决策分析提供理论依据及基础技术支撑。  相似文献   

4.
高速公路大数据处理现状与挑战   总被引:1,自引:0,他引:1  
高速公路在日常的运营过程中,产生了海量的、异构的数据,即大数据,这些数据还在快速的增长。大规模产生的数据,给数据的存储和分析带来了巨大的挑战,如何科学、高效的存储这些大数据,并能对其进行快捷的访问和分析,更好的服务于交通,是一个迫在眉睫的问题。首先讨论了高速公路中大数据的来源以及数据的特点,然后分析了研究大数据的意义和大数据处理技术,并分析了这些技术在高速公路大数据中分析中所面临的挑战。  相似文献   

5.
架构大数据:挑战、现状与展望   总被引:18,自引:0,他引:18  
王珊  王会举  覃雄派  周烜 《计算机学报》2011,34(10):1741-1752
大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点.为了设计适合大数据分析的数据仓库架构,文中列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的...  相似文献   

6.
随着大数据计算需求的增长,集群的处理速度需要得到快速的提升,然而目前大数据处理框架的处理性能已逐渐满足不了这种快速增长的需求。由于集群的存储架构是分布式存储,因此数据的存放在大数据处理过程中成为影响集群的处理性能的因素之一。首先,对当今的分布式文件存储系统的结构进行了介绍;接着,根据不同的优化目标,例如减少网络负载、负载均衡、降低能耗和高容错性等,对近年国内外大数据存储算法的研究进行了总结,分析和对比了已有算法的优点以及存在的问题;最后,对大数据存储架构和优化算法设计的挑战和未来研究方向作了展望。  相似文献   

7.
阐述了数据库系统的发展历史和应用方式,描述了其特点及分类,并对各类数据模型进行了介绍,尤其是关系数据库系统作了详细描述。  相似文献   

8.
大数据管理是随着时代和技术发展而提出和演化的命题。随着大数据从传统的结构化数据向无结构化数据的转移,Key/value存储、NoSQL、MapReduce等技术成为数据库技术之外大数据管理的多样化手段。MapReduce以其开放性成为当前大数据的代表技术,在大数据应用中,如何让MapReduce与数据库高效协同,发挥各自的技术优势和平台优势,提供高性能、高可扩展性、高可用性的大数据服务平台成为重要的研究课题。本文讨论在大数据存储、管理与服务主题上的观点和技术路线,探索将MapReduce作为数据库新的应用与开发平台的可行性。  相似文献   

9.
现有的金融行业的数据管理模式主要依赖于传统关系型数据库,然而传统架构受到拓展能力和存储性能的限制,难以满足大数据时代快速增长的海量数据量处理的需要。针对金融数据规模大、跨地域、跨系统存储、数据多样化等特点,提出了HiETL大数据迁移管理平台,实现了异构关系型数据库业务系统向Hadoop大数据平台的统一迁移,以及海量数据的集中整合、拓展存储、高效分析查询等一站式管理平台,在保证迁移准确的情况下,其速度可达到3?MB/s。  相似文献   

10.
本文利用MapReduce、Hive、Flume等大数据处理技术对图书管理系统和图书搜索数据进行深度建模分析,从而按照图书借阅记录、搜索记录进行统计分析,按照统计分析结果实现热点搜索图书资源的自动推送,提高图书馆数据本身信息价值的利用。  相似文献   

11.
基于Hadoop和Mahout的大数据管理分析系统   总被引:1,自引:0,他引:1  
随着数据量的爆炸性增长、数据结构的多样化和数据的流动性,传统的关系数据库系统已经无法满足大数据管理和分析的要求。因此有必要对基于大数据的数据管理和分析系统进行研究,以达到快速地统计和分析特定领域中海量结构化/非结构化数据,最终为决策提供支持的目的。提出一种基于Hadoop和Mahout的大数据管理分析系统。通过数据特性的分析,将数据分解后存入对应的数据库中进行管理。并在特定的应用领域中实现和验证了所提出的大数据管理分析系统,获得了优于已报道相关研究工作的数据分析结果。  相似文献   

12.
结合大数据的特点和语义Web的理论,对大数据中的RDF语义数据的描述和存储进行研究。分析各种数据库存储RDF语义数据的优点和缺点,指出图数据库存储RDF语义数据的优势。最后采用Neo4j开源Java代码实现了一个图数据库系统,通过运行实例验证了以上结论。  相似文献   

13.
图像数据挖掘研究综述   总被引:1,自引:0,他引:1  
对数据挖掘中的一个新兴领域———图像数据挖掘作出了较为全面的研究。给出了图像数据挖掘的定义,分析了图像数据挖掘与图像处理分析、图像模式识别及图像检索等相关领域的异同点,并就图像数据挖掘对传统数据挖掘的改变和扩展之处作了较为详尽的阐述。从多个角度对图像数据挖掘进行了分类。介绍了关联规则、聚类、分类等技术在图像数据挖掘中的不同用法。最后,简单地介绍了图像数据挖掘的几个应用领域的研究现状。  相似文献   

14.
传统关系型档案数据库系统的信息资源整合ETL过程中需要逐表存储。若资源目录系统有海量库表时,系统性能和效率将是无法承受的;若有新增资源目录事项加入时,需不断地在数据库中新建表单,相应底层适配读写查找软件都需要重新开发。由此造成数据管理和开发成本高居高不下,软件代码的可扩展性和兼容性不能满足实时应用的需求。为此,提出一种基于MapReduce思想的构建数据解析抽取函数表的搜索方法,以解决OLAP应用场景中关系数据的查询和系统维护问题。经实验证明具有一定应用价值。  相似文献   

15.
针对财政系统数据同步的要求,给出了基于轴辐架构同步方案的部署方案、技术要点和实施步骤.通过代码分析进一步剖析了该方案的实现机制和原理.最后,通过测试、比较和分析,得出了该方案在数据同步完成时间、数据传输可靠性、系统扩展性等方面的明显优势.  相似文献   

16.
Web数据管理研究综述   总被引:54,自引:1,他引:53  
综述了Web数据管理技术,对Web数据管理的研究给出了定义,就Web数据管理的几个重要问题给出了阐述,在此基础上提出了一种基于XML的Web数据管理系统的框架和待研究的问题。  相似文献   

17.
数据网格及其关键技术研究   总被引:87,自引:0,他引:87  
从应用需求出发,首先分析了探讨了数据网格的基本目标:命名的透明性、定位的透明性、协议的透明性和时间的透明性,以及数据网格提供的基本服务:目录服务、注册与发布、信息发现、存储资源代理服务、身份认证与访问控制、调度和方法执行等,深入研究了数据网格的关键技术-元数据目录和存储资源代理,最后介绍了一个海量信息处理系统的设计。  相似文献   

18.
随着气象信息化程度不断提高,气象部门积累了海量的气象数据,如何从海量的数据中获取有用的知识,成为人们关注的重点。气象数据具有维度高、依赖性强等特点,这就对气象数据挖掘提出了更高的要求。经典数据挖掘算法在处理海量气象数据时在性能与准确率方面无法获得较好的结果。在分析了MapReduce计算模型与粗糙集、贝叶斯分类的基础上,给出了基于MapReduce的计算等价类的数据约简算法与朴素贝叶斯分类算法。最后在Hadoop平台上进行了相关实验。实验结果表明,该并行数据挖掘方案可以有效处理海量气象数据,并具有良好的扩展性。  相似文献   

19.
在大数据产业发展的背景下,医疗卫生领域也开始探索生物医疗大数据的新用途、新价值.随着生物医疗大数据在临床治疗与科学研究中的应用,相应的数据安全隐患也随之出现,其隐私安全保障问题开始引起人们的重视.为了降低隐私泄露的风险,加强人们对生物医疗数据的保护意识,需要从数据的生命周期角度出发,在采集、存储、访问、应用、共享、销毁...  相似文献   

20.
针对目前聚类算法对大数据处理效率较低的问题,研究云平台上高效并行化的聚类算法十分必要。在HDFS分布式文件系统基础上,设计一种并行聚类算法P-ISODATA,利用MapReduce编程框架的执行机制将传统ISODATA聚类算法并行化,并在Map阶段之后加入Combine阶段以减少网络传输开销,进一步提高执行效率。实验从著名UCI机器学习库上选取若干数据集作为测试数据,分析了新并行算法P-ISODATA性能,结果表明基于P-ISODATA算法具有优良的加速比、数据伸缩率和扩展率,可以有效地应用于大规模数据的处理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号