首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 203 毫秒
1.
基于HBase的输电线路综合数据存储方案设计   总被引:1,自引:0,他引:1  
输电线路综合数据具有复杂性、体量巨大及多源异构等特点。针对当前关系数据库对于视频图像、图片等非结构化数据处理能力不足的问题,结合大数据的相关理论,提出基于Hadoop和HBase的输电线路综合数据的存储方案,将结构化数据和非结构化数据均转化为Bytes数组存入HBase数据库,并阐明具体的存储原理和工作方式,有效地解决了原有数据信息共享性差、非结构化数据难以存储等难题,弥补了关系数据库的不足,为大数据时代下智能电网的信息化建设提供思路。  相似文献   

2.
针对海量非结构化时态信息存储与快速检索的需求,提出使用Hadoop 平台下的分布式、非结构化数据库HBase对海量时态数据进行存储,构造以时态集合为时态存储单元的时态数据存储模型;设计了多级分布式哈希索引表算法( tDHT),实现对时态列族的时态属性值的高效、快速的检索。通过将时态属性值向二维空间映射,实现时态数据向空间对象的转化,采用对空间数据的处理方法对时态数据区域进行划分,生成多级时态数据子区域,利用分布式哈希表思想设计HBase存储的多级索引表目录。实验结果表明,该索引策略具有较高的性能,可以在一定程度上加快对HBase中时态信息的检索速度。  相似文献   

3.
利用Phoenix+HBase存储仓库对流动人口统计数据库进行读写和查询。在Spark计算框架下将不同类型的数据以结构化的方式存入分布式数据库中,测试该存储仓库的读写及查询性能。对比实验结果表明,Phoenix+HBase既可以操作非结构化数据又可以操作结构化数据,并且查询效率比Hive有明显提升,满足流动人口统计对数据库存储的需求。  相似文献   

4.
HBase可以实现海量数据的查询,但是在数据定位方面具有先天劣势.引入Hive对HBase进行优化,搭建了一个基于"HBase存储+Hive查询"的整合框架.通过对美国新冠肺炎的部分数据分别使用HBase与HBase+ Hive整合框架进行数据统计并且记录查询时间,可证明HBase+ Hive整合框架的查询性能优于HB...  相似文献   

5.
针对互联网数据种类繁杂、数量过多且占用内存较大等问题,提出基于HBase数据库的数据分布式存储方法。鉴于HBase稀疏行/列矩阵存储的特点,从逻辑模型和物理模型两方面展开分析;利用OGC简单要素模型建立空间数据模型,将几何对象转换为字节对象,提高用户读写效率;利用网格空间索引作为索引机制,通过分析每个网格的索引ID值得到属性信息和拓扑关系,便于用户查询;数据存储模型由网格金字塔模型完成构建,根据数据的多尺度层级结构特征,划分为不同的层级,每个层级都有其各自的数据图层表结构和字典表结构,用户可快速找到所需的数据。结果表明:所提方法可生成合适的节点数量,取得理想的读写效率和存储效率。  相似文献   

6.
针对大数据K-近邻(K-nearest neighbors, K-NN)计算复杂度高的问题,提出一种基于HBase和SimHash的大数据K-近邻分类算法。利用SimHash算法将大数据集从原空间映射到Hamming空间,得到哈希签名值集合;将样例的行键与值的二元对存储到HBase数据库中,行健(rowkey)为样例的哈希签名值,值(value)为样例的类别;对于测试样例,以其哈希签名值作为健rowkey,从HBase数据库中获取所有样例的value,通过对这些values进行多数投票,即可以得到测试样例的类别。与基于MapReduce的K-NN和基于Spark的K-NN在运行时间和测试精度两方面进行试验比较。试验结果显示,在保持分类能力的前提下,提出的算法的运行时间远远低于其他两种方法。  相似文献   

7.
大数据分析的神经网络方法   总被引:3,自引:0,他引:3  
大数据蕴含巨大的社会、经济、科学价值,已成为学术界与企业界关注的重点。其关键技术可划分为三大层次:数据平台、分析平台和展示平台,其中分析平台是大数据转化为价值的桥梁。一般来说,大数据拥有体量浩大(volume)、多源异构(variety)、生成快速(velocity)、价值稀疏(value)的“4V”特性,扩大了大数据的价值空间,同时也为大数据的分析技术带来巨大挑战。其中三大挑战比较显著,即多源异构大数据、大量非结构化数据存储、大数据价值稀疏且变化快。其三大核心科学问题为大数据的表达、存储和预测问题。由于传统的数据分析方法难以胜任,发展新的大数据分析方法势在必然。人脑是天然的大数据处理引擎。神经网络是一种模拟人脑大数据分析机制的计算方法,是目前大数据分析中最成功的方法。神经网络的研究主要包括:模拟大脑神经网络结构,构建神经网络结构模型;模拟大脑神经网络的记忆机制,发展学习算法。神经网络的研究历史历经波折。近年来,随着当代计算机计算能力的不断提升,基于神经网络的大数据分析方法取得了巨大成功,尤其是在各应用领域,如语音大数据分析、图像大数据分析、医学大数据分析等,引领了人工智能的发展。AlphaGo在人机围棋大战中获胜,引起了广泛关注。“大数据+神经网络”已成为驱动创新、推动社会发展和改变人类生产生活方式的一种重要力量。以大数据和神经网络为线索,回顾大数据的基本概念与关键技术,梳理神经网络研究的基本框架,可以发现它们之间默契切合、互相促进的关系。一方面,神经网络具有强大的特征提取与抽象能力,能够整合多源信息,处理异构数据,捕捉变化动态,是大数据实现价值转化的桥梁。另一方面,体量浩大的大数据为神经网络提供了充足的训练样本,使得训练越来越大规模的神经网络成为可能。尽管“大数据+神经网络”在众多应用领域已经取得了突破,但是,仍然存在需要解决的核心科学问题。面向神经网络的研究中,神经网络的结构尚需进一步研究,神经网络的大小依然缺少理论性的指导,神经网络的学习算法仍然存在一些内在的问题。围绕大数据分析的三大核心科学问题,需要研究如何保证在高维空间中稀疏表达仍可维持数据的一致性,如何实现“只存储知识而不存储原始数据”,如何刻画数据的时空关联以实现大数据的预测。因此,仍然需要对该领域持续投入,加强应用研究和理论研究,尤其应进行跨领域的研究,即与人脑的大数据处理相呼应,结合认知科学、神经科学等相关学科的知识,以解决神经网络和大数据应用中的核心科学问题,推动基于神经网络方法的大数据分析研究。  相似文献   

8.
针对输变电工程数据来源多样、类型复杂、数据量大导致数据存储压力大的问题,提出了一种基于层级设计的输变电工程数据存储架构.将输变电工程数据划分为结构化数据和非结构化数据,使用不同的存储方式以优化配置存储资源;使用基于遗传算法的数据迁移方法实现海量数据的迁移,使用不同配置的数据存储中心进行仿真与测试.结果表明,所提出的存储架构和数据迁移方法能有效解决海量输变电工程数据存储的问题,提升输变电工程数据存储系统的性能.  相似文献   

9.
面对传统医疗健康管理系统在存储和管理海量数据方面表现欠佳的问题,提出基于Hadoop对医疗健康数据进行高效管理和快速处理的方法。根据医疗健康数据特点,将HBase与Solr相结合实现多条件查询从而提高查询效率。设计医疗健康数据HBase数据库、医疗健康数据写入HBase过程和医疗健康数据MapReduce查询分析三个组成部分,搭建Hadoop集群环境,对HBase和MapReduce的性能进行测试对比。经测试,当数据量逐渐增大到一定规模时,该模型表现出明显的优势,可满足海量的医疗健康数据管理要求,缩短了计算时间,提高了处理效率。  相似文献   

10.
研究金融领域基于自然语言查询的结构化查询语言(SQL)生成问题(Text-to-SQL), 构建一个金融领域Text-to-SQL数据集,称为SOFT数据集. 该数据集覆盖了金融领域的常见查询,具有鲜明的特点,并对Text-to-SQL提出了挑战. 提出金融领域Text-to-SQL模型FinSQL,该模型优化了对金融领域复杂查询的支持. 通过分析一类复杂计算查询(行计算查询)的特点,提出一种基于分治的方法,即先将一个行计算查询分解为若干个子查询,分别针对每个子查询生成SQL语句,再将子查询的SQL语句组合在一起得到原始查询的SQL语句. 在SOFT数据集上进行验证,结果显示,本研究所提的方法在复杂查询上效果优于已有方法. 特别地,所提出的模型FinSQL能够较好地支持行计算查询.  相似文献   

11.
提出了一种针对海量无线电监测数据的分布式存储系统的体系结构。结合Hadoop云计算平台和HBase分布式数据库的存储特点,在Linux平台下设计了针对海量无线电监测数据的分布式存储系统。该系统旨在对海量分布式无线电监测数据进行快速、高效、可靠地处理,用以满足无线电监测管理部门对监测数据的存储、检索和分析的需求。  相似文献   

12.
大数据安全保障关键技术分析综述   总被引:3,自引:0,他引:3  
针对作为各个行业信息化建设重要基础支撑的大数据在收集、存储、传输和使用过程中面临的诸多安全风险,分析了大数据在这些过程中面临的安全威胁.综述了大数据相关系统平台和大数据应用中安全保障的关键技术及最新进展,包括用户访问控制、数据隔离、数据完整性、隐私保护、安全审计、高级持续性攻击(advanced persistent threat,APT)防范等,以应对云计算、物联网、移动互联等新技术的快速发展对大数据带来的安全挑战和更高的安全要求.同时也对大数据的安全保障技术的发展趋势进行了展望.  相似文献   

13.
为降低客户端和服务端之间的远程过程调用(RPC)通讯,提高对存储空气质量监测数据的HBase表的区间统计效率,提出了一种基于协处理器的大数据区间统计方法。使用终端协处理器可以将区间统计过程放在服务端运行,通过特定的协议将区间统计所需的参数从客户端传递到服务端,协处理器调用结束后,将结果返回到客户端,客户端对返回的消息进行处理汇总,最终得到区间统计结果。实验证明,使用终端协处理器进行空气质量监测数据区间统计较使用客户端扫描方式至少快一个数量级,极大地提高了统计效率。  相似文献   

14.
运用大数据技术对陕南移民搬迁信息化系统中的数据进行管理、分析,简述大数据的基本特点与关键技术、数据采集技术、分布式存储技术、并行化处理技术和海量数据挖掘技术。根据信息化系统的体系框架,对大数据技术在陕南移民信息化系统中的应用进行探讨,分析大数据技术的应用价值,阐述政府在大数据技术上投入的重要性。  相似文献   

15.
大数据热点技术综述   总被引:3,自引:0,他引:3  
大数据是当前学术界和工业界关注的热点,从大数据文件系统、大数据分布式存储策略、大数据资源调度以及大数据计算框架等几个方面阐述了当前典型的大数据相关技术及热点技术,并进一步指出下一步可能的研究方向:如何通过语义提高计算效率以及如何高效处理时空大数据.  相似文献   

16.
物联网、移动互联网、社交网、电子商务、电子政务、数字家庭、远程教育、远程医疗等新一代信息技术的应用不断产生大数据,利用好大数据已成为提高企业核心竞争力的关键因素。文章首先详细介绍了大数据技术,然后分析了分布式文件管理技术、分布式数据处理技术、分布式数据库技术等基于大数据的信息系统关键技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号