首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
面向农业科学数据的分布式存储方法研究   总被引:1,自引:0,他引:1  
随着农业科技的飞速发展,农业科学数据以几何级数快速膨胀。面对持续增长的农业数据资源,如何有效地存储和管理海量的农业数据成为一个研究热点。借助Hadoop分布式存储框架的优势,提出了一种面向农业科学数据的分布式存储方法,该方法采用了"中心控制节点——数据节点"的存储体系,通过报文通信技术和混合式索引分布策略,实现了对海量数据的高并发式存储和检索。实验结果证明,该方法适用于各种类型的农业科学数据进行存储管理。  相似文献   

2.
农业海量信息资源管理平台设计与实现   总被引:1,自引:0,他引:1  
随着农业信息化的深入,如何描述、存储、管理和处理海量分布信息资源成为农业应用的首要问题。提出基于XML/XML Schema的统一农业信息资源描述框架,将XML描述与元数据约束相结合,采用层次化管理结构实现元数据与资源信息的组织;在HDFS(Hadoop Distributed File System)云存储架构适应性改进基础之上,设计实现了农业海量信息资源管理平台,实现了海量、分布、异构资源的分类组织、存储和访问服务。平台覆盖了全国6个省市资源节点,实现了3.2 TB农业资源存储管理,与传统资源检索方法相比,平台资源检索时间缩短73%;同时,用户在同一检索条件下能更多地获得相关资源,不仅查准率平均提高5%,而且资源利用率平均提高17.7%。平台在海量资源检索和利用效率方面获得提升。  相似文献   

3.
在传统的关系型数据库模式的使用中,存在大量的农业数据存储容量小和管理不够完善的问题。基于对Hadoop的分析,提出运用Hadoop框架构建海量农业数据处理云平台,并给出了平台架构和部分实验结果。通过实验数据表明,该方法可以为搭建农业海量数据云平台提供方法论基础,并实现了农业大数据有效的存储和管理。  相似文献   

4.
随着教学资源的飞速增长,海量数据的存储已经成为高校研究的一个新难题。针对传统存储架构已突显管理数据资源效率不高和存储能力不足的问题。本文提出基于Hadoop的海量数据存储模型,并在此模型的基础上设计并实现了基于Hadoop的大规模分布式存储管理平台。事实证明,该平台能够有效完成海量数据的管理和分析任务,提高海量数据处理的效率。  相似文献   

5.
基于Hadoop的海量数据存储平台设计与开发   总被引:1,自引:0,他引:1  
随着北部湾海洋生态资源的开发和利用,海量海洋科学数据飞速涌现出来,利用海量数据存储平台合理管理和存储这些科学数据显得极为重要.这里提出了一种基于分布式计算技术进行管理和存储海量海洋科学数据方法,构建了海量海洋科学数据存储平台解决方案,采用Linux集群技术,设计开发一个基于Hadoop的海量数据存储平台.系统由五大模块组成,有系统管理模块、并行加载存储模块、并行查询模块、数据字典模块、备份恢复模块,能够实现存储海量海洋科学数据.系统模块实现结果表明,该系统安全可靠、易维护、具有良好的可扩展性.  相似文献   

6.
7.
针对传统的图像检索方法在处理海量数据时面临的问题,提出一种基于改进的分布式K-Means特征聚类的海量场景图像检索方法。对分布式K-Means算法进行改进,优化了初始聚类中心的选择和迭代过程,并将其应用与场景图像的特征聚类中;充分利用Hadoop分布式平台的海量存储能力和强大并行计算能力,提出了海量场景图像的存储和检索方案,设计了场景图像特征提取、特征聚类以及图像检索三个阶段分布式并行处理的Map和Reduce任务。多组实验表明,提出的方法数据伸缩率曲线平缓,取得了优良的加速比,效率大于0.6,检索的平均准确率达到了88%左右,适合海量场景图像数据的检索。  相似文献   

8.
随着教学平台数据的爆炸式增长,传统的教学平台在海量信息处理方面带来了较大的压力,对数据的存储、检索等关键技术提出了更高要求.在研究分析云计算领域的基础上,提出了利用Hadoop云计算框架解决教学平台中海量数据存储、检索的问题,优化了平台的数据存储和检索功能,并对平台做了系统的测试和验证.  相似文献   

9.
随着互联网技术的飞速发展,产生的数据越来越多,这就对数据存储提出了更高的要求。在云计算技术的基础上,采用虚拟化技术和Hadoop技术,构建基于云计算的海量数据存储模型,从而将海量数据设置在Hadoop平台上,利用Mapreduce进行处理,并将海量数据存储在虚拟资源池中,从而有效地提高数据存储效率。  相似文献   

10.
国家电网公司信息化程度越来越高,单机运维审计系统产生的数据量日益增多,对海量数据高效率存储分析性能严重下降,系统稳定性降低。为满足国家电网当前对运维审计系统数据存储分析以及系统稳定性的需求,在Hadoop开源架构的基础上,本文提出基于Hadoop集群的海量数据分布式存储方法和基于Heartbeat的心跳检测技术,实现基于Hadoop的电力运维审计系统。〖JP2〗实验测试结果表明,基于Hadoop的电力运维审计系统相比单机系统可用性提高了8.42%,大大提升了存储分析海量数据的性能,具有系统工作稳定和服务不间断等优势。  相似文献   

11.
随着电费数据量的快速增长,某特大型集团公司财务管理信息系统传统的电费数据处理模式已经成为系统的性能瓶颈. Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于海量数据处理领域. 本文在对电费业务和Hadoop进行分析和研究的基础上,提出了电费数据新的处理模型,建立了基于Hadoop和Hive的电费明细数据处理平台. 实验证明该模型可以有效解决目前海量电费数据处理面临的性能瓶颈,提高电费数据处理的速度和效率,并且可以提供高性能的明细数据查询功能.  相似文献   

12.
基于Hadoop的FP-Growth关联规则并行改进算法   总被引:1,自引:0,他引:1  
大数据环境下,传统的串行FP-Growth算法在处理海量数据时,占用内存过大、频繁项多,适用于大数据情况的PFP(Parallel FP-Growth)算法存在数据量增大无法处理的缺陷。针对这些问题,本文提出了基于Hadoop的负载均衡数据分割FP-Growth并行算法。在Hadoop平台下,本文使用负载均衡和数据分割相结合的方式对原始事务数据集分片实现并行化。实验证明基于Hadoop的负载均衡数据分割FP-Growth并行算法在处理数据量和效率上有所提高。  相似文献   

13.
现有的金融行业的数据管理模式主要依赖于传统关系型数据库,然而传统架构受到拓展能力和存储性能的限制,难以满足大数据时代快速增长的海量数据量处理的需要。针对金融数据规模大、跨地域、跨系统存储、数据多样化等特点,提出了HiETL大数据迁移管理平台,实现了异构关系型数据库业务系统向Hadoop大数据平台的统一迁移,以及海量数据的集中整合、拓展存储、高效分析查询等一站式管理平台,在保证迁移准确的情况下,其速度可达到3?MB/s。  相似文献   

14.
针对传统的大数据信息监控云平台模式单一、虚拟化程度不高,容易导致信息泄露的问题,为了提高对大数据的信息安全溯源能力,提出基于Hadoop的大数据信息安全监控云平台设计方法。在信息资源云体系下构建大数据信息安全融合模型,通过信息挖掘与匹配方法把云平台中的数据资源、物理资源进行关联性整合,方便数据安全溯源,在Hadoop平台下构建多源信息资源云,建立用户接口注册机制,采用虚拟化技术进行信息保护,实现在云平台下进行信息安全溯源。实验结果表明,采用该方法进行大数据信息安全溯源,大数据信息分类存储性能较好,对异常数据挖掘精度较高。具有较好的信息安全保护能力,确保了信息安全。  相似文献   

15.
为了从大量的电子邮件中检测垃圾邮件,提出了一个基于Hadoop平台的电子邮件分类方法。不同于传统的基于内容的垃圾邮件检测,通过在Map Reduce框架上统计分析邮件收发记录,提取邮件账号的行为特征。然后使用Map Reduce框架并行的实现随机森林分类器,并基于带有行为特征的样本训练分类器和分类邮件。实验结果表明,基于Hadoop平台的电子邮件分类方法大大提高了大规模电子邮件的分类效率。  相似文献   

16.
基于Hadoop农业大数据管理平台的设计   总被引:1,自引:0,他引:1  
信息技术的高速发展使得每天的数据量以TB级速度暴增,如何有效利用和管理这些爆炸式增长的大数据呢?是当前亟待处理的问题.大数据已经渗透到包括农业领域在内的各个领域,随着农业信息化建设以及物联网技术在农业生产中的应用,产生了海量的农业大数据待存储、管理和处理.本文以成都农业科技职业学院彭州葛仙山农业示范基地的农业信息化建设为背景,根据农业物联网和信息化建设要求,构建高性能基于Hadoop农业大数据管理的平台,实现农业大数据的安全可靠存储、智能管理与应用,最终达到对农业生产的智能预警、智能决策和智能分析的目的,并为农户提供专业的指导.为我国进入精细化种植、精准化控制、可视化管理、智能化决策的智慧农业时代奠定基础.  相似文献   

17.
最近大数据的增长正在引发安全和隐私问题,传统的访问控制模型难以对海量数据提供动态的访问控制。针对Hadoop云平台的数据安全问题,提出了一个基于数据敏感性的Hadoop大数据访问控制模型。模型利用数据内容、使用模式和数据敏感性来强化访问控制策略,在评估数据敏感性上用户干预最小,能根据数据集的增加和删除所引起的数据敏感性变化来调整访问控制策略。实验结果表明,该模型能够以较少的开销增强对非多媒体数据集的访问控制,解决了现有Hadoop平台中访问控制模型安全性的不足。  相似文献   

18.
大数据时代的到来,更强的计算机和更成熟的大数据平台工具让企业从海量数据中挖掘数据价值成为了可能,尤其是基于Hadoop的大数据平台,甚至利用廉价的商业硬件处理TB、PB级别的数据. 在最初Hadoop大数据平台落地建设的过程中,往往功能先行,而忽略了安全的管控策略,直到2009年Yahoo团队提出了基于Kerberos的身份验证方案,才带动了Hadoop大数据平台安全管控工作的全面开展. 本文介绍了Hadoop大数据平台的基本历程,描述了2009年之前Hadoop大数据平台存在的传统安全问题,并尝试着将目前行业内Hadoop生态系统组件的安全性和每个组件的安全解决方案做一次系统的梳理,希望为构建Hadoop大数据平台管控方案时提供参考意见,以便合理利用先进的安全管控方案保护好企业、用户的隐私数据.  相似文献   

19.
XML数据越来越广泛地被用于信息交换与集成中,其数据质量问题引起了人们的关注.解决由数据质量引发的问题,实体识别技术非常关键.为了克服现有方法的不足,在海量XML数据上进行高效的重复对象检测,以实体识别技术为基础提出了基于Hadoop平台的XML文档重复检测算法,它将所有标签节点统称为属性,用实体来描述属性,通过属性的比较,快速地找到在某些属性上相同的所有实体对象,并利用Hadoop应用框架处理海量数据的优势实现并行处理.经过试验验证该方法良好的扩展性,伸缩性和高效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号