首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
大数据时代的到来,更强的计算机和更成熟的大数据平台工具让企业从海量数据中挖掘数据价值成为了可能,尤其是基于Hadoop的大数据平台,甚至利用廉价的商业硬件处理TB、PB级别的数据. 在最初Hadoop大数据平台落地建设的过程中,往往功能先行,而忽略了安全的管控策略,直到2009年Yahoo团队提出了基于Kerberos的身份验证方案,才带动了Hadoop大数据平台安全管控工作的全面开展. 本文介绍了Hadoop大数据平台的基本历程,描述了2009年之前Hadoop大数据平台存在的传统安全问题,并尝试着将目前行业内Hadoop生态系统组件的安全性和每个组件的安全解决方案做一次系统的梳理,希望为构建Hadoop大数据平台管控方案时提供参考意见,以便合理利用先进的安全管控方案保护好企业、用户的隐私数据.  相似文献   

2.
基于Hadoop平台协同过滤推荐算法   总被引:1,自引:1,他引:0  
针对协同过滤推荐算法在数据稀疏性及在大数据规模下系统可扩展性的两个问题, 在分析研究Hadoop分布式平台与协同过滤推荐算法后, 提出了一种基于Hadoop平台实现协同过滤推荐算法的优化方案. 实验证明, 在Hadoop平台上通过MapReduce结合Hbase数据库实现算法, 能够有效地提高协同过滤推荐算法在大数据规模下的执行效率, 从而能够进一步地搭建低成本高性能、动态扩展的分布式推荐引擎.  相似文献   

3.
飞机系统日趋复杂化,使得需要处理的飞行数据规模越来越大,对数据读取速度的要求越来越高。本文设计了一个海量数据管理系统,该系统基于Hadoop分布式平台,采用的Linux集群技术使存储容量易于扩充,分布式计算框架可以达到高速处理数据的要求。本系统具有数据规模易扩展、处理速度快、安全性高、容易实现等特点,能够较好地满足飞行数据存储管理的要求。  相似文献   

4.
随着企业信息化在生产实时监测、海量存储和科学分析决策等方面的需求不断提升,运维监控系统已逐渐成为主要的管理手段。采用最新的云计算技术,设计及搭建一个数据规模易扩展、处理速度快、安全性高、成本低的云运维监控系统;针对运维控制系统中海量监控历史数据实时提取响应速度慢的缺点,设计并实现一种基于Hadoop的分布式海量数据处理模型。仿真实验证明,Hadoop在对云监控系统中的海量数据提取效率优于传统方法,随着数据量的快速增长,优势越明显。  相似文献   

5.
针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,MapReduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。  相似文献   

6.
大数据、云计算技术的迅猛发展为挖掘气象数据丰富的科研和经济价值提供了技术支撑,促进了Hadoop及其包含的文件存储系统(HDFS,Hadoop Distributed File System)和分布式计算模型在气象数据处理领域广泛应用。由于气象数据具有大数据的4V特征,还需要引入新的数据处理算法来提高气象数据处理效率。通过对决策树算法原理的研究,基于Hadoop云平台,创建随机森林模型,为数据挖掘算法在云平台上的应用提供一种新的可能性。基于决策树(CART,Classification And Regression Trees)挖掘算法的气象大数据云平台设计,采用Hadoop系统架构和MapReduce工作流程,对气象大数据云平台采用集群部署。平台总体架构分为基础设施层、数据管理与处理层、应用层,减少了决策树建立的时间,实现了气象数据高效加工和挖掘分析等平台功能。  相似文献   

7.
环保在线监测已经运行了很长时间,在全国已经构成了一个多源化的大数据来源,数据来源就是各个省市县区的环保部门数据中心.采用Hadoop架构形成一个全方面的大型数据中心,使用Hadoop高可靠性、高兼容性的特点对各个数据中心的数据进行分析.设计出新型的数据监测传输终端装置,可以为大数据平台提供真实、准确的数据.结合大数据中...  相似文献   

8.
Hadoop是一个开源分布式计算平台。具有高容错性,高伸缩性等优点,允许用户将Hadoop部署在低廉的PC上,充分利用集群的计算和存储能力,完成海量数据的处理。结合国内烟草企业面对不断剧增的业务数据,而现有的业务数据处理能力明显不足的现状,分析烟草企业构建Hadoop分布式数据处理平台的可行性,并详细介绍了Hadoop平台技术及其项目结构和体系结构。  相似文献   

9.
针对自然界与人类社会二元水循环产生的海量水务观测数据,现有水务数据管理系统存在存储负荷大,数据库扩展困难,查询速度慢的问题,无法满足存储与分析的需要。针对问题,首先,结合虚拟化技术、Hadoop基础架构,设计分布式大数据存储平台的基本架构;其次,依据现有水务大数据情况及实际业务数据库表,实现分布式大数据存储平台的设计;最后,完成从集中式平台到分布式平台的数据迁移代码实现,并进行数据迁移实验测试。实验结果验证了分布式大数据存储平台设计方案的可行性与有效性,可为大规模行业数据的存储与处理提供一种理想的分布式解决方案。  相似文献   

10.
随着大数据时代的到来,电信运营商按照"一个平台,应用百花齐放"的原则进行大数据平台的建设,开始将企业核心数据汇聚到基于Hadoop的大数据平台.由于采用多厂商、跨部门方式开展大数据业务,大数据平台在资源调度、权限管理方面的机制已成为制约大数据业务开展的关键因素.提出了一种基于Hadoop的大数据平台多租户管理策略,解决电信运营商大数据平台在多租户开放模式下面临的资源调度、权限控制的难题,拓宽电信运营商大数据的使用范围,实现创新应用.  相似文献   

11.
针对传统海量数据存储和处理方法成本高、效率低、编写程序困难等缺点,该文搭建了基于Hadoop框架的云平台,设计和实现了基于Hadoop的校园教育资源管理系统。测试及实验结果表明,基于Hadoop的云平台在大数据和多用户并发访问环境下,系统运行稳定,数据处理快,能有效降低成本,较传统单机服务器具有明显优势,能够很好的在校园资源管理系统中得到应用。  相似文献   

12.
基于Hadoop的知识管理系统可以增强企业海量知识存储与处理的能力,实现面向管理决策的知识发现.通过研究Hadoop平台及其特点,分析了基于Hadoop的知识管理系统的优势,构建了基于Hadoop的企业知识管理框架模型,并设计了基于Hadoop的知识管理系统的逻辑架构,最后利用基于MapReduce的协同过滤算法对知识推荐模块进行了详细设计.应用Hadoop等大数据技术及推荐系统技术构建知识管理系统既能实现知识管理的个性化和智能化,又能满足企业知识管理系统的扩展性和经济性的需求.  相似文献   

13.
很多大企业采用Hadoop分布式文件系统来存储海量数据,而传统的病毒扫描主要针对单机系统环境。研究如何并行化病毒扫描中的核心特征匹配算法来处理分布式海量数据。在Hadoop平台下,基于MapReduce并行编程模型来实现大数据高效的病毒扫描,特别是针对Hadoop处理海量小文件效率低的问题,通过将小文件合并,再利用索引来提高海量小文件的处理效率。实验结果表明,提出的并行特征匹配算法可以显著降低处理时间,适用于大数据的病毒扫描。  相似文献   

14.
针对传统的大数据信息监控云平台模式单一、虚拟化程度不高,容易导致信息泄露的问题,为了提高对大数据的信息安全溯源能力,提出基于Hadoop的大数据信息安全监控云平台设计方法。在信息资源云体系下构建大数据信息安全融合模型,通过信息挖掘与匹配方法把云平台中的数据资源、物理资源进行关联性整合,方便数据安全溯源,在Hadoop平台下构建多源信息资源云,建立用户接口注册机制,采用虚拟化技术进行信息保护,实现在云平台下进行信息安全溯源。实验结果表明,采用该方法进行大数据信息安全溯源,大数据信息分类存储性能较好,对异常数据挖掘精度较高。具有较好的信息安全保护能力,确保了信息安全。  相似文献   

15.
大数据平台Hadoop为追求通用性,牺牲了对结构化大数据的处理性能.为此,提出了一种Hadoop平台上的针对结构化数据的压缩存储策略.首先,针对多种不同的数据类型,结合轻量级压缩算法的特点,设计了多种数据类型的压缩数据页;然后,设计了基于HDFS的页式行列混合存储结构;最后,设计并实现了基于MapReduce的MR-DC数据压缩策略,将数据压缩存储到设计的存储结构中.在大规模数据仓库基准数据集上的实验结果验证了提出的策略能够显著减少结构化数据的存储量,从而为提高后续的数据分析处理性能打下基础.  相似文献   

16.
根据21CMA相关器的算法特点,在对比基于CPU并行的MPI集群、MPI+CUDA异构并行集群和Hadoop+CUDA异构并行集群的架构特点的基础上,提出了一种基于Hadoop+CUDA平台实现软相关器的方法。本方法利用GPU在计算FFT、向量乘和向量加等密集型计算模型的优势,设计相关器的并行模型,使其性能较前期在CPU并行的MPI集群实现的相关器有了大幅提升。同时,本文选择广泛应用于大数据处理平台的Hadoop软件架构,利用Hadoop Streaming工具实现非Java编写的程序在分布式系统中并行执行,非常便捷地获得了集群系统的线性加速比。Hadoop HDFS并行文件系统管理结果数据和过程日志更加灵活可靠,为后续的大数据分析提供了支撑环境。  相似文献   

17.
随着信息技术的发展,互联网信息资源变得越来越丰富,大数据技术的发展使得我们能够从互联网复杂的信息数据中获得相应的知识。这其中最基本的技术就是大数据采集技术,它使我们能够将互联网数据快速采集下来并结构化存储。设计的基于Hadoop的可视化Deep Web采集平台是一种简单易操作的高效深度采集平台,运用Webkit技术作为核心引擎实现可视化配置和深度采集功能,同时通过优化采集算法,调整Hadoop任务分配策略提升效率。实验结果表明,设计的数据采集平台获得了较好的效果。  相似文献   

18.
作为电网企业对外服务窗口,电网客户服务中心需要整合企业内部各种异构数据资源、存贮和分析海量的客户服务语音信息和 WEB 服务信息。如何对电网企业各类数据进行高效、可靠、低廉地存储,并快速访问和分析,是当前重要的研究课题。首先分析了大数据的特征和大数据的关键技术,其后,设计了大数据时代下的电力客户服务数据分析系统,提出了系统的数据体系架构,设计了系统功能,总结了系统的关键技术和算法,该系统利用大数据技术和数据仓库技术集中存储、管理和应用电网数据,通过元数据管理实现统一的数据服务平台,使用Hadoop数据库作为非结构数据的存贮平台和数据分析与挖掘的支撑平台,基于CDC数据仓库ETL模型设计数据仓库 ETL 构件,在数据展示层使用多维数据分析技术。最后,综述了系统应用案例,实践表明,系统具有成本低、扩展性较好、可靠性高、并行分析等特点,可以大大提高电网企业的客户服务水平。  相似文献   

19.
目前部署在各县的山洪灾害监测系统中地理数据和水雨情数据急剧增多,传统关系型数据库显示出一定的局限性。同时,依靠的商业软件存在不同的开发模式,过于封闭、独立以及垄断和高额费用等,在一定程度上制约了山洪监测系统的扩展与升级。研究了基于开源QGIS和PostgreSQL,在Hadoop平台上设计构建低成本、高扩展性、高可靠性的山洪监测系统。以四川省宜宾县的雨量监测站点和历史雨量数据为例,成功部署开源分布式山洪监测数据系统,为系统的下一步扩展、优化,以及实现海量空间数据分析和数据挖掘奠定基础。  相似文献   

20.
云计算是未来企业信息化的发展趋势,在各行业中已有了一定的研究或应用,但在预拌混凝土行业还鲜有研究。针对预拌混凝土企业信息化建设中对数据存储、整合、挖掘等方面需求的不断提高,将云计算运用于建设预拌混凝土企业信息平台,提出了面向混凝土行业的云计算,以实现信息平台资源虚拟化、大数据存储与并行计算处理。结合Hadoop云计算技术,设计了云计算信息平台构架,给出了几种云计算下的应用模式,并通过实例验证了平台的可行性,分析了应用效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号