首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
本文旨在对企业级Hadoop 大数据平台安全管理机制进行探究。首先介绍当前企业级Hadoop 大数据集群安全管理方案存在的问题和不足;然后结合当前Hadoop 生态圈安全管理组件的发展现状和第三方安全信息管理解决方案,针对现有的Hadoop 大数据平台安全管理机制的不足进行优化和整合;最后提出了以Ranger+FreeIPA(Kerberos+LDAP)为整体的Hadoop 大数据平台安全管理解决方案。  相似文献   

2.
随着大数据时代的到来,以及电信运营商正在推行去“IOE”,电信运营商开始将企业核心数据迁移到基于Hadoop的大数据平台进行大数据业务的开展.由于电信数据特有的真实性、敏感性,以及支撑电信运营商大数据业务厂商的多样性,大数据平台存储能力开放、计算资源开放、数据开放的安全已成为制约大数据业务开展的关键因素.提出了一种基于Hadoop的大数据平台能力开放策略,解决电信运营商大数据平台能力开放面临的难题,提升电信运营商开展大数据业务的能力.  相似文献   

3.
在万物互联大数据时代的海量数据处理中,如何大数据中挖掘出数据中的潜在信息价值并转化为决策依据的能力,特别是对于拥有高附加值数据的汽车企业,将是企业重要竞争力。开源Hadoop在大数据分析过程中,有着易扩展、成本低、吞吐量大等优势,Hadoop分布式平台已经成为绝大多数企业的首选。本文设计实现基于Hadoop开源技术为汽车工业中的企业进行大数据平台设计,实现高效率、高可扩展、高容错、低延时大数据平台,保证了平台的高容错性和灵活性。  相似文献   

4.
基于Hadoop的知识管理系统可以增强企业海量知识存储与处理的能力,实现面向管理决策的知识发现.通过研究Hadoop平台及其特点,分析了基于Hadoop的知识管理系统的优势,构建了基于Hadoop的企业知识管理框架模型,并设计了基于Hadoop的知识管理系统的逻辑架构,最后利用基于MapReduce的协同过滤算法对知识推荐模块进行了详细设计.应用Hadoop等大数据技术及推荐系统技术构建知识管理系统既能实现知识管理的个性化和智能化,又能满足企业知识管理系统的扩展性和经济性的需求.  相似文献   

5.
随着移动互联网的快速发展,用户行为分析的精确性显得十分重要.给出了移动互联网下大数据用户行为的Hadoop平台搭建方法,介绍了Hadoop集群的构造模块和组件,搭建了Hadoop集群,并进行了测试.  相似文献   

6.
高校业务系统数据资源的结构、内容以及数据利用价值还不够清晰,尚未真正发挥应有作用。以笔者所在高校为例,本文介绍基于Hadoop的“智慧校园大数据平台”的数据建设方案。文章根据学校现状提出适合高校信息化建设的数据治理方案,主要通过Hadoop分布式系统架构为大数据存储提供底层支撑,通过共享数据中心存储权威数据,通过智慧校园大数据平台实现数据流调用和共享,为大数据分析和决策提供依据。  相似文献   

7.
随着大数据时代的到来,电信运营商按照"一个平台,应用百花齐放"的原则进行大数据平台的建设,开始将企业核心数据汇聚到基于Hadoop的大数据平台.由于采用多厂商、跨部门方式开展大数据业务,大数据平台在资源调度、权限管理方面的机制已成为制约大数据业务开展的关键因素.提出了一种基于Hadoop的大数据平台多租户管理策略,解决电信运营商大数据平台在多租户开放模式下面临的资源调度、权限控制的难题,拓宽电信运营商大数据的使用范围,实现创新应用.  相似文献   

8.
随着互联网和大数据的发展,云计算平台成为互联网时代比较受关注的课题,云计算平台具有计算速度快和高容量的特点.Hadoop开源分布式系统架构模型是云计算平台的基本模型,对Hadoop开源分布式系统架构的组件HDFS分布式文件系统和HBase分布式数据库进行了简单的分析,提出了云计算平台的搭建设计方案.  相似文献   

9.
基于Hadoop平台协同过滤推荐算法   总被引:1,自引:1,他引:0  
针对协同过滤推荐算法在数据稀疏性及在大数据规模下系统可扩展性的两个问题, 在分析研究Hadoop分布式平台与协同过滤推荐算法后, 提出了一种基于Hadoop平台实现协同过滤推荐算法的优化方案. 实验证明, 在Hadoop平台上通过MapReduce结合Hbase数据库实现算法, 能够有效地提高协同过滤推荐算法在大数据规模下的执行效率, 从而能够进一步地搭建低成本高性能、动态扩展的分布式推荐引擎.  相似文献   

10.
针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,MapReduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。  相似文献   

11.
朱慧雯  田骏  张涛  蒋卫祥 《软件》2020,(3):99-101
针对目前互联网招聘市场的兴起,大数据分析可以有效的帮助用户了解目前最热门的职业以及与职业相关的信息,提出了利用Hadoop-SpringMVC-Vue前后端分离的技术架构,进行技术方案的设计。本文首先分析了互联网大数据的招聘数据智能分析平台的需求;其次应用Hadoop集群搭建大数据平台,SpringMVC框架设计系统的架构,Vue框架设计项目前端;最后介绍了系统的实现。SpringMVC框架能简化互联网大数据的招聘数据智能分析平台的开发,可以有效的降低各层之间的耦合度,提高系统的可维护性。  相似文献   

12.
屠要峰  牛家浩  王德政  高洪  徐进  洪科  阳方 《软件学报》2023,34(3):1213-1235
大数据成为国家基础性战略资源,数据的开放共享是我国大数据战略的核心.云原生技术和湖仓一体架构正在重构大数据基础设施,并推动数据共享和价值传播.大数据产业和技术的发展都需要更强的数据安全和数据共享能力.然而,开放环境下数据的安全问题已成为制约大数据技术发展与利用的瓶颈.无论开源大数据生态还是商业大数据系统,所引发的数据安全及隐私保护问题都日益凸显.开放大数据环境下的动态数据保护系统面临着数据可用性、处理高效性和系统可扩展性等方面的挑战.提出了面向开放大数据环境的动态数据保护系统BDMasker,通过一种基于查询依赖模型(querydependencymodel)的精准查询分析及查询改写技术,能够精准感知但不改变原始业务请求,实现动态脱敏全过程对业务零影响;通过面向多引擎的统一安全策略框架,实现了动态数据保护能力的纵向扩展和在多种计算引擎中的横向扩展;利用大数据执行引擎的分布式计算能力,提升系统的数据保护处理性能.实验结果表明, BDMasker提出的精准SQL分析及改写技术是有效的,系统具有良好的扩展能力和性能表现,在TPC-DS和YCSB基准测试中,整体性能波动在3%之内.  相似文献   

13.
随着大数据时代到来,分布式文件系统支持Hadoop大数据访问已成为一种趋势。本文以研究支持Hadoop大数据访问的pNFS框架为目的,采用在Hadoop与pNFS之间添加pNFS shim layer模块的方法,实现了pNFS支持Hadoop大数据访问的HDFS APIs;通过在pNFS shim layer中添加写缓存和节点级数据布局感知机制优化了系统性能。采用Hadoop基准程序对本文提出的框架进行测试,结果显示写性能提升超过45%,读性能提升超过97%,证明此框架可以有效的支持Hadoop大数据访问。  相似文献   

14.
Big data has become a national basic strategic resource, and the opening and sharing of data is the core of China''s big data strategy. Cloud native technology and lake-house architecture are reconstructing the big data infrastructure and promoting data sharing and value dissemination. The development of the big data industry and technology requires stronger data security and data sharing capabilities. However, data security in an open environment has become a bottleneck, which restricts the development and utilization of big data technology. The issues of data security and privacy protection have become increasingly prominent both in the open source big data ecosystem and the commercial big data system. Dynamic data protection system under the open big data environment is now facing challenges in regards such as data availability, processing efficiency, and system scalability. This paper proposes the dynamic data protection system BDMasker for the open big data environment. Through a precise query analysis and query rewriting technology based on the query dependency model, it can accurately perceive but does not change the original business request, which indicates that the whole process of dynamic masking has zero impact on the business. Furthermore, its multi-engine-oriented unified security strategy framework realizes the vertical expansion of dynamic data protection capabilities and the horizontal expansion among multiple computing engines. The distributed computing capability of the big data execution engine can be used to improve the data protection processing performance of the system. The experimental results show that the precise SQL analysis and rewriting technology proposed by BDMasker is effective. The system has good scalability and performance, and the overall performance fluctuates within 3% in the TPC-DS and YCSB benchmark tests.  相似文献   

15.
针对我国生物质能源工程信息化程度比较低的现状,结合当今流行的大数据处理技术,基于Hadoop开源框架设计并且实现了生物质能源工程数据资源管理平台.介绍了平台的主要功能模块,包括生物质能源工程的管理、监测指标的管理、实时监测、反欺诈模型的管理、统计分析等.对平台建设中的关键技术包括数据获取、大数据存储、大数据处理、负载均衡等做了深入研究.旨在将物联网技术,互联网技术和大数据处理技术与生物质能源工程有机的结合起来,提高生物质能源工程的信息化水平,保障生产安全,优化工艺流程,实现效益最大化,为同类工程的建设提供理论和实践依据.  相似文献   

16.
The Global Database of Event, Language, and Tone (GDELT) is the only global political georeferenced event dataset with more than 250 million observations covering all countries in the world since January 1, 1979. TABARI and CAMEO are the tools that are used to collect and code events from all international news coverage. To query such big geospatial data, traditional RDBMS can no longer be used, and the need for parallel distributed solutions has become a necessity. MapReduce paradigm has proven to be a scalable platform to process and analyze Big Data in the cloud. Hadoop, as an implementation of MapReduce, is an open‐source application that has been widely used and accepted in academia and industry. However, when dealing with Spatial Data, Hadoop is not equipped well and does not perform efficiently. SpatialHadoop is an extension of Hadoop with the support of spatial data. In this paper, we present Geographic Information System Query and Analytics Framework (GISQAF), which has been built on top of SpatialHadoop. GISQAF focuses on two parts: query processing and data analytics. For the query processing part, we show how this solution outperforms Hadoop query processing by orders of magnitude when applying queries on the GDELT dataset with a size of 60 GB. We show the results for various types of queries. For the data analytics part, we present an approach for finding Spatial co‐occurring events. We show how GISQAF is suitable and efficient to handle data analytics techniques. Copyright © 2015 John Wiley & Sons, Ltd.  相似文献   

17.
Forensic examiners are in an uninterrupted battle with criminals in the use of Big Data technology. The underlying storage system is the main scene to trace the criminal activities. Big Data Storage System is identified as an emerging challenge to digital forensics. Thus, it requires the development of a sound methodology to investigate Big Data Storage System. Since the use of Hadoop as Big Data Storage System continues to grow rapidly, investigation process model for forensic analysis on Hadoop Storage and attached client devices is compulsory. Moreover, forensic analysis on Hadoop Big Data Storage System may take additional time without knowing where the data remnants can reside. In this paper, a new forensic investigation process model for Hadoop Big Data Storage System is proposed and discovered data remnants are presented. By conducting forensic research on Hadoop Big Data Storage System, the resulting data remnants assist the forensics examiners and practitioners for generating the evidences.  相似文献   

18.
Big data analysis requires examining large amounts of data. This is, so discover the hidden patterns, and give the insight to make decisions on the correct business. Companies, because it uses the power of data and technology be a more objective data-driven. Big data of human resources, faced with various problems from big data storage security problems. These issues have been discussed in the next four categories based on the Contextual Data Analyzing Technique (CDAT) using FPGA tool. Data were collected and finally to analysts that are eligible to determine the problems caused by direct analysis, on security issues, and to find the problem. Companies that big data is presented to improve the company's strategy, to the best of time, various opportunities to make the right decisions. Human resources are one of the substantive departments of any company that needs big data benefits in a different process. The main purpose is to describe the big human data analysis method to improve company performance. Also, the problem is, all of the human resources department is that it is facing using big data.  相似文献   

19.
基于Hadoop的仿射传播大数据聚类分析方法   总被引:1,自引:0,他引:1  
仿射传播聚类算法(AP)是一个新的聚类分析方法,已经被广泛应用于各种领域。APC算法不能用于大型数据的分析。为了克服这个限制,在Hadoop分布式框架的基础上提出一种改进的放射传播聚类分析方法(基于Hadoop的仿射传播大数据聚类分析方法,简称APCH)。通过在Hadoop环境下重新设计算法流程,APCH算法成为了一个并行化的大数据聚类分析方法。此外APCH算法能够高效操作大数据,并能够直接决定聚类的个数。为了验证方法的性能,在多个数据集上进行了实验。实验结果表明APCH对大数据处理有很好的适应性和延展性。APCH采用开源的方式提供可执行软件程序和源代码,用户可以下载后部署在自己的分布式集群中或者是部署在亚马逊EC2等云计算环境中。所有编译后的执行程序,源代码,用户手册,部分测试数据集均可以从https://github.com/HelloWorldCN/MapReduceAPC上下载。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号