首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
《现代电子技术》2020,(2):60-63
针对当前图书馆云检索系统未能较多关注用户需求,检索效率低的问题,以数据挖掘技术为核心,以分布式开源框架Hadoop为支撑,提出一种基于数据挖掘技术的智能图书馆云检索系统。首先集成Hive,HDFS,MapReduce,Hadoop组件对智能图书馆云检索系统的硬件部分进行设计。Hive主要用于图书馆书籍资源关键词的存储与分析;MapReduce主要用于图书馆书籍资源实际统计分析计算;HDFS主要用于相关操作数据的存储;而Hadoop主要用于存储设备的相关管理。然后在系统架构下,确定了系统的实现流程以及图书馆资源在分布式环境下的检索机制。通过多组实验数据测试系统性能,并与其他同类检索系统相比较,所设计系统检索效率有明显提升,且随着数据量的增加,提升效率会更加明显。  相似文献   

2.
分析和研究了传统ETL工作流程处理过程,采用JAVA技术,提出了ETL工作流程优化方案,对传统ETL性能问题提出了优化办法,并进行优化处理,很好地解决了数据集成处理过程数据融合、数据一致化和数据同步更新等重要问题,减轻了瓶颈制约,节约了处理时间开销.实际应用证明,优化后的ETL流程方案有效地减少了传统ETL工作流的时间花费,执行效率好,具有良好的实践应用价值.  相似文献   

3.
Hadoop是Apache基金会所开发的支持涉及数千个节点和海量数据的分布式计算的高级项目。它是一个开源免费的软件框架,受到谷歌的MapReduce和谷歌文件系统(GFS)的启发,由Java语言实现,全球的开发志愿者共同对它进行完善。Hadoop的子项目包括HDFS,MapReduce,HBase,Hive等。HDFS是一个分布式文件系统,提供高吞吐量的应用数据接口使得Hadoop具有很好的性能。MapReduce是一个软件框架,它执行涉及海量集群数据的分布式计算的MapReduce算法。尽管Hadoop被广泛使用,但它仍然存在一些影响性能的缺陷,对于小文件的处理能力就是其中缺陷之一。档案文件(Hadoop Archives)和序列文件(sequence files)是两种现有的改善小文件处理问题的解决方案,但它们仍然有各自的不足,提出一个解决方案,保留它们的优点使Hadoop在处理小文件上拥有更好的性能。  相似文献   

4.
基于快速发展的并行数据库技术、云计算MapReduce技术及其混合技术,分析了这些技术的优缺点,对并行计算架构、分布式存储系统之上的索引以及其他方面进行了研究,提出了一种被称为数据立方的大数据处理系统。通过与大数据处理系统Hive和HadoopDB的对比实验表明,数据立方的大数据处理系统在入库、查询、并发、扩展等多方面有明显的优势。  相似文献   

5.
随着大数据技术的飞速发展,大数据技术为各行各业的数据存储和分析提供了有力的技术支撑,在Hadoop大数据集群平台构建Hive数据仓库,使用Hive SQL语句对数据进行查询、汇总和数据分析;Hive本身的数据存储依赖于HDFS分布式集群环境,Hive通过将Hive SQL转换成MapReduce程序,通过大数据集群完成并行计算。文章通过构建Hive数据仓库,通过爬虫获取到腾讯证券中大陆在美上市股票数据,数据处理后,存储到Hive数据仓库。并使用Hive SQL完成基本的数据分析、查询和数据汇总,完成DDL、DML、DQL的基本应用,并在Hive数据仓库完成表的简单查询、复杂查询、表的连接等应用。  相似文献   

6.
胡涛 《电子设计工程》2013,21(5):32-35,39
遗传算法的内在隐并行性决定了其能够以少量的问题编码进而处理大量模式,不少处理更大规模且复杂问题的并行遗传算法也提了出来。本文给出了在Hadoop中MapReduce并行计算框架下简单遗传算法的并行化处理流程,结合框架处理输入和输出键值对的特点提出了基于最小堆的最优个体保留策略的遗传算法在的设计与实现,进一步优化了算法的收敛速度。实验结果表明:运用框架的并行处理能力及堆的线性操作时间,应用于较大规模复杂问题该算法实现在收敛速度上呈良好特性。  相似文献   

7.
王艳  潘晨光 《电视技术》2015,39(14):94-98
处理公共安全大数据需实现查询、全文检索、即时数据推送和内存计算等实时业务分析,而基于Hadoop生态系统建立的Hive不支持海量数据的实时查询,无法实现交互式查询和报表查询快速返回数据结果.针对Hive实时查询的不足,首次将Impala架构应用于公共安全数据处理上,结合Impala实时查询引擎的原理,分析了MapReduce上Hive的实时查询缺陷,比较了Impala和Hive的实时性能,改进了Impala上运行CURE碰撞比对算法,实现了异地数据碰撞比对的分析与展现.本系统的方案在实战应用中取得了较好的效果,可为公安安全领域构建大规模数据处理与分析系统提供技术参考.  相似文献   

8.
《信息技术》2016,(11):201-205
针对传统k-means文本聚类算法在处理大规模文本数据时扩展性不足的问题,提出了基于MapReduce编程模型的并行k-means文本聚类算法。通过删除离群点和采用高效的初始质心选择策略提高k-means聚类效果,并设计基于MapReduce框架的大规模文本并行聚类模型提高算法的可扩展性。实验证明,该算法在大规模文本聚类中具有良好的聚类效果和可扩展性。  相似文献   

9.
以实际算法为例评估MapReduce在石油勘探中的应用   总被引:1,自引:0,他引:1  
石油勘探领域需要处理海量的地震数据,以获取地下构造用以发现和定位油藏。为评估云计算编程模型MapReduce对于石油勘探领域应用算法的适用性,设计并实现了基于MapReduce的三维Fresnel层析成像算法,实验发现MapReduce版本的性能比MPI版本慢3倍,而且对MapReduce作业调优的难度相当大。为了拓展MapReduce在石油勘探领域高性能计算领域的应用,需要在支持线程级并行、灵活性和提升I/O可扩展性3个方面进行改进,并提出了研究方法和技术路线。  相似文献   

10.
针对传统数据抽取、转换及加载(ETL)工具集中式执行的不足,设计实现了一种基于Hadoop平台的分布式ETL系统。该系统采用分布式文件系统存储和映射-规约并行处理海量数据架构,实现了ETL作业的分布式执行,提高了ETL效率,为大数据环境下的基础数据加工提供了解决方案。  相似文献   

11.
MapReduce是由并行编程模型及相关支撑系统组成的数据处理框架,通过定义接口和运行时支持库,通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,通过隐藏底层实现细节,降低实现并行编程的难度,Hadoop是目前MapReduce框架最流行的开源实现.文章首先介绍了MapReduce并行编程模型及其hadoop的运行原理、运行机制,深入研究了MapReduce计算任务在Hadoop系统中的运行过程.  相似文献   

12.
A reliable analysis of consumer preference from a large amount of purchase data acquired in real time and an accurate customer characterization technique are essential for successful direct marketing campaigns. In this study, an optimal segmentation of post office customers in Korea is performed using a subspace projection–based clustering method to generate an accurate customer characterization from a high‐dimensional census dataset. Moreover, a traditional temporal mining method is extended to an algorithm using the MapReduce framework for a consumer preference analysis. The experimental results show that it is possible to use parallel mining through a MapReduce‐based algorithm and that the execution time of the algorithm is faster than that of a traditional method.  相似文献   

13.
吴良 《电子科技》2019,32(8):75-78
针对现有信令数据存储与分析应用模块的独立式架构不利于信令数据的保存与分析的问题,文中设计了一种基于数据挖掘的集成信令存储和应用平台架构。通过设计并行数据挖掘信令分析模块架构,面向数据挖掘的信令存储技术和信令数据集成应用平台,重新定义了基于数据挖掘的信令监测平台架构。利用信令数据仓库中的ETL工具,实现信令数据存储以及应用的一体化设计。所设计的集成信令存储和应用平台通过数据挖掘可以有效分析信令数据特性,提高信令数据存储和应用的效率,对于大规模信令监测具有一定的意义。  相似文献   

14.
MapReduce is a programming framework for distributed systems that is used to automatically parallelize and schedule the tasks to distributed resources. MapReduce is widely used in data centers to process enterprise databases and Big Data. This paper presents a novel MapReduce accelerator platform based on FPGAs that can be used to speedup the processing of the MapReduce data. The proposed platform consists of specialized hardware accelerators for the Map tasks and a shared configurable accelerator for the Reduce tasks. The hardware accelerators for the Map tasks are developed using a modified source-to-source High-level Synthesis (HLS) tool while the Reduce accelerator is based on a novel hashing scheme. The proposed scheme is implemented, mapped and evaluated to a Virtex 7 FGPA. The performance evaluation is based on a benchmark suite that represent typical MapReduce applications and it shows that the proposed scheme can achieve up to 2 orders of magnitude energy reduction compared to General Purpose Processors (GPPs).  相似文献   

15.
The ability of accurate and scalable mobile device recognition is critically important for mobile network operators and ISPs to understand their customers’ behaviours and enhance their user experience. In this paper, we propose a novel method for mobile device model recognition by using statistical infor-mation derived from large amounts of mobile network traffic data. Specifically, we create a Jaccard-based coefficient measure method to identify a proper keyword representing each mobile device model from massive unstruc-tured textual HTTP access logs. To handle the large amount of traffic data generated from large mobile networks, this method is designed as a set of parallel algorithms, and is imple-mented through the MapReduce framework which is a distributed parallel programming model with proven low-cost and high-efficiency features. Evaluations using real data sets show that our method can accurately recognise mobile client models while meeting the scalability and pro-ducer-independency requirements of large mobile network operators. Results show that a 91.5% accuracy rate is achieved for rec-ognising mobile client models from 2 billion records, which is dramatically higher than existing solutions.  相似文献   

16.
为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理,有效提高爬虫数据源发现的效率,避免网络及物理资源的浪费,验证了云计算技术在Deep Web数据挖掘方面的可行性。  相似文献   

17.
MapReduce并行编程模型研究综述   总被引:40,自引:0,他引:40       下载免费PDF全文
李建江  崔健  王聃  严林  黄义双 《电子学报》2011,39(11):2635-2642
 MapReduce并行编程模型通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度.本文对MapReduce的国内外相关研究现状进行了综述,阐述和分析了当前国内外与MapReduce相关的典型研究成果的特点和不足,重点对MapReduce涉及的关键技术(包括:模型改进、模型针对不同平台的实现、任务调度、负载均衡和容错)的研究现状进行了深入的分析.本文最后还对MapReduce未来的发展趋势进行了展望.  相似文献   

18.
MapReduce has become a popular model for large‐scale data processing in recent years. Many works on MapReduce scheduling (e.g., load balancing and deadline‐aware scheduling) have emphasized the importance of predicting workload received by individual reducers. However, because the input characteristics and user‐specified map function of a given job are unknown to the MapReduce framework before the job starts, accurately predicting workload of reducers can be a difficult challenge. To address this challenge, we present ROUTE, a run‐time robust reducer workload estimation technique for MapReduce. ROUTE progressively samples the partition size of the early completed mappers, allowing ROUTE to perform estimation at run time yet fulfilling the accuracy requirement specified by users. Moreover, by using robust estimation and bootstrapping resampling techniques, ROUTE can achieve high applicability to a wide variety of applications. Through experiments using both real and synthetic data on an 11‐node Hadoop cluster, we show ROUTE can achieve high accuracy with error rate no more than 10.92% and an improvement of 40.6% in terms of error rate while compared with the state‐of‐the‐art solution. Besides, through simulations using synthetic data, we show that ROUTE is robust to a variety of skewed distributions. Finally, we apply ROUTE to existing load balancing and deadline‐aware scheduling frameworks and show ROUTE significantly improves the performance of these frameworks. Copyright © 2016 John Wiley & Sons, Ltd.  相似文献   

19.
综合分析了数据流分类算法以及云计算的基本理论,提出了基于Hadoop框架的数据流系综分类算法,算法采用MapReduce并行编程模型对传统基于动态权重系综模型进行改进,以提升算法的分类效率.分析结果表明,该算法在处理快速海量到达的数据流时,其执行效率远高于传统系综算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号