首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
本文从Hadoop和HDFS文件系统角度出发,对分布式搜索引擎技术进行了探讨,并以建立索引表和处理分词为基础,对基于Hadoop的分布式搜索引擎展开了研究.  相似文献   

2.
网络爬虫是互联网运行服务的重要组成部分,并为整个互联网、企业内部网和大型门户网站提供搜索和索引.为解决现有爬虫方法在效率方面的问题,本文介绍了Nutch分布式爬虫工作流程及机制,通过分析Hadoop下的Nutch网络爬虫,在Nutch分布式爬虫的参数方面、Hadoop的I/O模型和Nutch分布式爬虫小文件问题三个方面做了相关优化.实验结果表明,优化后的网络爬虫能更有效的爬取网络资源,能在较大程度上提升网络爬虫效率.  相似文献   

3.
随着网络技术的发展,用户的数据量呈现指数级的增长,产生的海量数据单靠一台高性能的计算机存储,成本很高,不适合大部分的用户。基于Hadoop分布式集群平台,在构建低价的硬件上,成本低,应用场合广泛,能够满足海量数据存储的需求。介绍了Hadoop发展前景趋势和三大核心技术,详细分析了分布式集群的构建方法,成功构建分布式集群平台。  相似文献   

4.
随着企业规模发展,企业的预算管理成为促进企业健康成长的重要基础.现代企业的预算管理涉及各个业务的复杂数据处理,需要能够跟踪预算的执行过程,通过对预算执行数据的监控,实现一定程度的预测,因此对预算管理平台具有较高的要求.传统的预算管理平台功能较为单一,数据处理功能较弱,无法应对日益复杂的企业业务发展.随着大数据技术的发展...  相似文献   

5.
《信息技术》2015,(7):109-112
随着大数据时代的来临,传统的单机式或多线程式的主题爬虫已经很难满足海量数据的爬取任务。为此,首先采用向量空间模型来提高下载网页的主题相关度,然后引入MapReduce分布式计算模型以达到高效率的分布式海量爬取,同时利用基于HDFS的HBase分布式数据库达到高效率的分布式海量存储,最后通过实验结果数据验证设计的主题爬虫模型的高效性、扩展性、可靠性和稳定性。  相似文献   

6.
本文对Hadoop的架构设计进行了深入的研究,分别分析了它的两个核心功能组件HDFS和Map Reduce的系统架构、实现原理和特点。  相似文献   

7.
李颜  仇洪冰  李燕龙 《电视技术》2015,39(22):95-99
针对传统单机视频检索效率低下的问题,设计了一种基于Hadoop的分布式视频车辆检索方法。该方法首先将视频切割成多个分块,然后利用MapReduce和FFMPEG在分布式环境下提取视频帧,再通过车牌识别算法检索其中出现的车牌号码,最后计算出车辆在视频中出现的时间。实验结果表明,与单机检索方式相比,该方式具有更强的数据处理能力和更高的检索效率。  相似文献   

8.
9.
随着互联网上信息量飞速增长,海量数据的索引出现了难题,现行的索引方案已经难以提供高效、可靠的服务,为此,设计并实现了一种针对海量数据进行索引的平台模型。该平台模型首先利用Solr分布式索引器生成索引文件,然后利用Hadoop分布式集群,以HDFS分布式文件系统、Map Reduce分布式并行计算模型、Zookeeper同步协同系统以及Hbase分布式数据库技术来处理、协调管理索引和存储海量数据,最后通过实验测试,该平台模型可以克服现行的海量数据索引时存在的效率低的问题,同时具有良好的扩展性和可靠性。  相似文献   

10.
针对传统数据抽取、转换及加载(ETL)工具集中式执行的不足,设计实现了一种基于Hadoop平台的分布式ETL系统。该系统采用分布式文件系统存储和映射-规约并行处理海量数据架构,实现了ETL作业的分布式执行,提高了ETL效率,为大数据环境下的基础数据加工提供了解决方案。  相似文献   

11.
《现代电子技术》2018,(9):62-67
传统基于内容的图像检索方法通过相似度测量算法获取检索结果,对海量图像存在检索效率低和精度差的弊端,因此设计基于Hadoop分布式的海量图像检索方法,其基于Hadoop云平台对海量数码图像实施分布式运算,采集图像SURF特征,采用K-Means聚类方法将相似图像SURF特征聚集起来,通过TF-IDF数据挖掘技术对图像特征实施量化,进而基于Hadoop平台中的Lucene框架塑造海量图像数据的索引模块和搜索模块,依据用户输入的图像SURF特征塑造海量图像数据索引,完成相似图像的准确检索。实验结果说明,所提图像检索方法检索出的图像质量佳,对海量图像进行检索的效率和精度高。  相似文献   

12.
孙敏 《信息通信》2015,(1):238-239
基于Hadoop的分布式系统架构能有效提升详单查询的吞吐量和可靠性,较传统的小型机+磁盘阵列方式,能显著地降低成本,保护投资。  相似文献   

13.
互联网的发展使得计算密集型的任务正在逐渐走向分布式和云计算。文中对Hadoop项目中的MapReduce和HDFS进行了研究,采用HDFS作为底层分布式文件系统,MapReduce作为编程框架来实现哈希算法。通过对多个节点中的测试结果的分析表明,在Hadoop上运行哈希函数的任务,能够起到在多台计算机的群集中分摊负载的效果,并且有效地减少了任务的总时间开销。以Hadoop为基础的云计算平台具有良好的可靠性和可扩展性,对于哈希算法在Hadoop平台上的实现和测试,为将来密钥恢复等系统的研究和搭建提供了良好的基础。  相似文献   

14.
为客户提供便利准确的详单查询服务,对于维系客户忠诚度具有重要意义.为解决传统的详单查询系统高并发查询性能低、查询响应速度慢、扩容周期长等问题,基于Hadoop分布式架构的思路,设计和实现了广西移动云详单查询系统.该系统由话单预处理子系统、详单存储子系统及详单查询服务子系统三个子系统组成.引入分布式数据库替换传统小型机数据库架构,基于X86设备实现详单处理的分布式架构,提高详单查询效率;采用分布式数据储存技术,提高系统高可用行和稳定性.  相似文献   

15.
随着现代化经济的发展,城市的道路交通流量也在迅速的增长,相应的车辆的道路交通违规事件也在增加,这给我国的道路交通管理系统增加了很大的压力,海量的数据存储如果不能得到及时有效的处理,就无法实时的监控道路交通状况,一旦数据存储无法满足,交通管理部门的道路交通管理就会出现严重的失误.所以目前对于交通管理部门来说,需要一个更加先进的系统来进行对海量数据的存储和处理.本篇文章就是基于一个这样的平台——云平台,基于Hadoop技术来进行对城市道路交通流量数据的分布式存储和挖掘分析的研究,旨在可以实现高效的存储和处理道路交通流量的数据,方便进行交通管理.  相似文献   

16.
文章研究并提供了一种基于zookeeper分布式搜索引擎系统的配置文件自动更新方法.通过自动检测master节点内是否形成了新的配置文件,并在检测到形成了新的配置文件后主动上传到zookeeper,并下发到各slave节点加载到内存中用于搜索任务的处理.无需管理人员在发现master节点形成了新的配置文件之后,重启master节点才将新的配置文件上传,显然降低了master节点与slave节点间配置文件同步的繁琐性,提高了设备的智能性,降低了同步成本.  相似文献   

17.
钟唐强 《电子测试》2022,(19):93-95+71
流量异常主要是指网络中的流量发生着不规则的明显变化。尤其是由于网络的脆弱性、保密协议的缺陷和隐藏的网络漏洞,给金融、教育和军事等领域造成了不同程度的损失。且在具体的解决过程中,有关分布式的异常检测研究催生了新的思路和新的解决方法。针对网络中的流量异常现象,本文基于Hadoop技术设计实现流量异常分布式检测系统架构。作为解决流量异常的方法,本文在设计中提出了一些新的思路,以期为解决互联网安全问题提供指导,并对未来研究方向提出展望。  相似文献   

18.
针对目前气象数据存储所面临的海量扩张、高并发读写、结构化和非结构化数据并存以及长时间序列和大数据集检索效率低下等问题,提出了以Hadoop开源框架为基础的气象数据分布式存储方案.通过对气象数据自身属性和特点进行分析,得出了气象数据在经过充分优化的基础上,在分布式存储框架中具有很强的适应性和规模化应用的潜力;并在HBas...  相似文献   

19.
Docker是Paas提供商dotcloud公司研发的一个基于LXC的高级容器引擎,具有一次构建,到处运行优势。当前在Hadoop技术的发展中,如何把Docker技术应用于Hadoop平台的建立,尤其是对于Hadoop on Docker规模部署问题的解决,一直是一个备受关注的技术难点。针对以上问题,文章提出基于Docker的一键部署Hadoop7层解决方案,首先从Docker环境部署入手,简要介绍了镜像部署以及容器部署的过程,重点分析并实现了Hadoop集群(HDFS+YARN)的一键部署方法,并通过bind mounts(绑定挂载)方式解决了集群数据存储问题,给出关键脚本代码的实现过程。实践表明,Hadoop on Docker规模一键快速部署具有灵活方便、开销小、效率高、可扩展性强等优势,提高了Hadoop大数据技术学习和生产环境部署效率。  相似文献   

20.
《信息技术》2016,(7):39-42
光伏发电系统的发电效率和光伏组件的材料、组件安装的倾斜角度及组件功率等因素有密切关系,为了科学地研究这些因素对发电量的实际影响,文中选择使用Hadoop大数据分析工具,它由HDFS分布式文件系统和MapReduce数据处理框架两大核心部件组成,通过它提供的强大的分布式数据处理能力,高效快捷地分析光伏发电系统运行中所产生的各种数据。实验表明该系统能够有效地完成光伏数据处理分析,从海量数据中挖掘到有用信息,对光伏发电发展提供重要助力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号