共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
3.
在分析Hadoop框架与TF-IDF算法的基础上,给出了TF-IDF算法在Hadoop分布式框架下的具体实现。实验表明,在处理大数据量时,与传统方法相比,新方法的效率更高。 相似文献
4.
构建基于Hadoop的实验室数据管理系统,实现了云计算带来的补偿与分析支持服务,解决了多种数据类型查询不便的问题,也对云计算在教育科研领域的应用进行了尝试性的探索,为将来大规模应用云服务奠定了可靠的基础。 相似文献
5.
6.
基于Hadoop的云端异常流量检测与分析平台 总被引:6,自引:0,他引:6
Hadoop系统作为一种开源的分布式云计算平台已获得广泛应用,但其云端易受到各种威胁和攻击,基于此,开发了一种基于Hadoop的云端异常流量检查与分析平台。首先,使用Mapper周期性地从所有存储流量信息的文件中提取流量的部分信息;然后,通过Reducer将异常流量提取并保存。通过对流量数据的存储、检测与分析可成功地检测出有威胁的攻击,从而保障云端的安全。由于本平台基于开源的Hadoop实现,因此成本较低;同时,基于Java语言实现,可成功移植于各种主流操作系统,具有广泛适用性。基于局域网进行监控试验,结果表明本平台可成功地检测出异常流量,并输出友好的用户界面。 相似文献
7.
基于Hadoop的云计算基础架构分析 总被引:1,自引:0,他引:1
Hadoop是一个可实现大规模分布式计算的开源软件平台,已经被广泛应用在云计算领域。从Hadoop分布式文件系统架构的整体入手,描述了其分布式数据存储、分布式任务分配、分布式并行计算和分布式数据库4个方面的核心内容,并论述了HDFS的工作原理、文件操作流程及Map/Reduce工作原理和计算过程。使开发人员深入地理解Hadoop架构的工作原理与实现过程,为云计算背景下的应用程序开发提供重要的参考。 相似文献
8.
9.
针对当前用户难以快速准确地获取到自己需要的网络信息,设计了基于Hadoop云计算平台的资源搜索系统,并对该搜索系统进行了实验验证,结果表明,随着数据量的不断增大,Hadoop版本系统节约的时间越多,优势越明显。 相似文献
10.
针对当前用户难以快速准确地获取到自己需要的网络信息,设计了基于Hadoop云计算平台的资源搜索系统,并对该搜索系统进行了实验验证,结果表明,随着数据量的不断增大,Hadoop版本系统节约的时间越多,优势越明显。 相似文献
11.
当前Internet上存在着海量的日志数据,他们中蕴藏着大量可用的信息。对海量数据的存储和分析都是一个艰巨而复杂的任务,单一主机已经无法满足要求,使用分布式存储和分布式计算来分析数据已经成为了必然的趋势。分布式计算框架Hadoop已经日趋成熟,被广泛的应用于很多领域。该文描述了一个针对大日志分析的分布式集群的构建与实现过程。介绍了日志分析的现状,使用vmware虚拟机搭建了Hadoop集群和日志分析系统的构建方法,并对实验结果进行了分析。 相似文献
12.
现代智能医疗需要操作简单、反应快速和能够智能诊断的信息化平台。针对该特点,运用物联网、云计算等多种技术开发了智能医疗分析系统。系统使用B/S架构开发,可为用户提供方便简洁的交互平台。同时,系统还可利用云计算来高效处理海量数据,并使用基于Hadoop的分布式存储计算系统来分析处理数据,从而做到智能诊断。 相似文献
13.
14.
对某高校教学资源平台的海量日志进行了分析,将传统单机分析处理模式,转变为Hadoop框架下的MapReduce分布式处理模式。MapReduce采用分而治之的思想,很好地解决了单机对海量数据处理产生的瓶颈问题。通过分析Hadoop源码的使用,认真研究MapReduce对海量数据处理作业流程分析,提出了MapReduce分布式作业计算的优化策略,从而更好地提高了海量数据的处理效率。 相似文献
15.
基于Hadoop的云计算模型 总被引:4,自引:0,他引:4
Hadoop是一个更容易开发和并行处理大规模数据的分布式计算平台,也是目前最为广泛应用的开源云计算软件平台。在对Hadoop平台上的分布式文件系统HDFS和计算模型Map/Reduce进行深入分析和研究的基础上,给出基于Hadoop的云计算模型和实现步骤。 相似文献
16.
搜索引擎用户行为分析是网络信息检索技术的研究热点.通过分析用户点击行为,利用Web数据挖掘技术获取有用信息,提高搜索引擎的检索算法和检索服务的效率,把用户从大量无序的搜索结果中解放出来.本文针对传统并行计算模型在易扩展和易编程方面遇到的瓶颈,给出一种基于Ha-doop的海量日志数据处理模型,通过基于Hadoop的分布式... 相似文献
17.
基于Hadoop云计算模型探究 总被引:1,自引:0,他引:1
云计算是并行计算、分布式计算和网格计算的发展。文中详细地阐述了MapReduce的编程思想、工作原理、步骤和方法。探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的工作方式和应用方法。 相似文献
18.
基于Hadoop的微博舆情监控系统 总被引:1,自引:1,他引:0
随着在线社会网络如社交网站、微博、在线社区等的快速发展, 一个真正的双向传播和新媒体时代逐步形成. 在线社会网络让每个用户都能创造自己的内容, 并且快速传播出去. 据不完全统计, 新浪微博平均每秒有超过1000条的新微博产生, 日增量数据为5TB, 因此海量数据给舆情监控带来了严峻的挑战. 将介绍一种基于Hadoop的微博舆情监控系统, 能够对大规模采集数据进行挖掘、分析, 实现对舆情热点话题的发现及追踪、对微博的社会网络分析, 分析结果可视化呈现, 为党政机关、大型企业等单位和组织及时发现敏感信息、掌握 相似文献
19.