排序方式: 共有21条查询结果,搜索用时 15 毫秒
1.
对Hadoop平台下的MapReduce现有的调度器进行分析研究。针对LATE调度算法在分配节点执行落后任务的备份任务时的不足,结合Hadoop集群的异构性和工作负载的特殊性,在LATE调度算法的基础上提出了一种改进的LATE调度算法。对该算法进行实验和性能分析,表明该算法在完成时间和负载均衡方面有很大改进。 相似文献
2.
针对网络视频元数据信息缺失严重和多媒体数据本身特征难以提取等问题,提出了融合评论分析和隐语义模型的网络视频推荐算法.从视频评论入手,通过分析用户对不同视频的评论内容以判断其情感倾向并加以量化,继而构建用户对项目的虚拟评分矩阵,弥补了显式评分数据稀疏性问题.考虑到网络视频的多元性和高维度特性,为了深度挖掘用户对网络视频的潜在兴趣,针对虚拟评分矩阵采用隐语义模型(LFM)对网络视频分类,在传统的用户—项目二元推荐系统基础之上添加虚拟类目信息以进一步发掘用户—类目—项目关联关系.实验在多重标准下进行,对YouTube评论集的实验表明,所提推荐方法获得了较高的推荐精度. 相似文献
3.
针对云计算环境下服务器利用率低、能耗浪费严重的问题,提出一种基于用户访问特征的云存储副本动态管理节能策略。通过把用户访问特征的研究转化为计算Block的访问热度,根据节点的整体访问热度,DataNode主动申请休眠从而达到节能的目的。给出了详细的休眠申请、休眠判断算法,以及在DataNode休眠期间出现对已休眠Block进行访问的情况时如何处理的解决方案。实验结果表明,采用该策略后可休眠29%~42%的DataNode,减少能耗31%,且服务器的用户响应时间不受影响。经过性能分析,得出该策略在保证数据可用性的同时可有效地降低能耗。 相似文献
4.
针对内存计算框架Spark在作业Shuffle阶段一次分区产生的数据倾斜问题,提出一种内存计算框架的迭代填充分区映射算法(IFPM)。首先,分析Spark作业的执行机制,建立作业效率模型和分区映射模型,给出作业执行时间和分配倾斜度的定义,证明这些定义与作业执行效率的因果逻辑关系;然后,根据模型和定义求解,设计扩展式数据分区算法(EPA)和迭代式分区映射算法(IMA),在Map端建立一对多分区函数,并通过分区函数将部分数据填入扩展区内,在数据分布局部感知后再执行扩展区迭代式的多轮数据分配,根据Reduce端已分配数据量建立适应性的扩展区映射规则,对原生区的数据倾斜进行逐步修正,以此保障数据分配的均衡性。实验结果表明,在不同源数据分布条件下,算法均提高了作业Shuffle过程分区映射合理性,缩减了宽依赖Stage的同步时间,提高了作业执行效率。 相似文献
5.
大数据流式计算平台Apache Storm默认采用轮询的方式进行任务调度,未考虑到拓扑中各任务计算开销的差异以及任务之间不同类型的通信模式,在负载均衡和通信开销方面存在较大的优化空间。针对这一问题,提出一种Storm环境下基于权重的任务调度算法(TSAW-Storm)。该算法首先根据各任务的CPU资源占用情况以及任务间的数据流大小,分别确定拓扑的点权和边权;并利用最大化边权增益的思想,逐步构建起各工作节点中承载的任务集合,在保证集群负载均衡的同时,尽可能将边权较大的节点间数据流转化为节点内数据流,从而降低网络传输开销。实验结果表明,在包含有8个工作节点的WordCount基准测试中,TSAW-Storm的系统延迟和节点间数据流大小相比Storm默认调度算法分别降低了30.0%和32.9%,且各工作节点的CPU负载标准差仅为Storm默认调度算法的25.8%;此外,在与在线调度算法的对比实验中,TSAW-Storm在系统延迟、节点间数据流大小和CPU负载标准差方面分别降低了7.76%、11.8%和5.93%,且算法的执行开销明显降低,有效提高了Storm系统的运行效率。 相似文献
6.
针对已有的延迟调度算法存在的两个问题,即建立在节点会很快空闲的理论假设下有一定限制,当节点不会很快空闲时算法性能严重下降和基于静态的等待时间阈值不能适应云计算数据中心动态的负载变化及不同用户作业的需求,提出了一种基于动态等待时间阈值的延迟调度算法(dynamic waiting time delay scheduling,DWTDS)。该算法通过给无本地数据节点设置节点最大等待时间,以适应节点不会很快空闲的情况;通过分析数据中心各动态参数,根据概率模型调整作业的等待时间阈值。实验验证该算法在响应时间及负载均衡性方面优于已有的延迟调度算法。 相似文献
7.
云存储规模的不断扩大以及设计时对能耗因素的忽略使其日益暴露出高能耗低效率的问题,并且此问题已经成为制约云计算与大数据快速发展的一个主要瓶颈.从云存储系统的元数据信息的组成与组织方式考虑系统的节能改进与适应性问题,提出适应节能的元数据建模与管理方法,将存储磁盘及节点状态、数据块存储位置与状态等信息纳入到新的元数据模型中.围绕节能的元数据模型设计了适应该模型的节能模式切换算法,有效的解决了现有算法与节能算法或策略的不匹配问题.实验结果表明:适应节能的元数据模型与算法能够提高系统磁盘级的能耗利用率. 相似文献
8.
由于内存云RAMCloud采用日志段的方式存储数据,因此当大量小文件存储于RAMCloud集群时,每个小文件独占整个段,会产生较多的段内碎片,从而导致内存的有效利用率较低以及大量的内存空间浪费。为了解决这个问题,提出基于文件分类的RAMCloud小文件存储优化策略。该策略首先根据文件的相关特性将小文件分为结构相关文件、逻辑相关文件以及相互独立文件三类;然后在存储时对结构相关的文件使用文件合并算法,逻辑相关和相互独立的小文件则使用分组算法。实验结果表明:同未进行优化的RAMCloud存储策略相比,该策略能有效提高集群内存利用率。 相似文献
9.
内存云(RAMCloud)的出现改善了在线数据密集型(OLDI)应用的用户体验,但其能耗高于传统的云数据中心。针对该问题,提出一种适用于该架构的磁盘节能策略。首先,引入遗传算法中适应度函数和轮盘赌法,尽量选择更为节能的磁盘进行数据持久化备份;其次,设定合理的服务器内存缓冲区来延长磁盘的平均连续空闲时间,使得部分服务器磁盘在空闲时进入待机状态。仿真实验结果表明,在50台服务器的内存云系统中,该策略能有效节能约12.69%;而缓冲区大小的设定对于节能效果和数据可用性具有双重影响,需权衡考虑。 相似文献
10.
云计算环境下传统独立任务调度算法容易导致较高资源能耗或较大任务时间跨度.针对该问题,文中提出了两种能量感知的任务调度算法,并利用遗传算法并行化搜索合理调度方案.两种算法在搜索过程中,分别通过能耗时间归一和能耗时间双适应度方法定义适应度函数并进行个体选择.仿真结果表明,与单独考虑时间或能耗相比,这两种算法能够更有效地缩短任务执行时间跨度,降低资源能耗. 相似文献