首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于层次化调度策略和动态数据复制的网格调度方法   总被引:2,自引:0,他引:2  
针对在网格中如何有效地进行任务调度和数据复制, 以便减少任务执行时间等问题, 提出了任务调度算法(ISS)和优化动态数据复制算法(ODHRA), 并构建一个方案将两种算法进行了有效结合。该方案采用ISS算法综合考虑任务等待队列的数量、任务需求数据的位置和站点的计算容量, 采用网络结构分级调度的方式, 配以适当的权重系数计算综合任务成本, 搜索出最佳计算节点区域; 采用ODHRA算法分析数据传输时间、存储访问延迟、等待在存储队列中的副本请求和节点间的距离, 在众多的副本中选取出最佳副本位置, 再结合副本放置和副本管理, 从而降低了文件访问时间。仿真结果表明, 提出的方案在平均任务执行时间方面, 与其他算法相比表现出了更好的性能。  相似文献   

2.
数据副本管理是云计算系统管理的重要组成部分,在云计算系统的海量数据处理过程中,针对目前已知的数据存放与资源调度算法存在考虑副本动态性和可靠性的不足,提出了一种动态的副本放置机制。该机制基于区域结构,考虑数据处理时其副本的数量和放置位置,以及副本的产生对于内存和带宽等系统资源的开销:首先根据云存储中的副本信息,对被访问频率高且访问平均响应时间长的数据信息进行复制,并给出副本数量的计算方法;考虑缩小副本分布的节点选择范围,提出动态的副本放置算法——DRA,将一定范围内的节点根据提出的域的划分,进行放置筛选,以存放数据副本。实验结果表明,提出的动态放置机制不仅减少了低访问率副本对系统存储空间的浪费;同时也减少了高访问率副本所需跨节点的传输延迟,有效提高了云存储系统中的数据文件的访问效率、负载的均衡水平,以及云存储系统的可靠性和可用性。  相似文献   

3.
基于云存储的二阶段动态优化调度机制   总被引:1,自引:0,他引:1  
在分布式存储的研究中,如何高效地利用存储空间是个热点问题.存储集群中,每个数据节点存储容量不可能完全一致,由于主节点选择数据节点的随机性,被选中数据节点磁盘可能接近满额,此时主节点会自动做存储负载均衡,占用数据传输带宽,不仅影响数据传输的性能,而且会引起传输数据的不可靠.论文提出一种基于云存储的二阶段动态优化调度机制:第一阶段通过计算副本存储优选比率,采用基于贪心算法的局部优化存储方案,选择存储节点,均衡副本放置空间;第二阶段采用实时监控存储集群,动态调整副本放置节点,达到存储资源的高效利用.最后通过实验,验证了该调度机制可有效地放置副本,减少节点间的数据传输,并提高文件访问效率.  相似文献   

4.
异构环境下云计算数据副本动态管理研究   总被引:4,自引:0,他引:4  
针对现有HDFS(Hadoop Distributed File System)数据副本数目固定,副本放置时未考虑节点异构性问题,本文提出一种异构环境下云计算数据副本动态管理模型DMDR.在副本创建时,DMDR根据节点性能选择最优副本放置节点;在系统运行过程中,基于灰色预测技术,DMDR根据数据的最近访问特征预测数据访问热度,并动态调整副本数目.实验表明,在异构环境下,较之现有HDFS副本管理机制,DMDR可有效减少节点之间数据传输,提高负载均衡,降低作业执行时间.  相似文献   

5.
何翔  李仁发  唐卓 《计算机应用研究》2013,30(11):3370-3373
针对在异构环境下采用现有MapReduce任务调度机制可能出现各计算节点间数据迁移和系统资源分配难以管理的问题, 提出一种动态的任务调度机制来改善这些问题。该机制先根据节点的计算能力按比例放置数据, 然后通过资源预测方法估计异构环境下MapReduce任务的完成时间, 并根据完成时间计算任务所需的资源。实验结果表明, 该机制提高了异构环境下任务的数据本地性比例, 且能动态地调整资源分配, 以保证任务在规定时间内完成, 是一种有效可行的任务调度机制。  相似文献   

6.
为了在数据网格环境中不增加副本存储空间的条件下,能够很好地进行数据副本的淘汰,提出了一种改进副本淘汰算法.该算法利用权重函数兼顾访问时间和访问频率,在考虑副本传输代价的因素上引入动态调整因子μ,根据实际情况动态的调整副本传榆代价所占的比例.仿真实验结果表明,该算法在副本尺寸差异较大的情况下,可以大大减少副本淘汰误差,提高了网格结点的作业平均执行时间和网络有效利用率.  相似文献   

7.
《计算机工程》2017,(1):27-31
在数据密集型结构的数据中心平台中,数据的传输时间是影响整体任务完成时间的重要因素。优秀的虚拟机放置优化方法所需数据传输时间较少,可缩短整体任务完成时间。为此,构建虚拟机放置的优化模型,实现数据传输时间的最小化。证明该模型是一个NP-Complete问题,并设计启发式算法对其进行求解。实验结果表明,该方法能合理优化虚拟机放置位置,有效减少数据传输时间。  相似文献   

8.
云系统中面向海量多媒体数据的动态任务调度算法   总被引:1,自引:0,他引:1  
在云计算环境下,对处理海量多媒体数据的作业以及任务调度与资源分配算法进行建模,在此模型下提出一种云计算环境下面向海量多媒体数据的动态任务调度算法.算法以云系统中海量多媒体数据文件的分块多副本存储形式为基础来规划并行处理任务,以文件块和副本的映射关系为特征对云系统中数据节点执行聚类,以已执行完毕任务的历史反馈信息为基础来动态调度未执行任务.实验结果表明提出的算法对提高系统资源利用率和负载均衡有显著效果.  相似文献   

9.
张棋飞  桂超  宋莺  孙宝林  戴志锋 《软件学报》2021,32(8):2597-2612
机会网络利用节点移动带来的接触机会传输数据,数据在节点运动过程中捎带转发,保证了节点独立性,但会给数据传输带来影响.以节点的运动特性为切入点,设计了基于运动的机会网络路由算法.综合考虑数据传输、数据内容以及应用需求等因素,设计了数据转发优先级评价模型,结合节点活动区间划分方案制定数据传输规则;设计了差异化副本传输策略,在数据传输效率和系统开销之间取得折衷;考虑了节点活动范围、中心度及能量水平,构建了运动自由度函数评估节点运动水平.在此基础上设计了效用函数,选择中继节点转发数据.仿真结果表明,该算法能够在满足传输要求的同时限制网络开销,提高分组投递率,降低传输时延.  相似文献   

10.
为有效管理云计算环境中的数据副本,减少系统带宽消耗、最小化响应时间和平衡负载,提出了一种动态副本管理策略.通过建立文件可用性和副本数量间的关系模型来计算系统应维持的最小副本数量;基于数据被请求访问的次数和传输花费进行副本放置;数据被请求时结合节点间带宽和节点效用选择副本.实验结果表明了该策略的正确性有效性.  相似文献   

11.
A Taxonomy of Dirty Data   总被引:3,自引:0,他引:3  
Today large corporations are constructing enterprise data warehouses from disparate data sources in order to run enterprise-wide data analysis applications, including decision support systems, multidimensional online analytical applications, data mining, and customer relationship management systems. A major problem that is only beginning to be recognized is that the data in data sources are often dirty. Broadly, dirty data include missing data, wrong data, and non-standard representations of the same data. The results of analyzing a database/data warehouse of dirty data can be damaging and at best be unreliable. In this paper, a comprehensive classification of dirty data is developed for use as a framework for understanding how dirty data arise, manifest themselves, and may be cleansed to ensure proper construction of data warehouses and accurate data analysis. The impact of dirty data on data mining is also explored.  相似文献   

12.
数据治理技术   总被引:2,自引:0,他引:2       下载免费PDF全文
吴信东  董丙冰  堵新政  杨威 《软件学报》2019,30(9):2830-2856
随着信息技术的普及,人类产生的数据量正在以指数级的速度增长,如此海量的数据就要求利用新的方法来管理.数据治理是将一个机构(企业或政府部门)的数据作为战略资产来管理,需要从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化.目前,各行各业对大数据的研究比较火热,但对于大数据治理的研究还处于起步阶段,一个组织的正确决策离不开良好的数据治理.首先介绍数据治理和大数据治理的概念、发展以及应用的必要性;其次,对已有的数据治理技术——数据规范、数据清洗、数据交换和数据集成进行具体的分析,并介绍了数据治理成熟度和数据治理框架设计;在此基础上,提出了大数据HAO治理模型.该模型以支持人类智能(HI)、人工智能(AI)和组织智能(OI)的三者协同为目标,再以公安的数据治理为例介绍HAO治理的应用;最后是对数据治理的总结和展望.  相似文献   

13.
李建中  王宏志  高宏 《软件学报》2016,27(7):1605-1625
信息技术的迅速发展催生了大数据时代的到来.大数据已经成为信息社会的重要财富,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信息.然而,随着数据规模的增长,劣质数据也随之而来,导致大数据质量低劣,极大地降低了大数据的可用性,严重困扰着信息社会.近年来,数据可用性问题引起了学术界和工业界的共同关注,开展了深入研究,取得了一系列研究成果.本文介绍数据可用性的基本概念,讨论数据可用性的挑战与研究问题,综述数据可用性方面的研究成果,探索大数据可用性的未来研究方向.  相似文献   

14.
数据迁移的一般原则   总被引:4,自引:0,他引:4  
在应用软件及数据库开发中经常要做数据迁移工作 ,数据迁移就是将数据从一种数据环境移入另一种数据环境中。进行彻底而精确的数据转换应遵循以下关键步骤 :识别源数据、确定数据集成转换的规则以及开发转换规则代码。介绍了数据迁移的一般步骤 ,并提出了从数据转换、选择迁移方法以及从元数据管理的角度评价迁移工具的标准  相似文献   

15.
涂菲菲  周明辉 《软件学报》2019,30(5):1522-1531
问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据质量问题,通过文献调研和访谈,并基于自有经验对数据进行分析,总结出了9种数据质量问题,覆盖了数据产生、数据收集和数据使用这3个不同的阶段.进一步地,提出了相应的方法以帮助发现和解决数据问题.发现问题是指加强对数据上下文的理解和通过统计分析及数据可视化发现潜在的数据质量问题,解决问题是指利用冗余数据或者挖掘用户行为模式进行修正.  相似文献   

16.
伴随着人类进入大数据时代,大数据在彰显出巨大应用价值的同时,也凸显出数据可用的科技问题。如何解决数据可用带来的挑战,成为各国政府和学界高度关注的问题。目前,针对大数据的可用性研究刚刚起步,对大数据可用性进行了探讨,并就数据可用性的研究前景进行了展望。  相似文献   

17.
数据提取、转换和装载技术研究   总被引:4,自引:0,他引:4  
来自企业操作环境的数据是数据仓库的数据源,通过提取、转换、装载填充数据仓库,对数据提取、转换与装载技术进行了研究与实践。对数据提取、转换与装载要解决的问题进行了详细论述并提出了相应的解决方法,并以MS SQL Server2000为例,介绍了可用于析取数据的一些工具。在此基础上,以电信行业话单数据载入数据仓库为实例,就如何实现各步骤进行了详细说明,提出了在数据提取、转换与装载过程中需注意的一些问题。  相似文献   

18.
数据仓库系统中源数据的提取与集成   总被引:12,自引:0,他引:12  
人们对数据分析的要求的不断提高导致了数据仓库的发展,而在建设数据仓库的过程中非常关键的一步就是从事务数据库或其它的数据源中抽取和集成原始数据。本文在对数据集成方法和数据获取中可能碰到的问题进行全面分析的基础上,较为详细地介绍了我们自行开发的数据仓库系统SEUwarehouse中源数据提取与集成工具的设计与实现.  相似文献   

19.
数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不准确的数据,精确恢复其时间戳是困难的,但可以依据一定的规则对其时间先后顺序进行还原恢复,满足数据清洗及各类应用需求.在数据时效性应用需求分析的基础上,首先明确了属性的时效规则相关概念,对属性的时效规则等进行了形式化定义;然后提出了基于图模型的时效规则发现以及数据时序修复算法;随后,对相关算法进行了实现,并在真实数据集上对算法运行效率、修复正确率等进行了测试,分析了影响算法修复数据正确率的一些影响因素,对算法进行了较为全面的分析评价.实验结果表明,算法具有较高的执行效率和较好的时效修复效果.  相似文献   

20.
大数据的一个重要方面:数据可用性   总被引:9,自引:0,他引:9  
随着信息技术的发展,特别是物理信息系统、互联网、云计算和社交网络等技术的突飞猛进,大数据普遍存在,正在成为信息社会的重要财富,同时也带来了巨大的挑战.数据可用性问题就是大数据的重要挑战之一.随着数据的爆炸性增长,劣质数据也随之而来,数据可用性受到严重影响,对信息社会形成严重威胁,引起了学术界和工业界的共同关注.近年来,学术界和工业界开始研究数据可用性问题,取得了一些的研究成果,但是针对大数据可用性问题的研究工作还很少.介绍了大数据可用性的基本概念,讨论大数据可用性的挑战,探讨大数据可用性方面的研究问题,并综述数据可用性方面的研究成果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号