期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张展左德承黄友富何辉《计算机科学》2014,41(5):46-49

针对典型的云平台下虚拟化系统的特点,提出了一种结合选择性日志的准同步检查点算法VM_QSC:保持不同虚拟机节点固有的优化检查点周期,通过物理节点Hypervisor选择性地进行虚拟机的消息日志的稳定存储,在全局监控节点维护虚拟机一致线信息,保持全局的一致性。与传统的准同步检查点和同步检查点相比,该算法维持了虚拟机检查点设置的自主性,并显著降低了虚拟化系统的容错开销,可以有效应用于云计算环境下的虚拟资源管理和动态迁移。相似文献

2.

分布式共享主存结构动态检查点技术的应用研究

张定群 YU Qiao-nan 《计算机与现代化》2008,(8):21-24

介绍在传统检查点技术的基础上提出一种面向分布式共享主存结构计算机节点瞬时故障的动态检查点技术。通过对节点及其运行进程的实时监控数据的分析，给出检查点的引入、保存、恢复和取消的容错技术策略。同时分析该技术在一定的故障模型下，对不同应用程序的有效程度及其应用开销。目的是希望使检查点序列在覆盖故障点的同时，尽可能降低保存检查点的次数，提高系统运行效率。相似文献

3.

基于萤火虫优化的副本放置方法

李君侯孟书《计算机应用研究》2019,36(2)

在云计算环境下分布式存储系统中,通常采用副本技术保证存储系统的可用性和可靠性,放置策略是副本技术的一个关键问题。针对现有副本放置策略中存在的副本访问开销大的问题,提出一种基于离散型萤火虫优化的副本放置算法。考虑副本放置对用户访问性能的影响,对其建立数学模型,计算萤火虫位置的适应度函数,并朝着荧光素值最大即最优值移动,进而得到合适的副本放置节点。通过仿真实验评估提出的方法,并与基于蚁群算法的副本放置策略进行比较。实验结果证明该算法能够选择合适的副本放置节点,具有较好的收敛性,并有效地降低存储系统的副本访问开销。相似文献

4.

一个适合大规模集群并行计算的检查点系统 总被引：5，自引：1，他引：4

周恩强卢宇彤沈志宇《计算机研究与发展》2005,42(6):987-992

分布式检查点系统是大规模并行计算系统容错的重要手段．协议开销和检查点映像存储成为困扰并行检查点系统可伸缩性的两大瓶颈．针对并行应用程序的执行特征和高性能集群的体系结构特点,C系统分别采用动态虚连接技术和分布存储检查点映像的方法来有效降低协同式检查点的开销,增强检查点系统的可伸缩性．初步测试结果表明,C系统的设计策略适合大规模并行计算的容错．相似文献

5.

面向计算流体力学应用开发框架的容错周期优化方法

张拥军徐新海《计算机应用》2014,34(2):382-386

针对计算流体力学应用开发框架容错支持能力的不足,提出了一种新的容错周期优化方法。该方法基于系统故障的概率建模,计算得到理想最优容错周期;并结合计算流体力学应用场数据输出的特点,在线确定实际检查点备份时机。三个典型应用的实验结果表明,在不同平均无故障时间的系统上,与固定时间步进行容错的方法相比,该方法总能够得到最优的容错开销。用户可以基于该方法通过框架接口便捷地设置容错周期,并有效降低容错所引起的开销。相似文献

6.

面向计算流体力学应用开发框架的容错周期优化方法

《计算机应用》2014,(2)

针对计算流体力学应用开发框架容错支持能力的不足,提出了一种新的容错周期优化方法。该方法基于系统故障的概率建模,计算得到理想最优容错周期;并结合计算流体力学应用场数据输出的特点,在线确定实际检查点备份时机。三个典型应用的实验结果表明,在不同平均无故障时间的系统上,与固定时间步进行容错的方法相比,该方法总能够得到最优的容错开销。用户可以基于该方法通过框架接口便捷地设置容错周期,并有效降低容错所引起的开销。相似文献

7.

云存储系统中基于动态规划的最小开销数据副本布局研究

《计算机工程》2017,(7):29-37

传统的副本布局策略较少考虑数据传输开销,且对网络结构有所限定,导致通用性不足。为此,基于动态规划方法,以最小化数据管理开销为目标,提出一种云存储系统中最小开销数据副本布局策略。在数据管理综合开销模型的基础上,比较数据中心放置与不放置副本2种情况下的开销,从而确定副本位置。实验结果表明,该策略能够实现副本的合理分布,在有效降低数据管理开销的同时,可减少平均响应时间与网络传输量,提升云存储系统性能。相似文献

8.

一种支持容错的任务并行程序设计模型

王一拙陈旭计卫星苏岩王小军石峰《软件学报》2016,27(7):1789-1804

任务并行程序设计模型已成为并行程序设计的主流,其通过发掘任务并行性来提高并行计算机的系统性能.提出一种支持容错的任务并行程序设计模型,将容错技术融入到任务并行程序设计模型中,在保证性能的同时提高系统可靠性.该模型以任务为调度、执行、错误检测与恢复的基本单位,在应用级实现容错支持.采用一种Buffer-Commit计算模型支持瞬时错误的检测与恢复;采用应用级无盘检查点实现节点故障类型永久错误的恢复;采用一种支持容错的工作窃取任务调度策略获得动态负载均衡.实验结果表明,该模型以较低的性能开销提供了对硬件错误的容错支持. 相似文献

9.

Parallel C语言级容错机制的设计与实现

下载免费PDF全文

何王全方燕飞魏迪董恩铭漆锋滨《计算机工程与应用》2018,54(17):41-49

大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针对传统基于检查点的系统级容错开销过大的问题,在Parallel C语言中设计并实现了故障局部感知的轻量级降级、编译指导与自动分析的检查点等语言支持的容错机制,兼顾了好用性和高效性。局部故障感知的轻量级降级结合动态任务调度框架实现,支持众核系统,可扩展到百万以上并行规模;编译指导与自动分析的检查点通过程序员插入简单的编译指示,由编译器进行分析,提示不需要保留的数据,可有效降低保留恢复的数据量。神威太湖之光超级计算机上的测试数据表明,两种容错措施相对于传统容错方法效果良好,轻量级降级的容错开销小于1%,相对于传统回卷容错方法单次故障执行时间可减少3.5%以上,编译指导与自动分析的检查点在典型应用中最多可将保留量降低至1/10,具有很好的实用性。相似文献

10.

基于PVM的准同步检查点设置方法

张宇张玉芳《计算机工程与设计》2006,27(3):494-496

检查点是并行系统中实现容错的重要手段,同步检查点方法已广泛应用在工作站机群系统中。PVM所提供的消息传递机制支持高效的异构网络计算,但不支持客错功能。为了降低同步检查点设置的时间开销,提出了一种基于PVM的准同步检查点设置方法,它吸取了同步检查点方法的优点,又通过消息记录方式实现各节点间独立进行状态保存,大大降低了检查点的同步开销,提高了检查点操作效率,该方法在PVM环境下得以实现,实验结果表明所提出的方法具有较好的客错性能。相似文献

11.

面向节能和容错的异构WSNs数据收集算法

杨明霞王万良马晨明《传感技术学报》2016,29(6):934-940

采用连通支配集作为虚拟骨干可以延长无线传感器网络的生命时间,但是考虑节点容易失效的特性,网络还需要具有一定的容错性。针对k-连通m-支配集的容错方法能耗过大的问题,提出了一种面向节能和容错的分布式数据收集算法。算法首先构建连通支配集,然后选择容错度大的节点作为备份节点,最后在数据收集过程对支配节点的能耗进行均衡。理论分析和仿真实验证实算法不仅以较小的时间和消息开销构建规模较优的连通支配集,而且还保证了容错性并最终延长了网络的生命时间。相似文献

12.

检查点系统中进程地址空间的优化存储策略

李艳红孟丹周应超武林平《计算机工程与应用》2005,41(29):94-96,113

机群系统的规模增大,部件增多,导致了机群的组合错误率也不断上升。节点失效使运行于机群节点上的作业面临中途失败,从而造成巨大的资源浪费,甚至导致大量的作业无法完成。检查点系统为节点提供了较好的容错性能,因此成为机群操作系统软件的重要组成部分。进程的地址空间是检查点系统需要记录的一部分重要内容,对它的存储效率直接影响检查点操作的性能。论文提出了两种检查点系统中进程地址空间的优化存储策略。其中组合式检查点文件写策略解决了并发写机制在应用内存接近物理内存时的性能突降问题,A-O(Access-Order)进程地址空间存储策略调整传统地址空间的存储顺序,使大内存应用的检查点操作性能得到了大幅度提升。在实验中,A-O进程地址空间存储策略最高可以将传统的存储策略的时间开销缩减至原来的50%。相似文献

13.

一种基于隐马尔可夫模型的虚拟机失效恢复方法

张建华张文博徐继伟魏峻钟华黄涛《软件学报》2014,25(11):2702-2714

随着虚拟化技术的发展与普及,越来越多的企业将关键业务系统部署到了虚拟化平台上。虚拟化技术降低了企业的硬件和管理成本,但同时也给系统的可靠性带来了严峻挑战。传统的方法通过运行时系统状态备份的方法来提高系统的失效恢复能力,但该方法会引入了巨大的系统开销。提出了一种基于隐马尔可夫模型的系统失效恢复性能优化方法。通过对系统运行时状态的预测分析,计算系统未来运行状态的概率趋势,并在运行过程中动态调整系统失效恢复功能与正常业务功能之间的资源分配,从而降低了系统的运行时性能开销,提高了业务系统服务能力。实验分析显示,该方法可以在保障系统可靠性的同时有效地降低系统的性能开销,在系统运行状态稳定的情况下,最高可以降低2/3的系统响应时间。相似文献

14.

A fault tolerant optimal relay node selection algorithm for Wireless Sensor Networks using modified PSO

《Pervasive and Mobile Computing》2022

Wireless Sensor Networks (WSNs) have energy-constraints that restricts to achieve prolonged network lifetime. To optimize energy consumption of sensor nodes, clustering is one of the efficient techniques for minimization of energy conservation in WSNs. This technique sends the collected data towards the SINK based on cluster head (CH) nodes that leads to the saving of energy. WSNs have been faced a crucial issue of fault tolerance and the overall data communication is collapsed due to the failure of cluster head. Various fault-tolerance clustering methods are available for WSNs, but they are not selected the backup nodes properly. The backup nodes’ closeness or location to the other remaining nodes is not considered in these methods. They may increase network overhead with the backup nodes accessibility. A fault-tolerance cluster-based routing method is presented in this paper that aims on providing fault tolerance for relay selection in addition to the data aggregation method for clustered WSNs. The proposed method utilizes backup mechanism & the Particle Swarm Optimization (PSO) to achieve this. Based on the distance from sink, residual energy, and link delay parameters, the CHs are chosen and the network is categorized into the clusters. The Backup CHs are selected by estimating the centrality among the nodes. As a part of intra-cluster communication for reducing the aggregation overhead among CHs, the Aggregator (AG) nodes are deployed in every cluster. So that they act as the bridge between the member nodes and CHs. These AG nodes aggregates the information from member nodes and deliver it to the CHs. The PSO with modified fitness function is used to identify the best relays between AG and member nodes. The proposed mechanism is compared with existing techniques such as EM-LEACH AI-Sodairi and Ouni (2018), QEBSR Rathee et al. (2019), QOS-IHC Singh and Singh (2019), and ML-SEEP Robinson et al. (2019). The simulation results proved that the proposed mechanism reduces overhead by 55% and improve the energy consumption & throughput by 40% & 60% respectively. 相似文献

15.

A data-check based distributed storage model for storing hot temporary data

《Future Generation Computer Systems》2017

For the purpose of ensuring data security, traditional systems have widely used redundancy backup to store multiple copies of data. Multiple copies technology has high reliability, but also has the disadvantage of high redundancy storage and low space utilization. On the contrary, EC (Erasure Coding) technology has a high utilization rate of storage space, but the overhead of coding, decoding and data reconstruction is great. So, this paper demonstrates a data backup method based on XOR checksum being suitable for storing hot temporary data, which first splits the data into two parts and then performs the XOR operation of the two parts to generate another part of the data. Finally, the XOR checksum stores the three data parts into different nodes. The checksum not only ensures the security of data but also saves the storage space, thus improving the performance of reading and writing. This strategy achieves a mutual backup between the three nodes in order to ensure data security. Because there is only one copy of original data in the system, this model resolves the data inconsistency problem reasonably and simplifies the data version control existing in the redundancy backup model. Actual data test results show that, compared with the current mainstream Cassandra redundant backup model, the performance of a data backup model based on the XOR checksum proposed and implemented in this paper has been significantly improved: the reading performance improves by an average of 10%, and the writing performance improves by an average of 30%. 相似文献

16.

虚拟化环境下基于职能分离的Rootkit检测系统架构研究

朱智强赵志远孙磊杨杰《计算机科学》2016,43(Z6):348-352

针对现有虚拟化环境下Rootkit检测技术易被绕过、性能开销大的问题,提出了虚拟化环境下基于职能分离的检测系统架构XenMatrix,其在保证检测系统透明性的同时提高了自身的安全性;设计了检测频率的自适应调整策略,实现了Rootkit检测频率的动态调整,有效降低了系统的性能开销。最后对实验结果的分析表明,相比现有检测技术,该原型系统能够有效检测Rookit,具有较高的检测率和较低的性能开销。相似文献

17.

一种时延约束下可靠性保证的服务功能链部署方法

孙士清彭建华游伟李英乐《计算机应用研究》2020,37(8):2477-2481

针对网络功能虚拟化环境中底层网络物理节点随机失效导致网络服务中断问题,提出了一种兼顾网络服务可靠性和时延约束的服务功能链部署方法以保证网络服务的可靠性。首先提出一种相邻虚拟网络功能备份实例资源共享的备份机制和单路径与多路径混合的路由策略,然后对时延约束下服务功能链可靠性部署问题建立混合整数线性规划模型,并设计了基于K最短路径扩展的服务功能链部署算法。仿真结果表明,与现有方法相比,该方法降低了节点和带宽资源开销,并提高了网络服务请求接受率。相似文献

18.

面向流式数据处理系统的高效故障恢复方法

刘阳张扬扬周号益《计算机应用》2022,42(11):3337-3345

针对流式数据处理系统Flink无法高效处理单点故障的问题,提出了一种基于增量状态和备份的故障容错系统Flink+。首先,提前建立备份算子和数据通路;然后,对数据流图中的输出数据进行缓存,必要时使用磁盘;其次,在系统快照时进行任务状态同步;最后,在系统故障时使用备份任务和缓存的数据恢复计算。在系统实验测试中,Flink+在无故障运行时没有显著增加额外容错开销;而在单机和分布式环境下处理单点故障时,与Flink系统相比,所提系统在单机8任务并行度下故障恢复时间减少了96.98%,在分布式16任务并行度下故障恢复时间减少了88.75%。实验结果表明,增量状态和备份方法一起使用可以有效减少流式系统单点故障的恢复时间,增强系统的鲁棒性。相似文献

19.

容错多处理机中一种高效的实时调度算法 总被引：5，自引：0，他引：5

王健孙建伶王新宇杨小虎王申康陈俊波《软件学报》2009,20(10):2628-2636

针对基于主副版本容错的多处理机中独立的、抢占性的硬实时任务,提出了一种高效的调度算法——TPFTRM(task partition based fault tolerant rate-monotonic)算法.该算法将单机实时RM 算法扩展到容错多处理机上,并且调度过程中从不使用主动执行的任务副版本,而仅使用被动执行和主副重叠方式执行的任务副版本,从而最大限度地利用副版本重叠和分离技术提高了算法调度性能.此外,TPFTRM 根据任务负载不同将任务集合划分成两个不相交的子集进行分配;还根据处理机调度的任务版本不同,将处理机集合划分成3 个不相交的子集进行调度,从而使TPFTRM 调度算法便于理解、实现以及减少了调度所需要的运行时间.模拟实验对各种具有不同周期和任务负载的任务集合进行了调度测试.实验结果表明,TPFTRM与目前所知同类算法相比,在调度相同参数的任务集合时不仅明显减少了调度所需要的处理机数目,还减少了调度所需要的运行时间,从而证实了TPFTRM 算法的高效性. 相似文献

20.

基于资源效用最大化的虚拟网络功能备份方法

周桥伊鹏门浩崧《计算机应用》2017,37(4):948-953

针对网络功能虚拟化环境下组成服务功能链的虚拟网络功能故障所引起的网络服务故障问题,提出一种最大化资源效用的虚拟服务功能备份方法来提高网络可靠性。首先,对虚拟服务功能备份问题进行详细分析并建立了可靠性评估模型,提出了改进的备份机制,并证明了该机制与其他机制相比的优势;其次,对全网络设计了全局备份算法和备份选择策略来对相应的虚拟网络功能选取备份直到满足可靠性需求。仿真实验结果表明,与GREP方法、联合备份机制加上随机选择策略（JP+random selection）及双重共享式备份机制加上随机选择策略（DSP+random selection）相比,该方法在可靠性和资源利用率上取得了优异的性能,特别是服务功能链请求接受率提高18.8%~25%,资源效用利用率提高15%~20%。实验结果表明该方法能较为有效地利用资源来提升网络可靠性。相似文献