期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

高效的部分冗余容错编译:复制错误流关键子图 总被引：1，自引：0，他引：1

高珑王之元杨学军《软件学报》2007,18(9):2105-2116

传统的容错编译通常复制所有的计算并且使用完全冗余的存储单元来保证容错.这种完全冗余在存储空间和性能上的开销都是相当大的.在错误流分析的基础上提出错误流图的关键子图的概念以及通过关键结点和关键路径生成关键子图的方法,并设计了通过复制错误流关键子图实现部分冗余的算法.在保证有效容错能力的同时,部分冗余明显减小了经过容错编译的程序在存储空间和性能上的开销.实验显示,与复制全部错误流图的完全冗余相比,在结点覆盖率降低6.25%的情况下,部分冗余算法最多能够减少寄存器的使用数量6.25%,减少功耗超过17%,减少执行时间接近26%,同时提高性能超过22%. 相似文献

2.

基于跳跃访问控制的低功耗分支目标缓冲器设计

喻明艳张祥建杨兵《计算机辅助设计与图形学学报》2010,22(4)

传统的分支目标缓冲器(BTB)每个取指周期都要进行访问,由于程序中的分支指令只占总指令数的20%左右,使得大约80%的BTB访问都是无效的.为此,利用程序控制流中分支指令间距固定的特性,提出一种对性能影响极小的BTB跳跃访问算法.在BTB中存储分支指令到运行路径中下一条分支指令的距离,BTB命中后,根据相应的分支距离来关闭当前分支指令与下一条分支指令之间的BTB访问,以有效地提高访问效率并降低动态功耗.该算法在嵌入式处理器中实现时只控制预测跳转分支指令的BTB跳跃访问,减少了硬件资源的开销.在硬件模型上进行模拟和综合后的结果表明,在128分支项的BTB中,采用文中算法可以降低72%的动态功耗,而性能损失仅为0.013%. 相似文献

3.

非局部加权邻域三角滤波TV-L¹光流估计

下载免费PDF全文

张聪炫陈震汪明润黎明《中国图象图形学报》2017,22(8):1056-1067

目的针对非刚性运动、运动遮挡与间断、大位移以及复杂边缘结构等困难场景图像序列光流计算的准确性与鲁棒性问题,提出一种基于加权邻域三角滤波的非局部TV-L¹光流计算方法。方法首先设计非平方惩罚函数L¹模型与梯度守恒假设相结合的数据项,然后引入基于L¹模型与基于图像梯度自适应变化权重相结合的平滑项,并根据提出的鲁棒数据项与图像-光流联合控制平滑项建立TV-L¹光流计算能量函数模型。最后采用基于加权邻域三角的非局部约束项,通过引入图像金字塔分层变形计算策略,在每层图像光流计算时对光流计算结果进行基于加权邻域三角网格的中值滤波优化,提出基于加权邻域三角滤波的非局部TV-L¹光流计算模型。结果分别采用MPI与Middlebury数据库测试图像序列对本文方法和LDOF、CLG-TV、SOF、Classic+NL等代表方法进行实验对比。本文方法光流计算结果的平均角误差（AAE）和平均端点误差（AEE）相对其他对比方法平均下降28.45%和28.42%,时间消耗相对传统方法增长5.16%。结论相对于传统的光流计算方法,本文方法针对非刚体运动、运动遮挡与间断、大位移运动以及复杂边缘等困难场景具有较好的适用性,光流估计结果具有较高的精度和较好的鲁棒性。相似文献

4.

基于循环体访问过滤的低功耗分支目标缓冲器

高金加孟建熠陈志坚《计算机应用研究》2012,29(3):998-1001

分支目标缓存(BTB)是高端嵌入式CPU的主要耗能部件之一。针对BTB访问中引入的冗余功耗问题,提出了一种循环体访问过滤机制消除循环体指令流中顺序指令对BTB的无效访问。进一步提出了一种分支跟踪方法补偿循环过滤机制对循环体中非循环类分支指令的错误过滤造成的性能损失,节省了循环体指令流中顺序指令访问BTB的大量冗余功耗。基于Powerstone基准程序的仿真实验表明,在128表项BTB配置下,二级循环过滤器和4表项分支踪迹表可以减少约71.9%的BTB功耗,而平均每条指令周期数(CPI)退化仅为0.66%。相似文献

5.

错误流模型:硬件故障的软件传播建模与分析

杨学军高珑《软件学报》2007,18(4):808-820

无论是可靠性工程还是软件可靠性中的可靠性模型,都难以描述硬件故障在程序中的传播问题.首先建立了计算数据流模型,并以无穷存储机器的指令集为例,说明可以为任意程序建立计算数据流图.在计算数据流模型的基础上,进一步建立了错误流模型.把计算过程中的错误分成物理错误和传播错误两种,通过分析这两种错误的本质和传播规律,给出了6条有关错误传播的规则和2条独立定律.根据这些规则和定律,能够计算出在程序运行过程中,任意时刻在任意位置上出现错误的概率.最后以一个简单的无穷存储机器程序为例,简要地展示了错误流模型描述硬件故障在相似文献

6.

一种面向嵌入式处理器的昏睡子块唤醒方法

李伟沈绪榜《计算机测量与控制》2015,23(2):640-643

针对嵌入式处理器中日益明显的指令Cache漏功耗,提出了一种基于当前指令状态标志位的分支预测和返回目标寄存器映射的昏睡子块唤醒方法;该方法根据处理器执行过程中指令状态位提前判断分支指令的目标子块,同时设计了一种返回地址目标寄存器映射的结构,提前判断函数返回指令的目标子块。在消除唤醒延迟带来的性能损失基础上,提高了处理器的性能;通过实验对比,该方法可以减小36%的指令Cache静态功耗,同时处理器性能平均有13%的提高。相似文献

7.

GE信道下WLAN节能站点传输TCP流功耗分析模型*

廖勇王韬陈徐洪彭小秦《计算机应用研究》2011,28(4):1515-1517

针对目前在无线局域网(WLAN)基础服务集(BSS)节能站点功耗分析模型上没有融入错误信道模型的问题,本文有机地结合了Gilbert-Elliot(GE)错误信道模型和WLAN BSS节能模式站点传输TCP流的功耗模型,提出并建立一种新的混合模型,同时给出了GE信道参数影响节能站点传输TCP流功耗的量化表达式,通过网络模拟器(NS2)仿真验证了新模型的正确性和有效性。相似文献

8.

利用AdaBoost的SDC错误检测方法

刘阳庄毅《小型微型计算机系统》2022,(4):882-888

单粒子翻转引起的静默数据损坏(SDC)错误是影响嵌入式系统可靠性的关键因素.针对SDC错误难以检测的问题,本文提出了一种基于AdaBoost的SDC错误检测方法.方法首先将物理空间中的单粒子多位翻转映射到单一指令中,并建立故障模型;然后根据故障模型对目标程序进行故障注入以获取故障注入仿真实验结果,使用AdaBoost算法训练指令SDC脆弱性模型;最后根据模型预测结果对目标程序进行粒度可配置的指令冗余以达到检测SDC错误的目的.实验结果表明,与现有方法相比,本文提出的利用AdaBoost的SDC错误检测方法有着较高的检测率和较低的时空开销. 相似文献

9.

大位移变分光流计算的快速算法

下载免费PDF全文

刘博文魏伟波潘振宽王守润《中国图象图形学报》2017,22(1):66-74

目的多尺度方法的提出解决了传统HS（Horn Schunck）算法不能计算大位移光流的问题,但同时也增加了迭代运算的步数。为加快迭代收敛速度,研究大位移变分光流计算的快速算法,并分析其性能。方法将用于加快变分图像处理迭代运算的Split Bregman方法、对偶方法和交替方向乘子法应用到大位移光流计算中。结果分别进行了精度、迭代步数、运行时间的对比实验。引入3种快速方法的模型均能够在保证精度的同时,在较少时间内计算出图像序列的光流场,所需时间为传统方法的11%~42%。结论将3种快速方法应用到大位移变分光流计算中,对于不同图像序列均可以较大地提高计算效率。相似文献

10.

高层次数据流的多电压低功耗综合方法

李光顺马光胜吴俊华《计算机辅助设计与图形学学报》2009,21(7)

为了有效地进行算法行为描述到寄存器传输级结构描述的转换,提出一种同时考虑功能单元功耗、互连功耗和电压转换功耗的模型和基于网络流的低功耗设计方法.首先对给定的数据流图进行单电压高层次综合,然后对单电压综合结果迭代地进行多电压调整;提取每次迭代时需要调整的网络流子图,对该子图运行最小费用最大流增量算法.该方法充分利用前面迭代中得到的优化解,避免了对整个网络流的重复计算.实验结果表明,文中方法在互连功耗、电压转换功耗和总功耗等方面均有较大优化. 相似文献

11.

基于模糊控制和大数据算法模型的电力运维故障诊断设备方法

下载免费PDF全文

金海勇吴其乐刘腾泽张莉《计算机测量与控制》2022,30(11):71-76

针对现有技术中对电力运维故障检测灵敏度低、诊断误差大等问题,设计了一种新型故障诊断方案。该方案将PID模糊控制计算器与大数据算法模型相结合,并采用实时布线的方法减少诊断面积,基于改进型大数据算法模型提取电力运维设备故障数据特征,对电力运维设备运行工况构建诊断网络,通过分析电力运维设备工况的功能系统完成数据诊断。为了减少诊断误差,该研究设计了一种故障诊断设备,采用集成芯片化设计和算法程序,减小体积的同时保证检测结果的准确性。实验结果表明,该研究方法故障诊断误差小,准确率最高达到98.6%。相似文献

12.

Achieving reliable system performance by fast recovery of branch miss prediction

《Journal of Network and Computer Applications》2012,35(3):982-991

Today's technology evolution provides users inexpensive and powerful computer systems. However, there are argues that system reliability and fault tolerance is necessary in the systems as well. A proper design for the reliable and fault-tolerant computer system requires a trade-off among cost, reliability, and availability. In this paper, we propose a low-cost recovery scheme for reliable system performance. With this approach, it completely eliminates the roll-back overhead on branch misprediction. Thus, the instruction fetcher does not stop and it fetches instructions from the correct path immediately after the misprediction detected. So, this approach prevents a processor from flushing the pipeline, even under branch misprediction by allowing the instruction fetcher to work continuously. Our approach reduces the branch misprediction penalty for achieving reliable system performance. It instantly reconstructs the map table to any mispredicted branch and it outperforms the conventional RMT by an average of 10.93%. 相似文献

13.

应用输入向量控制技术降低漏电功耗的快速算法

常晓涛范东睿韩银和张志敏《计算机研究与发展》2006,43(5):946-952

随着工艺的发展,为保证电路的性能和噪声容限必须降低阈值电压,这将导致漏电流呈指数增长,漏电功耗因而将逐渐超过动态功耗占据主导地位.CMOS的堆栈效应导致电路在不同向量下的静态功耗不同,因此在电路进入睡眠状态时使用输入向量控制技术是一种低功耗设计的有效方法,如何快速找到一个可降低电路漏电功耗的向量就成了问题的关键.介绍了一种在给定向量集合中查找低功耗向量的快速算法--基于概率传递的标记算法,并为此开发了一个事件驱动的门级组合电路仿真器.通过对ISCAS和龙芯处理器电路的实验结果表明,该算法同传统方法比较可以提高性能3.4倍,误差率仅约0.14%. 相似文献

14.

基于可信列表的改进拜占庭容错算法

乔康汤红波游伟王领伟《计算机应用与软件》2022,(2):274-280+306

为减少实用拜占庭容错(PBFT)算法的通信开销,现有研究主要通过选举方式在保证安全的前提下挑选少量节点参与共识,但其灵活性差、容错率低、资源耗费高。对此,通过建立信用节点列表和信用评价机制,提出一种基于可信列表的改进拜占庭容错算法(CPBFT)。仿真分析表明,较PBFT算法,CPBFT算法不仅能提高节点灵活性和容错率,还降低了约42.74%的通信带宽开销,提升了约3.12%的交易吞吐量,降低了约3.03%的时延,具有一定性能优势。相似文献

15.

Power-aware code scheduling assisted with power gating and DVS

《Future Generation Computer Systems》2014

Traditionally, code scheduling is used to optimize the performance of an application, because it can rearrange the code to allow the execution of independent instructions in parallel based on instruction level parallelism (ILP). According to our observations, it can also be applied to reduce power dissipation by taking advantage of the properties of existing low-power techniques. In this paper, we present a power-aware code scheduling (PACS), which is a code scheduling integrated with power gating (PG) and dynamic voltage scaling (DVS) to reduce power consumption while executing an application. In other words, from the viewpoint of compilation optimization, PG and DVS can be applied simultaneously to a code and their impact can be enhanced by code scheduling to further save power. The result shows that when compared with hardware power gating, the proposed PACS can outperform by more than 33% and 41% in terms of energy delay product and energy delay² product for DSPStone and Mediabench. 相似文献

16.

Power-aware BTB for modern processors

Kaveh Jokar Deris Author Vitae Author Vitae 《Computers & Electrical Engineering》2010,36(5):902-911

Modern processors access the branch target buffer (BTB) every cycle to speculate branch target addresses. This aggressive approach improves performance as it results in early identification of target addresses. However, unfortunately, such accesses, quite often, are unnecessary as there is no control flow instruction among those fetched.In this work, we introduce speculative BTB access to address this design inefficiency. Our technique relies on a simple power efficient structure, referred to as the BLC-filter, to identify cycles where there is no control flow instruction among those fetched, at least one cycle in advance. By identifying such cycles and eliminating unnecessary BTB accesses we reduce BTB power dissipation (and therefore power density). 相似文献

17.

Concurrent warp execution: improving performance of GPU-likely SIMD architecture by increasing resource utilization

Hong Jun Choi Dong Oh Son Jong Myon Kim Cheol Hong Kim 《The Journal of supercomputing》2014,69(1):330-356

Hardware parallelism should be exploited to improve the performance of computing systems. Single instruction multiple data (SIMD) architecture has been widely used to maximize the throughput of computing systems by exploiting hardware parallelism. Unfortunately, branch divergence due to branch instructions causes underutilization of computational resources, resulting in performance degradation of SIMD architecture. Graphics processing unit (GPU) is a representative parallel architecture based on SIMD architecture. In recent computing systems, GPUs can process general-purpose applications as well as graphics applications with the help of convenient APIs. However, contrary to graphics applications, general-purpose applications include many branch instructions, resulting in serious performance degradation of GPU due to branch divergence. In this paper, we propose concurrent warp execution (CWE) technique to reduce the performance degradation of GPU in executing general-purpose applications by increasing resource utilization. The proposed CWE enables selecting co-warps to activate more threads in the warp, leading to concurrent execution of combined warps. According to our simulation results, the proposed architecture provides a significant performance improvement (5.85 % over PDOM, 91 % over DWF) with little hardware overhead. 相似文献