首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
Sha  T. Martin  M.M.K. Roth  A. 《Micro, IEEE》2007,27(1):106-113
The NoSQ microarchitecture performs store-load communication without a store queue and without executing stores in the out-of-order engine. It uses speculative memory bypassing for all in-flight store-load communication, enabled by a 99.8 percent accurate store-load communication predictor. The result is a simple, fast core data path containing no dedicated store-load forwarding structures  相似文献   

2.
New load and store processing algorithms let memory-latency-tolerant architectures sustain thousands of in-flight instructions without scaling cycle-critical fully-associative load and store queues. These algorithms rely on redoing some stores after fetching cache miss data from memory (to fix memory dependences). Doing so provides better power and area characteristics than constantly enforcing memory dependences among a several loads and stores, many of which have unknown addresses.  相似文献   

3.
《Micro, IEEE》2004,24(6):118-127
Power is a major problem for scaling the hardware needed to support memory disambiguation in future out-of-order architectures. In current machines, the traditional detection of memory ordering violations requires frequent associative searches of state proportional to the instruction window size. A new class of solutions yields an order-of-magnitude reduction in the energy required to properly order loads and stores for windows of hundreds to thousands of in-flight instructions  相似文献   

4.
Dependences among loads and stores whose addresses are unknown hinder the extraction of instruction level parallelism during the execution of a sequential program. Such ambiguous memory dependences can be overcome by memory dependence speculation which enables a load or store to be speculatively executed before the addresses of all preceding loads and stores are known. Furthermore, multiple speculative stores to a memory location create multiple speculative versions of the location. Program order among the speculative versions must be tracked to maintain sequential semantics. A previously proposed approach, the Address Resolution Buffer (ARB) uses a centralized buffer to support speculative versions. Our proposal, called the Speculative Versioning Cache (SVC), uses distributed caches to eliminate the latency and bandwidth problems of the ARB. The SVC conceptually unifies cache coherence and speculative versioning by using an organization similar to snooping bus-based coherent caches. Our evaluation for the Multiscalar architecture shows that hit latency is an important factor affecting performance and private cache solutions trade-off hit rate for hit latency  相似文献   

5.
One of the main challenges of modern processor design is the implementation of a scalable and efficient mechanism to detect memory access order violations as a result of out-of-order execution. Traditional age-ordered associative load and store queues are complex, inefficient, and power-hungry. In this paper, we introduce two new LSQ filtering mechanisms with different design tradeoffs, but both explicitly rely on timing information as a primary instrument to rule out dependence violation and enforce memory dependences. Our timing-centric design operates at a fraction of the energy cost of an associative LQ and SQ with no performance degradation.  相似文献   

6.
《Micro, IEEE》2004,24(6):110-117
Value-based replay enforces memory ordering by simply reexecuting load instructions in program order prior to commit, eliminating the need for associative search functionality from the load queue. The load queue can therefore be implemented as a first-in-first-out buffer, like the reorder buffer, which is fundamentally more scalable and power-efficient. In order to mitigate the bandwidth and resource occupancy costs of replay, a set of heuristics filter the set of loads that must be replayed, resulting in negligible performance degradation and data cache bandwidth increases relative to a conventional machine  相似文献   

7.
分析了Bloom Filter技术在时下流行的P2P分布式系统中的应用,着重介绍基于Bloom Filter的d-Left Counting Bloom Filtr(CBF)技术,d-left CBF利用d-lef thashing的方法存储fingerprint,将hash value分为两部分,分别用于存储随机地址和fingerprint,从而提高工作效率,并支持节点动态删除操作,应用于节点异常活跃的P2P系统中.  相似文献   

8.
笱程成  赵荣彩  单征  田双鹏 《计算机工程》2010,36(17):111-113,116
由于哈希冲突的存在,基于哈希表的网络流负载均衡算法无法约束最坏情况下算法的性能。针对该问题,设计一种多哈希算法,将需要调整的流保存在精确流匹配布隆过滤器结构中。与基本哈希表相比,该算法保持了会话的完整性以及更低的冲突概率,提高了查询性能。  相似文献   

9.
基于.NET Remoting的动态负载平衡模型   总被引:1,自引:0,他引:1  
谢红薇  吉妙通 《计算机工程》2009,35(21):264-266
在对.NET Remoting技术和传统的分布式负载平衡算法深入研究的基础上,提出一种排序队列和哈希映射矩阵相结合的负载平衡策略,给出一个分布式环境下的动态负载平衡模型。一方面可提高系统吞吐量,另一方面可缩短任务请求的响应时间。模型采用模块化设计方法,使其具有部署灵活性和容错性,并应用滑动窗口机制提高模型的负载平衡指标可信度。  相似文献   

10.
The performence of scientific programs on modern processors can be significantly degraded by memory references that frequently arise due to load and store operations associated with array references. We have developed techniques for optimally allocating registers to array elements whose values are repeatedly referenced over one or more loop iterations. The resulting placement of loads and stores is optimal in that number of loads and stores encoutered along each path through the loop is minimal for the given program branching structure. To place load, store, and register-to-register shift operations without introducing fully/partially redundant and dead memory operations, a detailed value flow analysis of array references is required. We present an analysis framework to efficiently solve various data flow problems required by array load-store optimizations. The framework determines the collective behavior of recurrent references spread over multiple loop iterations. We also demonstrate how our algorithms can be adapted for various fine-grain architectures.  相似文献   

11.
在CPU指令流水线中,为了提高计算机系统的执行效率而加入的Cache、TLB等缓存结构是不同进程共享的,因此这些缓存以及相关执行单元在不同进程之间的共享在一定程度上打破了计算机系统中基于内存隔离实现的安全边界,进而打破了计算机系统的机密性和完整性。SpectreMeltdown等漏洞的披露,进一步说明了处理器微体系结构所采用的乱序执行、分支预测和推测执行等性能优化设计存在着严重的安全缺陷,其潜在威胁将涉及到整个计算机行业的生态环境。然而,对于微体系结构的安全分析,到目前为止尚未形成较为成熟的研究框架。虽然当前针对操作系统内核及上层应用程序的漏洞检测和安全防护方面已经有较为成熟的方法和工具,但这些方法和工具并不能直接应用于对微体系结构漏洞的安全检测之中。一旦微体系结构中出现了漏洞将导致其危害更加广泛并且难以修复。此外,由于各个处理器厂商并没有公布微体系结构的实现细节,对于微体系结构安全研究人员来说,微体系结构仍然处于黑盒状态,并且缺少进行辅助分析的工具。这也使得微体系结构的安全分析变得十分困难。因此本文从当前处理器微体系结构设计中存在的安全威胁入手,分析了其在设计上导致漏洞产生的主要原因,对现有处理器微体系结构的7种主流攻击方法进行了分类描述和总结,分析对比现有的10种软硬件防护措施所采用的保护方法及实用效果,并从微体系结构漏洞研究方法、漏洞防护及安全设计等方面,进一步探讨了处理器微体系结构安全的研究方向和发展趋势。  相似文献   

12.
一种链路负载自适应的主动队列管理算法   总被引:6,自引:1,他引:6  
纪其进  董永强 《软件学报》2006,17(5):1140-1148
随机早检测(random early detection,简称RED)是IETF推荐部署的主动队列管理(active queue management,简称AQM)算法.RED存在参数难以配置、无法得到与流量无关的平均队长等问题.ARED(adaptive RED)是RED的自适应版本,它根据平均队长动态调节最大标记概率参数,从而得到稳定的平均队长.但ARED没有克服瞬时队列长度振荡问题,且在动态流量环境下性能明显降低.分析了ARED性能问题的原因,并提出了一种链路负载自适应的主动队列管理算法LARED(load adaptiveRED).LARED具有两个特点:自适应链路负载、快速响应队长变化.分析和仿真实验表明,与ARED等其他AQM算法相比,LARED在保持高链路利用率和低时延的同时可以得到稳定的瞬时队长,并且具有良好的响应性和鲁棒性.  相似文献   

13.
主动队列管理算法(RED)存在很多问题,如参数难以配置、对负载变化敏感等,为此采用控制理论的方法改进RED算法,提出一种基于比例控制的自适应RED算法,PRED。仿真结果表明该算法的稳定性好,队列的稳态值不受负载变化的影响。与已有的几种主动队列管理算法的性能比较表明,PRED算法的性能明显优于ARED,PI控制,DRED,SRED和REM几种算法。  相似文献   

14.
在分析现有机会网络转发控制策略的基础上,针对采用固定效用值阈值的机会网络转发控制,提出了一种基于节点能力状况的自适应转发控制策略(adaptive forwarding algorithm based on nodal capacity condition,AFNC)。该策略根据节点的能力状况计算阈值控制因子,自适应调整不同网络传输状况以及通信机会下的数据转发条件。仿真实验表明,与现有的几种典型转发控制相比,AFNC在保证较低传输延迟和较高传输成功率的基础上,通过减少节点间的转发次数,有效地降低了网络传输开销。  相似文献   

15.
随着CMOS工艺的不断进步,单个芯片上集成的晶体管数目快速增长,使得由高能粒子和α粒子辐射产生的软错误逐渐成为影响微处理器可靠性的重要因素。通过计算体系结构脆弱因子,量化分析软错误对微处理器中不同结构的影响,已成为指导微处理器容错设计、提高系统可靠性的重要方法。体系结构脆弱因子在线计算方法,利用体系结构脆弱因子随应用程序运行而变化的特点,指导动态选择容错技术,实现可靠性与性能之间的平衡。在对已有方法分析的基础上,提出一种基于占用率的体系结构脆弱因子在线计算方法,并在Sim Alpha模拟器上进行验证。通过运行SPEC CPU2000基准测试程序,计算发射队列、重命名缓冲和存取队列的体系结构脆弱因子。实验结果表明,该方法能有效计算微处理器中不同结构的体系结构脆弱因子,与离线计算方法相比,发射队列、重排序缓存和存取队列三个体系结构脆弱因子的平均绝对误差仅为0.10、0.01和0.039。  相似文献   

16.
针对智能电网(SG)中电力线通信(PLC)网络中负载均衡的问题,提出了一个自适应机会路由协议——负载均衡的机会路由协议(LBORP)。在LBORP中,所有收到数据包的候选转发节点都有机会参与到数据包的转发中,不再局限于一条路由路径,避免了流量仅从一条链路经过导致的负载不均衡现象;而且候选转发节点的转发优先级不仅考虑到转发节点到目的节点的距离,还考虑到了PLC链路的不稳定性以及流量的变化。除此之外,在LBORP中采用一种隐式确认方案,进一步减少协议的端到端时延。在仿真实验中,与基于有序树的PLC路由协议(PLC-TR)和PLC机会路由协议(PLC-OR)相比,LBORP在时延上分别降低了19.7%和45.8%,在丢包率上分别降低了23.4%和32.5%。实验结果表明,LBORP能够实现网络的负载均衡,提升网络的可靠性并减小端到端时延。  相似文献   

17.
刘雷  李晶  陈莉  冯晓兵 《计算机工程》2014,(3):99-102,112
投机并行化是解决遗留串行代码并行化的重要技术,但以往投机并行化运行时系统面临着诸多的性能问题,如任务分配不均衡、通信频繁、冲突代价高,以及进程启动,结柬频繁而导致开销过高等。为此,提出一种基于进程实现的投机并行化运行时系统。采用隐式单程序多数据的并行任务划分和执行模式。通过实现重甩进程的投机任务调度策略和委托正确性检查技术,降低投机进程启动/结束和通信的开销,提高投机进程的利用率,同时利用守护进程与投机进程协同执行的方式,确保在投机进程出现异常情况时程序也能正确执行。实验结果表明,该基于进程实现的投机运行时系统比同类型系统的性能提高231%。  相似文献   

18.
机会网络中的节点以“存储-携带-转发”的方式完成消息转发,消息需要在中继节点缓存较长时间以等待通信机会,高效的缓存替换策略能够提高有限缓存空间的利用率。提出一种基于节点转发消息能力的自适应缓存替换策略。通过动态地感知当前的消息传输状态,并根据其在此节点中的停留时间和消息转发状态,估计节点对该消息的转发能力,进而调整消息的转发以及删除优先级。结果表明所提出的缓存替换策略能够有效提高消息的成功投递率,并大幅度地降低网络负载率。  相似文献   

19.
针对无线传感器网络中的负载均衡问题,提出并在TinyOS系统上实现了MintRout-HNLB协议算法。Mint-Rout-HNLB引入了热度申明和热点节点规避机制,选择次优父节点分担热点节点的数据转发任务,均衡网络负载,并提出了同级节点路由均衡性能指标SLN-LBEIn作为负载均衡性判据,通过TOSSI M模拟仿真表明Mint-Rout-HNLB比MintRoute协议能有效地实现网络负载均衡,均衡同级节点能量消耗。  相似文献   

20.
针对一维元胞自动机网络模型的转发过程随机化,二维模型缺乏拥塞特性分析的缺陷,提出了一种基于二维元胞自动机的网络模型。根据TCP/IP拥塞控制协议设计了元胞更新规则,并设置不同的元胞队列长度以增强网络的异构性。利用该模型仿真得到了拥塞相态下的节点负载、节点处理延时具有白噪声特性和1/f噪声特性。通过该模型观测到局部网络与整个网络负载特性的关系,表明该二维元胞自动机网络模型具有可扩展性,适用于大规模网络的行为建模研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号