首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
SMA:一种新的多线程处理器模型   总被引:1,自引:0,他引:1       下载免费PDF全文
本文提出一种新的多线程处理器模型,它结合了前瞻性执行机制和多线程执行机制,既能从更大的指令窗口中开发出更多的ILP,又能屏蔽各种长延迟操作,达到较高的资 源利用率。本文深入讨论了SMA模型及其特点,并进行了初步的性能分析。  相似文献   

2.
As chip multiprocessors with simultaneous multithreaded cores are becoming commonplace, there is a need for simple approaches to exploit thread-level parallelism. In this paper, we consider thread-level speculation as a means to reap thread-level parallelism out of application binaries. We first investigate the tradeoffs between scheduling speculative threads on the same core and on different cores. While threads contend for the same resources using the former approach, the latter approach is plagued by the overhead for inter-core communication. Despite the impact of resource contention, our detailed simulations show that the first approach provides the best performance due to lower inter-thread communication cost. The key contribution of the paper is the proposed design and evaluation of the dual-thread speculation system. This design point has very low complexity and reaps most of the gains of a system. The work was carried out while Fredrik Warg was a graduate student at Chalmers University of Technology.  相似文献   

3.
崔勇  徐恪  吴建平 《计算机学报》2004,27(12):1695-1705
多度量的服务质量路由(QoSR)作为下一代互联网的一个重要难题,具有NPC的复杂度.作者设计了启发式算法(LFP)使用线性函数将两个度量转化成单一函数值,进而通过多个不同线性函数实现了与服务质量请求无关的QoSR预计算方式.文章分析了线性函数对算法性能的影响,给出了服务质量约束的可行区域和不可行区域的线性函数判定方法.实验结果表明,算法使用少量均匀分布的线性函数,即可产生具有较高路由性能的QoSR路由表,在可扩展性和路由性能等方面均明显优于现有算法。  相似文献   

4.
基于SimpleScalar的龙芯CPU模拟器Sim-Godson   总被引:6,自引:1,他引:6  
现代高性能通用处理器的设计越来越复杂,模拟器在处理器设计中所起的作用越来越大.龙芯2号是中国科学院计算技术研究所研制的高性能通用处理器.最早开发的龙芯2号的模拟器ICT-Godson是信号级模拟器,它模拟了处理器的所有细节,十分准确,但速度和灵活性有较大限制.文章基于SimpleScalar工具集,设计并实现了龙芯2号的模拟器Sim-Godson.Sim-Godson具有高速度和高灵活性的优点,且准确性也很高.在3.0GHz的Pentium4微机上,Sim-Godson速度约为500K指令/s.大部份测试程序在Sim-Godson上的IPC(Instruction Per Cycle)与ICT-Godson相差不到5%,达到了很高的准确性.Sim-Godson在龙芯2号的性能分析工作中发挥了重要作用.  相似文献   

5.
基于多层客户/服务器模型的多线程应用实现框架   总被引:3,自引:1,他引:3  
文章提出了一个基于多层客户/服务器模型的应用系统框架,给出了软件结构和实现方法。该框架采用多进程、多线程结构,可作为复杂多任务应用的实现模板,具有较强的通用性、可扩展性、灵活性与可重用性,从而降低应用系统开发的复杂性。  相似文献   

6.
This low-cost auxiliary processor is based on commercially available microprocessors. Its parallel capabilities enhance the performance of small computer systems in vector and associative operations.  相似文献   

7.
为提高混合软组织实时形变模型(HSTDM)的计算效率,提出一种基于状态空间预计算的混合软组织实时形变模型。利用HSTDM模型,通过离线预计算方式得到离散形变状态空间的精确数据,在实时交互时采用光滑粒子流插值函数计算力反馈和形变节点的偏移值。仿真结果表明,该模型能够描述软组织线性、非线性和各向异性材料特性,并在视觉和触觉上分别达到60 Hz和500 Hz以上的刷新率。  相似文献   

8.
详细提出了一种在Internet上利用多线程程序设计技术构建服务器的方法,实验证明,它能很好地处理多线程共享资源同步问题。  相似文献   

9.
基于嵌入式处理器软核的DVB-S基带处理系统   总被引:4,自引:0,他引:4  
杨浩  林争辉  鞠海  蔡雄飞 《计算机工程》2005,31(6):203-205,F003
完整地给出了一种利用SoPC策略在大规模FPGA上实现高度集成的DVB-S前端基带处理系统的SoC实现.从系统模型设计入手,综合运用了集成电路和SoC设计手段设计验证了基带处理IP,并整合了嵌入式处理器(Nios)软核及其应用程序,极大地提高了系统性能并降低了总体成本.还提出了基于混合层次仿真的设计验证方法.  相似文献   

10.
随着多核技术的不断发展,多线程技术更加广泛地应用于计算机软件中.但由于执行的不确定性,多线程程序的排错和调试存在着很大的困难.确定性多线程系统可以使多线程程序以确定的方式执行,即多次执行同一个多线程程序的顺序和结果是相同的,这可以大大简化多线程程序的排错和调试.但是,确定性多线程系统会导致多线程程序性能的下降.本文提出一种基于长并行距离优先的确定性多线程调度算法,优先执行并行距离长的线程,减少线程总体等待时间,从而提高多线程程序的效率.实验结果表明,本文方法可以使多线程程序的性能提升10%,并且具有很好的可扩展性.  相似文献   

11.
针对传统处理器分支预测器存在分支预测信息混乱、分支指令别名冲突和容量冲突率高的缺点,提出基于同时多线程处理器的分支预测器TBHBP。该分支预测器采取线程历史信息与基于地址索引的局部历史信息相结合的综合历史信息作为模式匹配表PHT的索引,并采取线程独立拥有线程历史寄存器和分支历史寄存器的方式,通过新增分支结果输出表来提高指令的分支预测执行速度。研究结果表明,TBHBP分支预测器有效解决了分支信息过时、分支指令别名和容量冲突的问题。与Gshare分支预测器相比,其指令吞吐率提升了12.5%,分支误预测率和误预测路径取指率分别下降了0.5%和2.1%。  相似文献   

12.
死锁是并行程序常见的缺陷之一,动态死锁分析方法根据程序运行轨迹构建锁图、分段图等模型来检测死锁.然而,锁图及其现有的各种变型无法区分同一循环中锁授权语句的多次执行,扩展锁图中记录的锁集无法捕捉线程曾经持有而又随后释放的锁信息,分段图无法刻画锁的获取和释放操作与线程启动操作耦合而导致的段间依赖关系.上述问题导致了多种死锁...  相似文献   

13.
取指策略直接影响处理器的指令吞吐率.针对传统处理器取指策略存在取指带宽利用不均衡、指令队列冲突率高的缺点,提出基于同时多线程处理器的取指策略IFSBSMT.该策略以线程的IPC值为基础,速取优先级高的线程进行取指,并利用预取指令条数预算的方式分配取指带宽,采取线程IPC值和L2 Cache缺失率的双优先级动态资源分配机制分配处理器的系统资源.研究结果表明,IFSBSMT策略有效地解决了取指带宽、指令队列冲突及资源浪费问题,进一步提高了指令吞吐率,且具有较好的取指公平性.  相似文献   

14.
随着多核技术越来越普及,多线程程序的编程也越来越流行。但是多线程程序的正确性问题已经严重影响软件可靠性,且现有的测试技术不能很好地满足多线程程序的需求。本文重点研究多线程程序中最常见的一种bug,即数据竞争,提出一种基于线程调度顺序控制的测试方法。该方法混合静态方法和动态方法,能够有效地找到多线程程序中存在的数据竞争,且能够区分出哪些数据竞争是有害的,需要程序员优先修复。实验结果显示,对于数据竞争的触发概率,本文的方法使其平均从0.53%提高到79.2%,且本文所引入的运行时开销平均只有80%,与相关方法所引入370%的开销相比更优。  相似文献   

15.
设计了一种用于目标识别与定位的基于FPGA和多DSP的多总线并行处理器,其特征在于将FPGA作为系统数据缓存、通信与控制中枢,以此为核心,通过数据与控制总线联接端口控制CPLD芯片,通过EMIF总线分别联接DSP(A)、DSP(B)和DSP(C)处理芯片;端口控制CPLD芯片的输入端联接多路并行ADC模数转换芯片,输出端口联接LCD输出显示模块;有源晶体振荡器与FP-GA芯片联接,FPGA芯片将有源晶体振荡器分为4路时钟信号输出,分别输出到CPLD和3片DSP芯片;设计改进了传统采用单DSP搭建信号处理器模式,实际测试的系统内部数据传输速度达到100M,系统最大处理能力可以达到7200MIPS,具有功能强、性能指标高、结构紧凑的优点。  相似文献   

16.
针对中值滤波算法速度慢的缺点,设计了一款基于传输触发架构的专用处理器,使得中值滤波的速度得到了大幅度的提升。其中数据存取单元采用二维寻址方式,与通用处理器相比,寻址时减少了加法指令和乘法指令的使用,提高了数据存取速度;设计了专用排序功能单元,与通用处理器相比减少了比较和跳转指令的使用。仿真和验证结果表明,在图像中值滤波处理中,该处理器比传统RISC架构通用处理器的效率有较大的提高。  相似文献   

17.
本文主要介绍了如何利用一种基于Intel网络处理器(NP)的硬件及运行于此硬件上的软件模块中的分组接收和转发功能,实现一种简单的流量发生器。  相似文献   

18.
基于IXP网络处理器的NefFIOW采集系统   总被引:1,自引:0,他引:1  
NetFlow是一种分析网络流量的重要技术,本文根据Intel的IXP2400网络处理器的特点,提出了在IXP2400上采集NetFIow数据的高效实现方案。  相似文献   

19.
文中提出一个IPBPS(Interconnected Processor-Based Parallel Sorting)并行分类算法,运行在由独立处理器构成的计算机网络上,以解决网络分布式数据库的分类计算问题。基于并行算法应与并行计算的拓扑结构相匹配的思想,设计了一种旨在减小处理器间通信开销的网络结构。在此并行计算环境中,每个处理器执行同样的程序,计算负载均匀分布在每个处理器中,具有较高的加速比。同时,这种基本的处理器互联结构可灵活扩展,且随着网络的扩大,算法的并行加速比更高。  相似文献   

20.
提出了一个真实感短毛的实时绘制与造型系统。该系统采用快速的层状纹理切片技术进行毛发表示,保证了真实感短毛绘制和造型的实时性。在毛发造型方面,系统采用倒伏向量场和长度标量场来控制模型表面短毛的形态变化,并提供了多种造型工具,如梳理、吹风、引力棒、插值、扰动等。利用这些造型工具,用户可以灵活、直观地对短毛形态进行编辑与设计。系统还提供了一个毛发纹理生成器,使用户可以通过设计毛发纹理来对毛发的粗细、疏密和颜色等属性进行整体控制。实验结果表明,本文系统具有较强的短毛造型能力,并具有非常好的可操作性和用户交互性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号