排序方式: 共有12条查询结果,搜索用时 14 毫秒
1.
2.
片上多核处理器存储一致性验证 总被引:2,自引:0,他引:2
存储一致性验证是片上多核处理器功能验证的重要部分.由于验证并行程序的执行结果是否符合存储一致性模型理论上是NP难问题,现有的验证方法中只能采用一些时间复杂度大于O(n3)的不完全方法.发现在支持写原子性的多处理器系统中,两条执行时间不重叠的操作之间存在确定的时间序.通过引入时间序的概念,设计并实现了一种线性时间复杂度的存储一致性验证工具LCHECK.LCHECK利用时间序将验证局部化,使得在表示程序执行结果的有向图中,序关系边的推导和正确性检测都被限定在有限范围内.与现有其他方法相比,LCHECK时间复杂度低,对程序长度和访存地址数没有限制,因此验证效率更高.作为国产片上多核处理器龙芯3号的重要验证工具, LCHECK发现了一些存储系统的设计错误. 相似文献
3.
数据流Java并行程序设计模型的设计、实现及运行时优化 总被引:2,自引:0,他引:2
提出了一种具有数据流特征的Java并行程序设计模型,并针对该模型提出了一种基于运行时信息反馈的自适应优化算法,使得运行时系统可以利用数据流程序所暴露出的数据并行性,加速程序的运行.此外,在该模型中加入了数据流多态的概念,扩展了该模型的面向对象特性.在一个实际的开放源码Java虚拟机中实现了上述程序设计模型及优化方法.在实际多核多线程机器上的实验结果表明,所提出的程序设计模型及优化能够充分利用硬件的并行处理能力,显著地提高了程序的性能. 相似文献
4.
提出了很多结合技术使得指令调度与寄存器分配之间进行一些信息交互,在没有引入过多溢出代码的情况下提高了指令级并行度,从而提高了性能。按照算法的特征分类介绍了几种影响力较大的算法,同时作了简单的评价和效果比较,最后介绍了有关指令调度和寄存器分配结合的一些新方向。 相似文献
5.
刘力轲 《计算机工程与设计》2008,29(4):942-944,948
介绍了在对芯片进行静态时序分析过程中,使用时序窗口的方法,滤除对延时无影响的串扰情况.利用米勒等效去耦方法精确计算导线延时,并根据线间信号变化情况计算确定米勒因数.借此完成串扰对信号延迟影响的分析,实现分析的高精确度,帮助设计者在设计过程中发现并合理解决信号完整性问题. 相似文献
6.
对网络处理器的结构设计、验证和性能评估等内容进行研究,设计了一种用于边缘网络应用的网络处理器,并对它进行了FPGA实现和评估分析。该网络处理器采用并发多处理结构,拥有完善的C语言开发环境和操作系统等基础软件支持,其单处理引擎和四处理引擎配置在Xilinx XC2VP30 FPGA上的运行频率为116.4MHz和83.5MHz,分别占用7100和15250个四输入LUT。实验和分析表明该网络处理器具有较高的效率和良好的可扩展性,能满足边缘网络的转发及远程控制等各领域的应用需求。 相似文献
7.
8.
针对子程序结构的线程级推测并行性分析 总被引:3,自引:0,他引:3
线程级推测技术为开发更多的线程级并行性,充分利用多核加速传统上难以手工或自动并行化的串行程序提供可行的技术途径.然而,这种技术的性能严重地依赖于线程划分方案.有研究表明,仅推测执行循环所产生的并行性是不够的.但推测执行子程序结构比循环结构要难.本文提出寻找适于推测并行执行的子程序结构的基本判定依据;通过运行由Simplescalar工具集改造得到的动态剖析工具ProRV、ProFun和SPEC CPU2000基准测试程序,我们对子程序结构线程化推测执行的适合性进行详细分析,给出具有指导意义的实验分析方法和实验数据.我们发现:①无返回值的子程序结构占据程序整体执行时间的大约40%;返回稀疏整型的子程序结构占据了程序整体执行时间的大约10%,对其返回值的预测成功率在70%左右.对于其他返回值类型的子程序结构,由于对其返回值的预测成功率过低,我们认为不适合作为线程划分的对象.②简单的last-value的值预测方案对于返回值的预测是简单而且足够有效的.③访存数据依赖普遍存在于子程序与其后继代码之间,显式同步机制对于针对子程序结构的线程级推测是必要的. 相似文献
9.
利用锁相环(PLL)为高速低功耗并行传输电路发射机生成时钟信号的系统。设计了一个稳压器(Voltage Regulator),为PLL中对噪声敏感的模块提供低噪声的电压源。在此基础上提出了一种新型的动态改变工作频率的方法,应用于源同步(source-synchronous)模式的高速传输电路。此方法可以在不改变PLL状态的情况下快速改变输入输出(I/O)电路的工作频率,降低功耗。整个芯片采用0.18μm CMOS工艺设计并流片测试成功。 相似文献
10.
介绍了一种适用于高速串并转换电路(SERDES)的MUX/DEMUX,采用0.18μmCMOS工艺.数据传输速率达到10GB/s。该电路主要由锁存器、选择器和时钟分频器3个模块组成,采用1.8V电压供电.MUX和DEMUX功耗分别为132mW和64mW。 相似文献