期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

胡凯谢憬毛志刚《微电子学与计算机》2014,(6):40-43

为了解决分簇流处理器在进行多任务处理时访存系统效率不高的问题,提出了一种新的流访存系统.针对多任务处理情况下,各簇间工作的差异性与独立性,设计了新的流访存机制,包括流访存系统结构、访存流控制、簇间流顺序调度和流信息配置等.实验结果表明,改进后的多簇流处理器能够工作在并行与多任务两种模式下,同时在并行处理性能基本不变的情况下,获得平均20%的多任务处理性能提升. 相似文献

2.

一种异构多核处理器的并行流存储结构 总被引：4，自引：3，他引：1

下载免费PDF全文

邓让钰陈海燕窦强徐炜遐谢伦国戴泽福李永进夏军罗莉张民选《电子学报》2009,37(2):312-317

异构多核处理器可结合多种处理器体系结构的优势,既保留传统通用体系结构的灵活性,又拥有大量计算资源,可提供更高的峰值计算性能.YHFT64-3异构多核处理器中浮点处理部件18套,峰值计算能力强大,设计与之相匹配的存储系统是一项重大挑战.针对YHFT64-3处理器,本文提出了一种并行流层次存储结构,深入阐述了如何体现应用特点、支持并行数据流处理的存储系统的设计思想和方法,从多个层次实现对并行数据流的挖掘或捕获.测试结果表明,这种存储结构体现了应用特点,能够较好地发挥YHFT64-3处理器的性能,同频情况下(500MHz),YHFT64-3比YHFT64-2性能高2—3个数量级,与1.6GHz的Itanium2性能相当,但代价更低. 相似文献

3.

数字信号处理器片上流预取存储系统的设计

刘华杰谢憬毛志刚《微电子学与计算机》2014,(6):1-4

针对高性能VLIW数字信号流处理器运算速度与存储系统片外访存请求速度不能匹配的问题,提出了一种基于流运算的片上预取存储系统,包括数据的预取以及读写功能,流预取控制以及流预取存储单元的状态转换等.评估了所提出的预取存储系统的面积以及相关应用性能,结果证明在增加少许面积的情况下,有预取系统的处理器性能比没有预取的情况下提高了14.6%左右. 相似文献

4.

基于流体系结构的高效能分组密码处理器研究 总被引：1，自引：0，他引：1

下载免费PDF全文

王寿成严迎建徐进辉《电子学报》2017,45(4):937-943

针对现有密码处理器存在的问题,借鉴流处理器架构,提出了高效能的可重构分组密码流处理器架构.该架构采用层次化设计思想,通过分块式本地寄存器组的数据组织方式和共享拼接使用运算单元机制,实现了软件流水和硬件流水的协同工作,能够挖掘分组内和分组间的指令级并行性并提高功能单元的利用率.在65nm CMOS工艺下对架构进行了综合仿真,并经过了大量算法映射.实验结果证明,该架构在CBC和ECB加密模式下均具有良好的加密性能.与其他密码处理器相比,该架构具有小面积、高效能的特点. 相似文献

5.

stencil计算在intel+mic众核上的并行优化

《电子技术与软件工程》2016,(17)

stencil(模板计算)是高性能计算领域的七个主要模式之一,stencil计算的计算访存比低,主存带宽受限严重。在高性能计算领域中,处理器正在从多核体系结构设计迈向众核体系结构设计。那么如何在新型众核处理器上将stencil计算的性能提升较高的水平,提高kernel计算的效率,便成为了研究的典型问题。本文通过分析stencil的应用的特点提出了性能优化方法,并对Jacobi和时域有限差分进行了并行化,性能加速明显。相似文献

6.

面向椭圆曲线密码的处理器并行体系结构研究与设计

杨晓辉戴紫彬李淼张永福《通信学报》2011,32(5):70-77

在研究椭圆曲线密码算法的处理特征以及有限域层上的并行调度算法基础上,采用指令级并行和数据级并行方法,提出了面向椭圆曲线密码的并行处理器体系结构模型,并就模型的存储结构进行了分析。基于该模型实现了一款验证原型,在FPGA上成功进行了验证测试并在0.18μm CMOS工艺标准单元库下进行逻辑综合以及布局布线。实验证明提出的并行处理器体系结构既能保证椭圆曲线密码算法应用的灵活性,又能够达到较高的性能。相似文献

7.

基于LS MPP的流处理技术研究

段宗涛沙爱民张燕妮《微电子学与计算机》2008,25(7)

为了提高LS MPP(Li-Shan MPP)系统的性能,并将其纳入新型嵌入式流处理器之中.以LS MPP体系结构为基础,根据嵌入式流处理器概念模型,针对图像处理应用的特征,提出了基于LS MPP的流处理技术.该技术通过定义新型流数据类型和核函数,构造了流处理模型,并分析了以LS MPP为基础提出的嵌入式流处理器概念模型上的流调度的实现方法,为全面提高LS MPP嵌入式流处理器的性能提供了系统软件支持. 相似文献

8.

处理器值预测技术研究

黄立波杨凌杨乾明马胜王永文隋兵才沈立徐炜遐《电子学报》2023,(12):3591-3618

当今的处理器性能与存储器带宽和延迟严重失衡的问题限制了计算系统的整体性能,而存储器的性能对制程工艺不敏感,在后摩尔时代下很难再通过集成电路制造工艺的迭代获得处理器性能收益,因此人们更多地想通过体系结构的创新获得更高性能的计算系统.处理器值预测技术是一种能在无需改变存储系统情况下有效缓解存储墙问题的解决方案,其通过预测性地打破数据真相关进而让更多的指令可以在乱序处理器中并行执行,而无需等待由于访存等操作造成的长周期指令执行.近年来,值预测在各个方面都有了实质性的进步,但现如今还没有商用处理器使用这一技术,这主要是由于值预测技术的使用还面临许多挑战：现有的处理器的流水线架构不能直接使用值预测技术;值预测所需的预测值传递机制需要额外的硬件资源开销;值预测器巨大的存储开销让其很难在片上实现;由于值预测错误时的性能惩罚大,因此预测准确率较低的值预测器会降低处理器性能.针对这些问题,本文以值预测技术为中心,围绕值预测技术相关的流水线架构、值预测器结构和错误恢复机制三个方面分别详细论述了国内外研究成果以及其对于各个问题挑战的解决策略.最后,本文对当今的处理器值预测技术进行了总结并对未来的研究方向进行... 相似文献

9.

RISCV密码专用处理器能效概率模型与体系结构研究

李伟别梦妮陈韬吴艾青南龙梅《电子与信息学报》2022,43(6):1541-1549

该文以高能效为目标,建立了密码专用处理器能效概率模型,并指导高能效密码专用处理器体系结构设计.该文将面向密码领域的专用指令处理器设计空间探索问题描述为"1"值在配置矩阵中的定位问题,通过引入概率矩阵进一步将定位问题转化为最优配置的概率问题,并基于机器学习思想提出了密码专用处理器最高能效概率模型.实验证明,该文提出的能效概率模型平均经过2300次迭代输出最终结果,且预测准确率达到92.7％.根据最高能效概率模型,对密码专用处理器设计空间进行探索,获取满足高能效需求的密码专用处理器运算单元集合,以扩展指令的方式将其集成到开源通用64位RISCV处理器核心Araine中,提出高能效密码专用处理器体系结构.将该处理器在CMOS 55 nm工艺下进行逻辑综合,结果表明,该文提出的RISCV密码专用处理器与扩展前相比面积增大了426874 mm2,关键延迟增加了0.51 ns,完成密码算法总时间面积积增幅之和为0.46,执行常见密码算法能效比在1.61～35.16 Mbps/mW范围内. 相似文献

10.

多级缓存数据预取处理器访存性能测试方法

钟伟军田晨燕《信息技术与标准化》2023,(6):25-29

针对处理器内存访问性能测试缺少对多级缓存数据预取优化而导致测试数据不能真实反映实际性能的问题,分析了多级缓存数据预取优化技术及其对内存访问带宽的影响。提出了一种针对多级缓存处理器的访存性能优化测试方法,该方法充分利用缓存数据预取机制,并避免处理器核间资源竞争,实现访存性能提升。实验数据表明,采用该方法可以得到符合硬件实际访存性能的数据,为准确评估高性能处理器的访存能力提供支持。相似文献

11.

MIPS指令集多核处理器信令处理能力评估

万志涛《电信科学》2011,(Z1)

通用高性能处理器在信令处理上有着广泛的应用,但有功耗较高的缺点。基于MIPS指令集的低功耗多核处理器的能效比较高,但信令处理能力不明确。本文采用密集内存访问的方法对处理器的信令处理能力进行评价。通过对MIPS指令集多核处理器和X86处理器的比较,得出MIPS多核处理器在信令处理能力和功效比上均有优势。以GTP为例在MIPS架构多核处理器和X86架构处理器上分别实现并进行性能测试。测试结果表明本文所述性能评价方式比较合理,同时也证明MIPS多核处理器可以用作信令处理,能效比显著高于通用高性能处理器。相似文献

12.

Decoupled Processors Architecture for Accelerating Data Intensive Applications using Scratch-Pad Memory Hierarchy

Athanasios Milidonis Nikolaos Alachiotis Vasileios Porpodas Harris Michail Georgios Panagiotakopoulos Athanasios P. Kakarountas Costas E. Goutis 《Journal of Signal Processing Systems》2010,59(3):281-296

We present an architecture of decoupled processors with a memory hierarchy consisting only of scratch-pad memories, and a main memory. This architecture exploits the more efficient pre-fetching of Decoupled processors, that make use of the parallelism between address computation and application data processing, which mainly exists in streaming applications. This benefit combined with the ability of scratch-pad memories to store data with no conflict misses and low energy per access contributes significantly for increasing the system’s performance. The application code is split in two parallel programs the first runs on the Access processor and computes the addresses of the data in the memory hierarchy. The second processes the application data and runs on the Execute processor, a processor with a limited address space—just the register file addresses. Each transfer of any block in the memory hierarchy up to the Execute processor’s register file is controlled by the Access processor and the DMA units. This strongly differentiates this architecture from traditional uniprocessors and existing decoupled processors with cache memory hierarchies. The architecture is compared in performance with uniprocessor architectures with (a) scratch-pad and (b) cache memory hierarchies and (c) the existing decoupled architectures, showing its higher normalized performance. The reason for this gain is the efficiency of data transferring that the scratch-pad memory hierarchy provides combined with the ability of the Decoupled processors to eliminate memory latency using memory management techniques for transferring data instead of fixed prefetching methods. Experimental results show that the performance is increased up to almost 2 times compared to uniprocessor architectures with scratch-pad and up to 3.7 times compared to the ones with cache. The proposed architecture achieves the above performance without having penalties in energy delay product costs. 相似文献

13.

Streaming processors for next-generation mobile imaging applications

《Communications Magazine, IEEE》2005,43(12):81-89

Next-generation mobile devices will continue to demand high processing power for imaging applications. The expected performance is in the class of supercomputers, but delivered with limited energy and memory bandwidth for embedded systems. This article advocates a streaming computation model that leverages the deterministic access patterns in imaging applications to deliver the necessary processing throughput. A reconfigurable datapath connects a set of functional units, forming a computation pipeline to offer energy efficiency. The architecture and implementation of a stream processor are presented along with the memory subsystem to support stream data transfers. The results show speedup ranging from a factor of 2 to 28 for imaging applications, offering favorable comparison against scalar processors. 相似文献

14.

多核处理器核间高速通讯架构的研究

汪健张磊王少轩赵忠惠陈亚宁《电子与封装》2011,11(6):41-48

多核处理器使得并行系统的结构日益复杂,已经成为处理器的主流,并发展成为各种通信与媒体应用的主流处理平台.通讯结构是多核系统中的核心技术之一,核间通信的效率是影响多核处理器性能的重要指标.目前有三种主要的通讯架构:总线系统结构、交叉开关网络和片上网络.总线结构设计相对方便、硬件消耗较少、成本较低,交叉开关是适用于构建大容... 相似文献

15.

RDMM: Runtime dynamic migration mechanism of distributed cache for reconfigurable array processor

《Integration, the VLSI Journal》2020

Reconfigurable array processors have emerged as powerful solution to speed up computationally intensive applications. However, they may suffer from a data access bottleneck as the frequency of memory access rises. At present, the distributed cache design in the reconfigurable array processor has a large cache failure rate, and the frequent access to external memory leads to a long delay in memory access. To mitigate this problem, we present a Runtime Dynamically Migration Mechanism (RDMM) of distributed cache for reconfigurable array processor based on the feature of obvious locality and high parallelism in accessing data. This mechanism allows temporary, static data to be dynamically scheduled to migrate data with a high access frequency from the remote cache to the processor's local migration storage table based on how often the reconfigurable array processors access the remote cache. We can accurately get the data on the shortest path by way of data search strategy based on migration storage tables, thereby effectively reducing the access delay of the entire system, increasing the memory bandwidth of the reconfigurable array processor. We leverage the hardware platform of reconfigurable array processor to test the proposed mechanism. The experimental results show that RDMM reduces access delay by up to 35.24% compared with the tradition distributed cache at the highest conflict rate. And compared with the Ref.[19], Ref.[20], Ref.[21] and Ref.[23], the working frequency can be increased by 15%, the hit rate can be increased by 6.1%, and the peak bandwidth can be increased by about 3×. 相似文献

16.

多核系统中NoC通讯架构的关键技术

汪健张磊赵忠惠王少轩陈亚宁《电子科技》2012,25(6):47-52

多核处理器已经成为处理器的主流,并发展成为各种通信与媒体应用的主流处理平台。通讯结构是多核系统中的核心技术之一,核间通信的效率是影响多核处理器性能的重要指标。目前有3种主要的通讯架构:总线系统结构、交叉开关网络和片上网络。总线结构设计相对方便、硬件消耗较少、成本较低;交叉开关是适合用于构建大容量系统的交换网络结构;而片上网络是更高层次、更大规模的片上网络系统,目前可以解决多核体系结构问题,是多核系统最有前途的解决方案之一。文中在分析了NoC结构的基本原理、系统结构和功能的同时,也提供了部分单元的设计实现。相似文献

17.

多维可扩展流体系结构研究与评测

下载免费PDF全文

吴伟文梅伍楠何义杨乾明管茂林荀长庆任巨柴俊张春元《电子学报》2008,36(5):899-905

MASA(Multiple-dimension scalable Stream Architecture)是一种可在多个维度扩展的流体系结构.本文对该体系结构的扩展性进行了深入探讨,分析了簇内、簇间和多核扩展的VLSI资源开销,并通过一组测试程序评测了MASA的性能.结果表明,三个扩展维度形成有利互补,使得MASA流体系结构可支持扩展到单片内集成上千个ALU. 相似文献