期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

黄卉王辉《计算机工程与设计》2008,29(18)

为了适应高速率通信系统的发展要求,Turbo码采用并行译码的结构方式来降低时延.然而在并行Turbo码译码中,交织器的随机特性可能会导致多个数据同时写入同一个存储器,这就造成了存储器的访问冲突.分析了Akberto Tarable提出的无读写冲突问题适合任意交织方式的设计原则,该方法用非规则方法解决了访问冲突问题.仿真结果表明了设计方案的误比特性能. 相似文献

2.

针对嵌入式系统的低功耗存储器管理单元设计

下载免费PDF全文

朱贺飞陆超周晓方闵昊周电《计算机工程》2007,33(5):226-228

针对Linux操作系统，实现了面向32位RSIC嵌入式处理器的低功耗存储器管理单元。通过在指令快表中增加预比较电路，提高了处理器连续访问同一虚拟页面时的地址转换效率，降低指令快表命中时的功耗37.07%。两级比较结构的内容寻址存储器与传统结构相比，在失效和命中时分别可以取得44.98%和74.94%的功耗节省。该文设计的存储器管理单元能够很好地和Linux配合，完成地址映射及存储权限管理。相似文献

3.

Cache优化与矩阵特征值计算的高效实现

甘奇韬刘志勇乔香珍《计算机学报》1998,21(10):956-960

1引言层次存储结构被广泛用于现代计算机系统中来解决高速处理器与低速存储器之间的速度差距问题．高速缓冲存储器（Cache）的出现就是为了平衡处理器与主存储器之间的速度差距．在许多实际应用中，Cache成了提高问题计算速度的关键．如何有效利用Cache也成了计算机研究领域的一个热点．对此，目前有两个研究方向．一个是出干硬件上Cache地址映射方式、替换策略、存储策略、一致性协议等的研究，文献［9」提出以素数运算来替代传统的Cache地址映射方式．文献［8」提出的XOR地址映射方式能大大减少程序对常用的数据访问模式（包括行、列… 相似文献

4.

可并行读写的纳米交叉杆存储器的设计与分析

邓明堂朱玄张玉彬易勋杨学军《计算机研究与发展》2009,46(Z2)

纳米交叉杆结构因其结构简单、制备工艺成熟而成为研究者最为关注的一种纳米存储器件.纳米交叉杆基于具有双稳态性质的纳米器件,有机分子层交叉结构和碳纳米管交叉结构都是比较成熟的纳米交叉结构.基于纳米交叉杆的存储器一般由外围微-纳结构多路选择器和存储阵列组成,要想在高密度存储的基础上实现快速读写必须研究并行读写方法.并行读写的基础是并行寻址,一种可选的并行寻址方式是地址加掩码的模式,这种模式后再加一个筛选向量即可大大增加并行寻址的灵活度.纳米交叉杆存储器的并行写可分为写1和写0两个子过程,安排最佳的并行访问方式是二维平面上的背包问题.并行读过程可以一次将一行或一列的内容读取出来. 相似文献

5.

位平面编码存储优化算法及FPGA设计

李宝峰窦勇《计算机辅助设计与图形学学报》2008,20(12)

提出一种基于子块的存储优化算法,可用于解决现有JPEG2000位平面编码器中存在的访问编码块存储器模式失配问题.采用将编码块划分成4×4的子块独立进行编码的策略,将访问同一小波系数的时间间隔从3N2Δt减少至48Δt,同时将访问编码块存储器的次数从(3K-2)N2降低至N2W.该算法不仅兼容现有各种加速技术,而且增加了子块并行的机会.基于FPGA平台实现了一种子块并行合并样本并行的位平面编码器结构,能够将编码时间复杂度从O(N2)降低至O(N),同时节省状态信息存储39%以上.实验结果表明,与目前最快的三层并行结构相比,文中设计的加速比达到了1.3. 相似文献

6.

并行无冲突存储器的存储模式 总被引：1，自引：0，他引：1

方浩《计算机研究与发展》1988,(11)

本文着重讨论在怎样的存储模式下,并行存储器能最有效地实现二维方阵的无冲突访问,且使调整网络NW_1和NW_2较易实现;同时对任意阶方阵的存储模式进行了研究,给出一个重要的构造定理;最后利用4阶方阵构造一个由16个存储体组成,能实现并行无冲突访问的存储模式及调整网络,使其没有存储单元冗余、实现方便等优点。相似文献

7.

一种面向多核DSP的小容量紧耦合快速共享数据池 总被引：7，自引：0，他引：7

陈书明汪东陈小文万江华《计算机学报》2008,31(10)

该文结合片上便笺式存储器(SPM)的结构特点,提出了一种面向异构多核DSP的新型小容量紧耦合共享存储结构——快速共享数据池(FSDP).FSDP在存储层次上与一级Cache平行,可以被访存指令直接访问,采用多体并行的结构、交叉访问模式和基于硬件信号灯的自动同步机制,支持多个DSP核的并行访问与快速的核间数据交换,两核之间交换单个数据只需4拍.该文构建了FSDP的模拟模型,并进行了RTL级设计实现和分析.多种典型测试程序的验证表明,FSDP对于DSP核间细粒度共享数据的传输具有很高的效率,相比同类的VS-SPM结构能够将程序性能提高37%,与传统的共享数据Cache结合使用能够将异构多核DSP的性能提高13%. 相似文献

8.

用非线性存储方案设计SIMD计算机的一般方法

佟冬方滨兴胡铭曾《计算机研究与发展》2000,37(2):194-200

非线性存储方案能在处理单元数等于存储体数的情况下,使ＳＩＭＤ机实现多种访存模式无冲突,提高其整体性能,文中提出一种用线性存储方案设计ＳＩＭＤ一般方法,在存储方案给定的前提下,针对有限的模板集设计出同时满足存储器访问无冲突和互联网的并行结构,首先,用布尔向量空间表示模板,并指出模板与ＬＣ置换的对应关系,在此基础上,提出设计局部地址生成逻辑和增强的间接二进制Ｎ方体网络的方法,由于板集中任意的访存方式相似文献

9.

分块内存的数据分布优化

王向前洪一郑启龙《小型微型计算机系统》2015,(4):815-819

为了提高访存效率,提供可以与计算流水线并行执行的多个独立的访存流水线,魂芯DSP片上存储器设计时采用分块内存结构,并在核内提供多个独立的地址生成单元用于访存操作.针对分块内存的结构特点,编译器对程序中的存储访问构建关于变量的冲突图,对分块内存进行存储块分配,优化数据在分块内存的分布.以数据在分块内存的优化分布为基础,指导程序中访存操作在地址生成单元的优化分配,使得编译器生成的代码可以最大程度地挖掘程序中数据访问的并行性.实验表明,基于分块内存的数据分配分布优化为其它优化如地址寄存器的分簇、访存向量化、软件流水等经典优化提供了良好基础,保证了编译器生成的代码可以充分发挥魂芯DSP提供的指令级并行能力. 相似文献

10.

主流微型计算机硬件系统维护常见问题解答

《电脑编程技巧与维护》2005,(11):92-93

?电脑对系统内存的基本要求是什么 !计算机内的存储器按其用途可分为主存储器和辅助存储器.主存储器又称内存储器,简称内存,辅助存储器简称外存. 内存实质上是一组或多组具备数据输入输出和数据存储功能的集成电路.内存按存储信息的功能可分为只读存储器、可改写的只读存储器EPROM和随机存储器.我们平常所说的内存,其主要作用是存放各种输入、输出数据和中间计算结果,以及与外部存储器交换信息时作缓冲作用.由于CPU只能直接处理内存中的数据,所以内存的速度和大小对计算机性能的影响是相当大的. 相似文献

11.

Improving performance by creating a native join-index for OLAP

Yansong Zhang Shan Wang Jiaheng Lu 《Frontiers of Computer Science in China》2011,5(2):236-249

The performance of online analytical processing (OLAP) is critical for meeting the increasing requirements of massive volume analytical applications. Typical techniques, such as in-memory processing, column-storage, and join indexes focus on high performance storage media, efficient storage models, and reduced query processing. While they effectively perform OLAP applications, there is a vital limitation: mainmemory database based OLAP (MMOLAP) cannot provide high performance for a large size data set. In this paper, we propose a novel memory dimension table model, in which the primary keys of the dimension table can be directly mapped to dimensional tuple addresses. To achieve higher performance of dimensional tuple access, we optimize our storage model for dimension tables based on OLAP query workload features. We present directly dimensional tuple accessing (DDTA) based join (DDTAJOIN), a technique to optimize query processing on the memory dimension table by direct dimensional tuple access. We also contribute by proposing an optimization of the predicate tree to shorten predicate operation length by pruning useless predicate processing. Our experimental results show that the DDTA-JOIN algorithm is superior to both simulated row-store main memory query processing and the open-source column-store main memory database MonetDB, thanks to the reduced join cost and simple yet efficient query processing. 相似文献

12.

一种基于硬件的大规模哈希流表设计与实现

王鑫陈曙晖苏金树《计算机工程与科学》2016,38(10):1955-1960

基于流的报文处理是防火墙、入侵检测等网络安全应用的重要组成功能,其中流表是流处理技术的关键数据结构,流表的规模及访问性能直接影响到流处理的能力和速度。着眼于高速网络下大规模流表的硬件实现,设计了一种基于硬件的千万级哈希流表查找架构,并在FPGA平台上进行了实现和测试。该方案在保证访存效率的同时很好地解决了冲突的难题,利用有限的存储资源,满足了高达4 900万项的流表查找需求,测试能够实现92Mdesc/s的表查找速度,支持约220Gbps高速以太网的处理能力。相似文献

13.

Correlation prefetching with a user-level memory thread

Solihin Y. Lee J. Torrellas J. 《Parallel and Distributed Systems, IEEE Transactions on》2003,14(6):563-580

This paper proposes using a user-level memory thread (ULMT) for correlation prefetching. In this approach, a user thread runs on a general-purpose processor in main memory, either in the memory controller chip or in a DRAM chip. The thread performs correlation prefetching in software, sending the prefetched data into the L2 cache of the main processor. This approach requires minimal hardware beyond the memory processor: The correlation table is a software data structure that resides in main memory, while the main processor only needs a few modifications to its L2 cache so that it can accept incoming prefetches. In addition, the approach has wide applicability, as it can effectively prefetch even for irregular applications. Finally, it is very flexible, as the prefetching algorithm can be customized by the user on an application basis. Our simulation results show that, through a new design of the correlation table and prefetching algorithm, our scheme delivers good results. Specifically, nine mostly-irregular applications show an average speedup of 1.32. Furthermore, our scheme works well in combination with a conventional processor-side sequential prefetcher, in which case the average speedup increases to 1.46. Finally, by exploiting the customization of the prefetching algorithm, we increase the average speedup to 1.53. 相似文献

14.

Region-based parallelization of irregular reductions on explicitly managed memory hierarchies

Seonggun Kim Hwansoo Han Kwang-Moo Choe 《The Journal of supercomputing》2011,56(1):25-55

Multicore architectures are evolving with the promise of extreme performance for the classes of applications that require high performance and large bandwidth of memory. Irregular reduction is one of important computation patterns for many complex scientific applications, and it typically requires high performance and large bandwidth of memory. In this article, we propose region-based parallelization techniques for irregular reductions on multicore architectures with explicitly managed memory hierarchies. Managing memory hierarchy in software requires a lot of programming efforts and tends to be error-prone. The difficulties are even worse for applications with irregular data access patterns. To relieve the burden of memory management from programmers, we develop abstractions, particularly targeted to irregular reduction, for structuring parallel tasks, mapping the parallel tasks to processing units and scheduling data transfers between the memory hierarchies. Our framework employs iteration reordering based on regions of data along with dynamic scheduling of parallel tasks. We experimentally evaluate the effectiveness of our techniques for irregular reduction kernels on the Cell processor embedded in a Sony PlayStation3. Experimental results show the speedups of 8 to 14 on the six available SPEs. 相似文献

15.

NUMA感知的持久内存存储引擎优化设计

屠要峰陈河堆王涵毅闫宗帅孔鲁陈兵《软件学报》2022,33(3):891-908

持久性内存(persistmemory,PM)具有非易失、字节寻址、低时延和大容量等特性,打破了传统内外存之间的界限,对现有软件体系结构带来颠覆性影响.但是,当前PM硬件还存在着磨损不均衡、读写不对称等问题,特别是当跨NUMA(nonuniformmemoryaccess)节点访问PM时,存在着严重的I/O性能衰减问题.提出了一种NUMA感知的PM存储引擎优化设计,并应用到中兴新一代数据库系统GoldenX中,显著降低了数据库系统跨NUMA节点访问持久内存的开销.主要创新点包括:提出了一种DRAM+PM混合内存架构下跨NUMA节点的数据空间分布策略和分布式存取模型,实现了PM数据空间的高效使用;针对跨NUMA访问PM的高开销问题,提出了I/O代理例程访问方法,将跨NUMA访问PM开销转化为一次远程DRAM内存拷贝和本地访问PM的开销,设计了Cache Line Area (CLA)缓存页机制,缓解了I/O写放大问题,提升了本地访问PM的效率;扩展了传统表空间概念,让每个表空间既拥有独立的表数据存储,也拥有专门的WAL (write-ahead logging)日志存储,针对该分布式WA... 相似文献

16.

PC机主存储器组成结构分析与设计

米根锁王瑞峰《微机发展》2006,16(10):205-206

从DRAM的发展及应用特点出发,针对使用DRAM构成计算机主存时应解决的主存空间及寻址、多体交叉访问构成并行主存结构、动态刷新等问题,以采用DRAM控制器W4006AF构成80386微机主存的设计为例,对主存的构成及工作原理进行了详细分析,对于分析和设计计算机主存具有很好的参考价值。相似文献

17.

基于Cell多核处理器的层次化运行时支持技术

董小社冯国富王旭昊冯景华胡雷钧《计算机研究与发展》2010,47(4)

基于Cell处理器的异构多核架构及软件显式管理的多级存储层次,使其面临编程困难和性能难以有效发挥等问题.现有基于Cell/B.E.的编程模型多侧重于支持类似于流处理的批量访存(bulk data transfer)应用,传统非规则访存应用性能较低.通过扩展Cell/B.E.访存库增强协处理单元的自主作用,以协处理单元为中心建立Cell计算平台上的MPI和弱一致性Pthread分层并行编程运行时支持.分层的运行时支持结构及扩展后的Cell/B.E.访存库使模型具有更好的效率和可扩展性,并且提高了非规则应用的性能;模型中的MPI方便了大量传统并行应用向新架构的移植及开发,而弱一致性Pthread则为MPI提供高效的任务运行时管理支持及为系统级用户提供对架构全面控制的编程接口.实验结果表明,提出的运行时支持技术不仅可适应不同应用的要求,同时借助访存库中的剖分优化机制可有效地挖掘Cell/B.E.架构性能. 相似文献

18.

一种支持多种访存技术的CBEA片上多核MPI并行编程模型 总被引：1，自引：0，他引：1

冯国富董小社胡冰王旭昊王恩东《计算机学报》2008,31(11)

现有的CBEA(Cell Broadband Engine Architecture)编程模型多侧重于支持类似于流处理的"批量访存"(Bulk Data Transfer)应用,传统非规则访存应用性能较低.文中基于Cell架构提出了一种同时支持"批量访存"与非规则访存应用的MPI并行编程模型,将通信分解在PPE(PowerPC Processing Element)上,拓宽模型的适用范围;在统一访存接口下,通过运行时访存剖分信息指导选择和优化访存以提高计算效率.实验结果表明,文中提出的编程模型支持多种访存模式并具有很好的并行加速比,可获得较同类相关技术30%~50%左右的性能提升. 相似文献

19.

High availability,elasticity, and strong consistency for massively parallel scans over relational data

Philipp Unterbrunner Gustavo Alonso Donald Kossmann 《The VLDB Journal The International Journal on Very Large Data Bases》2014,23(4):627-652

An elastic and highly available data store is a key component of many cloud applications. Existing data stores with strong consistency guarantees are designed and optimized for small updates, key-value access, and (if supported) small range queries over a predefined key column. This raises performance and availability problems for applications which inherently require large updates, non-key access, and large range queries. This paper presents a solution to these problems: Crescando/RB; a distributed, scan-based, main memory, relational data store (single table) with robust performance and high availability. The system addresses a real, large-scale industry use case: the Amadeus travel management system. This paper focuses on the distribution layer of Crescando/RB, the problem and theory behind it, the rationale underlying key design decisions, and the novel multicast protocol and replication framework it is composed of. Highlighting the key features of the distribution layer, we present experimental results showing that even under permanent node failures and large-scale data repartitioning, Crescando/RB remains fully available and capable of sustaining a heavy query and update load. 相似文献

20.

基于ARMv8处理器的高性能图像处理算法实现与优化研究

韦存阳贾海鹏张云泉曲国远魏大洲张广婷《计算机工程与科学》2022,44(10):1711-1720

色彩空间转换、图像缩放、图像滤波都是图像处理领域常见的算法,广泛应用于数字媒体、数据通信、生物医学和航空航天等领域。目前上述算法在ARM处理器上虽有开源的OpenCV库,但缺少与Intel IPP库精度相当的高性能图像处理库。为此,根据算法的计算访存特征,将上述算法分为数据无关算法、数据共享算法及非规则访存算法3类,提出了不同类别算法在ARMv8计算平台上的优化方法体系,最终构建了一个基于ARMv8计算平台的高性能图像处理算法库,精度上对标Intel IPP库,并通过算法优化、访存优化、SIMD优化及汇编指令优化等一系列优化方法的应用,大幅提升了图像处理算法的性能。实验结果表明,在华为鲲鹏920计算平台上,重点优化的CvtColor、Filter和Resize模块性能较OpenCV算法库都有显著提升。相似文献