首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
有限的片外存储带宽是制约流处理器性能提升的瓶颈之一,流存储系统已经采用了多种方式来缓解这个问题,但当前的设计并没有充分考虑应用具体的访存模式对有效带宽利用率的影响.通过分析和实验,评估流存储系统主要设计参数对不同访存模式的优化效果;在此基础上针对不同的流访问并行度提出了相应的结构改进,加入宽发射和短作业优先调度支持,充分挖掘存储访问的局部性和并行性,改善了负载平衡,从而有效地提高了片外带宽的使用效率和流程序的整体性能.  相似文献   

2.
基于SATA的嵌入式直接存储系统   总被引:1,自引:0,他引:1       下载免费PDF全文
王超  刘伟  张德聪 《计算机工程》2012,38(12):232-235
研究嵌入式高速存储系统的应用问题,分析传统数据存储系统存在的不足,提出一种基于SATA的嵌入式直接存储系统设计方法。该方法参照完整实现SATA物理层和链路层协议,根据嵌入式存储需求组合SATA传输层和应用层协议建立DMA控制模块,在现场可编程门阵列中构建符合SATA标准的存储通道。SATA存储通道实现数据到SATA存储设备的直接存储,通过扩展SATA存储通道实现存储系统带宽及容量的扩展。实验结果表明,该方法能解决带宽瓶颈和通用性问题,达到良好的存储效果。  相似文献   

3.
鉴于高速数据采集系统对实时数据存储带宽和容量的要求,提出一种基于现场可编程门阵列(FPGA)的高速多通道并行固态存储系统。该系统以现场可编程门阵列器件XCV5LX110T为核心,选用大容量高速闪存芯片作为存储介质,通过采用并行总线拓宽技术和流水线缓冲技术,在FPGA片内搭建高速多通道并行存储硬件架构,从硬件角度提高系统的数据吞吐带宽。设计一种基于超级页的地址映射策略,并使用该策略对闪存转换层算法的请求处理机制进行并行加速优化,从软件角度提高系统的存储并行性。测试结果表明,该系统的最大存储速度达到73MB/s,其性能指标能满足高速实时数据存储的需求,证明多通道存储架构和FTL算法具有良好的并行性和可扩展性。  相似文献   

4.
在高速数据采集存储系统中,随着数据存储速度需求越来越高,数据带宽和计算能力的快速增长,存储性能越来越成为系统性能的瓶颈。为此,设计并实现一个基于在线压缩的数据采集存储系统。该系统通过提供一套简单的API,实现自身的灵活性以及高可集成性。系统允许用户注册自己的压缩算法,同时向用户屏蔽压缩数据的管理,并且对数据压缩以及存储过程进行优化。实验结果表明,在数据达到一定压缩率情况下,该系统显著地减少数据存储时间,提高了系统的存储速率,同时提高了存储空间利用率。  相似文献   

5.
国际     
IBM推出System Storage DS4700 Express 高带宽中端存储系统 IBM系统存储推出采用业界领先的前后端每秒4Gbps技术的 IBM System Storage DS4700 Express高带宽存储系统。这种新的中端存储系统主要针对中小型企业(SMB)设计和定价,  相似文献   

6.
高分辨宽带雷达高速数据大容量存储系统设计   总被引:1,自引:1,他引:0       下载免费PDF全文
随着现代高分辨雷达带宽的不断提高,雷达系统对大批量数据传输和存储速度有了更高的要求。采用光纤通道磁盘阵列实现大容量雷达数据的存储,通过设计高速CompactPCI总线接口实现雷达数据到主机的数据传输,利用CompactPCI平台实现了大容量数据的高速存储。设计的存储系统实际测试存储速度达到155.6 MB/s,已能满足目前大部分高分辨雷达宽带数据去斜采集的存储要求。  相似文献   

7.
将基于现场可编程门阵列(FPGA)的改进Cholesky分解应用于大规模线性方程组求解时,会出现存储资源限制和带宽瓶颈问题.为此,提出一种基于层次化存储策略和多端口分块式访问方式的解决方案.结合片内双极随机存取存储器(BRAM)与片外同步动态随机存取存储器(SDRAM),构成分层存储结构,通过片内存储复用降低存储资源需求.采用多端口分块式方式访问片外SDRAM,提高带宽并规避随机数据存取的访问延迟.测试结果表明,相对于Xeon CPU,该方案能够实现17倍~215倍的效率提升.  相似文献   

8.
设计和实现了一种具有适应能力的虚拟存储系统--AVSS,同时提供存储系统容量虚拟化和性能虚拟化管理.AVSS具有如下特征:1)采用扩展的YFQ算法控制带宽资源分配.实现虚拟设备间的性能隔离和性能保证;2)采用分级结构和动态映射机制灵活有效地管理异构存储资源,为资源按需分配提供基础;3)通过数据访问频度统计和应用动态行为分析指导存储布局重组.测试结果表明了设计的正确性,AVSS能够隔离不同应用避免性能干扰,可以按照应用行为调整存储布局,在提高存储系统性能的同时提高了存储资源的利用率.  相似文献   

9.
通过将云计算技术应用于近线存储领域,设计实现了基于Hadoop分布式文件系统(Hadoop distributed file system,HDFS)的海量近线存储系统,用以扩展TH-1A超级计算机在线存储系统空间,提高系统利用率.该系统采用胖存储节点(大型的存储服务器)构建基于HDFS的近线存储集群,通过ZFS文件系统来解决HDFS存在的低效和空间利用率低的问题,采用双副本冗余、虚拟存储、动态管理等方法优化存储服务器存储和管理效率,提高了近线存储系统性能.实验结果表明,与传统HDFS集群存储系统相比,该系统在可靠性、经济性及灵活性上均具有一定的优势.  相似文献   

10.
分布式存储技术因其良好的可扩展性、高性价比在当前云存储系统和企业存储中心得到广泛应用.在分布式存储系统中进行内嵌删冗可以有效降低系统存储开销,提高数据存取效率,实现内嵌删冗的关键在于高性能和可扩展的元数据索引方法.该方法应确保删冗操作不影响存储性能.通过分析影响索引性能的关键因素,提出一种分布式相似文件元数据集合索引的构建方法.该方法使用位置敏感Hash函数,将具有相同数据片的相似文件元数据组成集合并建立索引,使一个文件所有数据片元数据检索只需要访问一次外存,有效提高元数据检索效率.并且所生成的索引具有良好可扩展性和很小的内存开销,适合在采用分布式存储结构的云存储系统或者企业存储系统中进行应用.  相似文献   

11.
洪途  景乃锋 《计算机工程》2021,47(2):239-245
粗粒度可重构阵列架构兼具灵活性和高效性,但高计算吞吐量的特性也会给访存带来压力。在片下动态存储器带宽相对固定的情况下,设计一种存算解耦合的访存结构。将控制逻辑集成在轻量级的存储空间中,通过可配置的存储空间隔离访存和计算的循环迭代,从而掩盖内存延时,同时利用该结构进行串联和对齐操作,以适配不同的计算访存频率比并优化间接访问过程。实验结果表明,该访存结构在目标架构中能够获得1.84倍的性能优化,其中乱序操作可使间接访问得到平均22%的性能提升。  相似文献   

12.
Bridging the processor-memory performance gap with 3D IC technology   总被引:1,自引:0,他引:1  
Microprocessor performance has been improving at roughly 60% per year. Memory access times, however, have improved by less than 10% per year. The resulting gap between logic and memory performance has forced microprocessor designs toward complex and power-hungry architectures that support out-of-order and speculative execution. Moreover, processors have been designed with increasingly large cache hierarchies to hide main memory latency. This article examines how 3D IC technology can improve interactions between the processor and memory. Our work examines the performance of a single-core, single-threaded processor under representative work loads. We have shown that reducing memory latency by bringing main memory on chip gives us near-perfect performance. Three-dimensional IC technology can provide the much needed bandwidth without the cost, design complexity, and power issues associated with a large number of off-chip pins. The principal challenge remains the demonstration of a highly manufacturable 3D IC technology with high yield and low cost.  相似文献   

13.
随着计算机应用领域不断拓展,流媒体应用及科学计算正成为微处理器的一种重要负载.流媒体应用的特征是大量的数据并行、少量的数据重用以及每次访存带来的大量计算.因为带宽的限制,传统的微处理器结构很难满足这些特点.X处理器是一款流处理器,针对流应用特点,X处理器采用了新型的三级流式存储层次:局部寄存器文件、流寄存器文件和片外存储器,有效解决了带宽问题.本文在模拟平台采用了两种方法(RS码和测试程序)测试,验证了流存储层次解决带宽瓶颈的有效性,也证明了设计的正确性.  相似文献   

14.
存储器的访问调度策略是复杂的,不仅仅要考虑具体的电路时序参数,还有访存节拍数。在分析DRAM的特点以及访存调度策略的基础上,考虑DDR3时序规范,提出一种改进的蚁群优化访问调度策略。采用不同的trace作为测试,同贪婪式调度算法作比较,该算法可以有效降低平均总延迟、提高带宽利用率。  相似文献   

15.
基于孙子定理,本提出一个素数存储系统方案。该方案既不浪费存储空间,且为实本系统仅需计算“dmodp”,而无需计算商。因此,本系统是一高效存储方案。  相似文献   

16.
Accessing pixels in memory is a well-known bottleneck of SIMD (single instruction multiple data) processors in video/imaging. To tackle it, we propose new block and row access modes of parallel on-chip memory subsystem, which enable a higher processing throughput and lower energy consumption than the access modes of the state-of-the-art subsystems. The new access modes significantly reduce the number of on-chip memory accesses, and thereby accelerate one of key video/imaging kernels: sub-pixel block-matching motion estimation. The main idea is to exploit spatial overlaps of blocks/rows accessed for pixel interpolation, which are known at the subsystem design-time, and merge multiple accesses into a single one by accessing somewhat more pixels at a time than with other parallel memories. To avoid the need for a wider, and, therefore, more costly SIMD datapath, we propose new memory read operations that split all pixels accessed at a time into multiple SIMD-wide blocks/rows, in a convenient way for further processing. As a proof of concept, we describe a parametric, scalable, and cost-efficient architecture that supports the new access modes. The architecture is based on a previously proposed set of memory banks with multiple pixels per bank word, and a previously proposed shifted scheme for arranging pixels in the banks. We analytically and experimentally demonstrate advantages of this work on a case study of sub-pixel motion estimation for video frame-rate conversion. The implemented motion estimator processes 2160p video at 60 fps in real time, while clocked at 600 MHz. Compared to the implementations based on the state-of-the-art subsystems, this work enables 40–70 % higher throughput, consumes 17–44 % less energy and has similar silicon area and off-chip memory bandwidth costs. That is 1.8–2.9 times more efficient than the prior art, considering the throughput and all costs, i.e., consumption, area, and off-chip bandwidth. Such a higher efficiency is the result of the new access modes, which reduced the number of on-chip memory accesses by 1.6–2.1 times, and the cost-efficient architecture.  相似文献   

17.
Memory interleaving and multiple access ports are the key to a high memory bandwidth in vector processing systems. Each of the active ports supports an independent access stream to memory among which access conflicts may arise. Such conflicts lead to a decrease in memory bandwidth and consequently to longer execution times.

We present some analytical results regarding the access in vector mode to an interleaved memory system. In order to demonstrate the practical effects of our analytical results we have done time measurements of some simple vector loops on a 2-CPU, 16-bank CRAY X-MP. By corresponding simulations we obtained the number and type of memory conflicts that were encountered.  相似文献   


18.
受到孔雀哈希与分段哈希算法的启发,提出了一种新的倒插入分段哈希表。该算法从改变表的操作顺序及修改孔雀哈希数据结构着手,保证了片外访问的平均次数接近于1。分析与实验表明,该算法具有较高的效率,降低了内存开销。  相似文献   

19.
在现代处理器中,存储控制器是处理器芯片对片外存储器进行访问的管理者和执行者,其中对访存过程的调度算法会对实际访存性能产生十分重要的影响。针对已有调度算法在不同负载特征下自适应性不足的问题,提出了一种基于强化学习方法的ALHS算法,通过对访存调度中页命中优先时的连续页命中上限次数进行自适应调整,习得最优策略。多种不同典型访存模式的模拟结果显示,相比传统的FR-FCFS,ALHS算法运行速度平均提升了10.98%,并且可以获得近似于最优策略的性能提升,表明该算法能够自主探索环境并自我优化。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号