首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
针对函数调用中上下文切换产生的性能损失,提出一种支持程序无缝切换的嵌入式处理器高性能硬件堆栈.高性能硬件堆栈包括数据栈和返回栈,采用动态可重构的两级缓存机制,消除程序切换的性能开销.数据栈实现单周期多数据压栈/出栈,隐藏程序切换中的堆栈操作;返回栈实现指令超前预取,消除程序返回时流水线气泡.数据栈与返回栈分别复用数据和指令高速暂存器,实现用户可重构的二级缓存.实验结果显示:本方法平均提升性能10%以上,功耗降低2%.  相似文献   

2.
针对现代嵌入式处理器中指令高速缓存功耗显著的问题,提出一种基于Cache行间访问历史链接关系的指令高速缓存低功耗方法.通过创建独立可配置的顺序及跳转链接表项,利用链接表项中缓存的历史信息,消除Cache行间访问时对标志位存储器和冗余路数据存储器的访问功耗.进一步提出可复用的链接状态单元,克服了传统方法中由于缓存缺失引起的清空和重建链接表项的缺陷,显著降低了指令高速缓存访问功耗.实验表明,与传统指令高速缓存相比,本方法在取指单元面积仅增加1.35%的情况下,可平均减少标志位存储器访问次数96.38%.  相似文献   

3.
利用基地址相关的低功耗数据cache设计   总被引:2,自引:0,他引:2  
为了减少以地址偏移为主要寻址方式的精简指令处理器中数据cache的功耗,提出了充分利用读写指令相对于基 地址的关联性,减少对cache的数据存储器和标志存储器的访问次数.通过建立两个数据结构来保存组选择信息:一个与 通用寄存器一一对应的有效位表用来保证基地址仍然维持在原cache行;一个组选择信息表用来记录最近的cache访问的 组选择信息,减少比较代价.该方法适用于多个组的组关联cache和可锁定的cache设计,已被应用于200 MHz的精简指令 集(RISC)处理器中.该处理器采用TSMC0.18μm工艺,对一些基准程序进行了测试,结果显示该方法可以节省大约30% 的数据cache功耗,还具有硬件代价小的优点  相似文献   

4.
该文设计了一种OTP存储控制器电路,通过操作OTP存储器指令产生对应不同操作的接口时序,完成对OTP存储器的编程、读取、唤醒、复位、睡眠等操作。同时,在对OTP存储器编程操作中,针对OTP编程易出错的问题,设计了一种编程算法,即对OTP编程地址进行冗余处理,并在编程操作中对同一个地址多次施加脉冲电压,使编程至OTP存储器的数据的正确性急剧提高。嵌入编程算法电路实现了高可靠性的编程算法,有效地控制了OTP存储器的编程操作。因此,本该设计的高可靠性OTP存储控制器解决了访问存储器时容易出现编程错误的问题,提高了访问OTP存储器的可靠性。  相似文献   

5.
分析了几种常见的IP地址查找的方法,详细介绍了一种采用特定哈希算法技术来尽量缩减IP转发表的大小的方法。通过完美哈希算式,将IP地址生成为哈希表,采用这种方法能够有效地减少查找时的内存访问次数。构造一个8—8—8—8路由表的数据结构,并采用哈希算法来改进IP地址查找。结果表明用此方法来访问大型路由表要比其他目前常见方法所需的内存少。  相似文献   

6.
为了实现实时语音处理,利用FPGA并行访问的特性,采用低地址物理存储空间由FPGA可配置逻辑模中的存储资源实现;高地址的物理存储空间由存储阵列实现,设计了动态置换算法来控制逻辑地址空间到物理空间的映射,将频繁访问且冲突概率高的数据块映射到低地址的物理存储空间上。实验数据表明,采用并行访问控制的动态置换算法能够实现稳定的访存性能。  相似文献   

7.
XML数据过滤过程中存在的缓存失效会导致过滤效率的降低,因此研究基于确定有限自动机的XML数据过滤过程中如何减少缓存失效对于改进过滤的性能具有重要意义.对已有的Lazy DFA执行算法进行改进,引入了频繁访问区的概念,对缓存中的状态增加一个状态转换计数器,然后通过设定该计数器的访问阈值对缓存中的数据进行筛选,超过该阈值的状态被确定为频繁访问区中的状态.并通过实验证明该访问机制可以减少自动机中状态转移过程在缓存大量状态中的搜索时间,从而有效地提高过滤和查询的时间性能.  相似文献   

8.
一种实现任意基FFT的快速整序算法   总被引:3,自引:3,他引:0  
提出了一种数据整序快速算法,能对任意基FFT变换的数据进行快速整序。该算法对数据进行循环嵌套分组,简化了数据交换的判断条件,并减少了求解数据序号位倒序值的运算量。计算结果表明,当数据规模越大,该算法的数据整序时间较其他算法越少,并使基2-FFT的运算时间较用其他整序算法时减少1.3%~4%。较用直接整序方法时减少7%~19%。  相似文献   

9.
传统Web挖掘技术面向所有Web用户,而访问网站时活跃用户与非活跃用户表现特征不同.基于此,提出一种面向活跃用户的访问模式挖掘方法,包括活跃用户会话提取算法(AUSM)和树型访问模式挖掘算法(WAPBUM).AUSM扫描一遍日志数据即可挖掘Web活跃用户并提取会话信息,在提取的用户会话信息基础上,利用网站拓扑结构给出了一种基于树结构的频繁访问模式挖掘算法(WAPBUM).WAPBUM针对Web日志挖掘特点,通过对子树构造等价类,自下而上产生频繁子树.人工数据集和真实数据集上的实验都证明AUSM算法的运行时间与Web日志数据量成线性关系,且运行过程中内存保持稳定;WAPBUM在处理带根子树挖掘时明显快于FREQT算法,所挖掘结果可有效应用于网站结构分析.  相似文献   

10.
为了充分利用快递面单中所包含的时间、地址、物品等信息对城市进行数据分析,基于大量城市历史快递数据,提出一种城市画像系统框架. 通过数据补全、地址转换、物品类型提取以及数据格式转换等方法,对多家快递公司的数据进行汇聚和预处理. 提出寄递频次、寄递时间、寄递地址、寄递物品4个分析指标,基于西安市真实历史数据集,分别对城市中不同社会群体与城市区域的快递数据进行分析,并基于数据分析结果进行城市画像;结合社会实际情况对分析结果中存在的规律与异常情况作出合理解释,通过可视化平台对城市画像内容进行集成与演示. 结果表明,采用提出的城市画像系统能够发现不同社会群体和区域之间存在的寄递行为规律与异常.  相似文献   

11.
为了提升基于码通并行的熵编码速度,提出了一种新的实时码流控制算法.该算法采用基于码通失真权重的失真模型估计失真,并行地调整三码通斜率,将斜率调整后的预备截断码通信息存储在查找表1中,并将预备截断点在表1中的首地址和最后一个截断码通相对于该地址的偏移量存储在查找表2中,通过更新和搜索两张查找表,动态地生成斜率门闸.实验结果表明,该算法节省了存储面积,减少了存储器访问次数,降低了计算复杂度.与JPEG2000评估软件模型相比,使用该算法重构的图像质量只下降了大约0.3 dB,在低比特图像压缩情况下,码通并行的熵编码执行时间可减少50%以上.  相似文献   

12.
针对物联网智能终端的低功耗需求,提出了一种基于内存控制器扩展的低功耗混合内存系统.使用动态随机存储器和相变存储器构成混合内存结构,通过在内存控制器中添加迁移控制模块对混合内存进行管理.设计了一种改进的双队列算法,筛选出相变存储器中写请求较多的内存页面,并通过地址映射模块和迁移控制模块将写请求较多的页面从相变存储器迁移到动态随机存储器中,规避相变存储器写操作的缺陷,从而实现对低功耗混合内存系统的性能优化.仿真结果表明,与动态随机存储器构成的内存系统相比,混合内存系统的功耗延时积平均降低了43.9%,在面向边缘计算的应用场景中具有一定的可行性.  相似文献   

13.
针对原生的iSCSI目标端控制器缺乏独立的缓存模块问题,为了进一步提高存储区域网的整体性能,在iSCSI target软件中引入了一种基于闪存的融合缓存机制FusionCache.FusionCache利用闪存和DRAM组成统一的融合缓存架构,闪存充当DRAM的扩展空间,DRAM分为缓存块元数据区和前端缓存区.元数据区基于基数树管理缓存块元数据,用于加速缓存块的查找;前端缓存区基于回归拟合统计并预测缓存块访问热度,并吸收大量写入对闪存带来的冲击,只允许热点数据进入闪存.FusionCache采用改进的LRU算法对缓存块进行替换,并且在写回过程中考虑iSCSI会话状态.实验结果表明:FusionCache能降低对后端磁盘设备的访问频率,提高I/O响应的速度和吞吐.与只采用DRAM的缓存机制以及原生iSCSI target相比,FusionCache的I/O访问延时分别降低了33%和60%,吞吐分别提高了25%和54%;相较于Facebook提出的Flashcache机制,FusionCache的吞吐性能提高了18%,延时降低了27%;FusionCache还具有良好的读缓存命中率;此外,FusionCache能够减少闪存的写入次数,提高闪存使用寿命.FusionCache提供良好的网络存储效率,并且降低了使用成本.  相似文献   

14.
采用非易失性存储芯片组成存储矩阵,通过并口对其进行数据读写,解决了实时工业控制系统中大容量移动存储器的问题。同时,在芯片中定义了一套非标准的文件系统和文件目录表(FDT),使用多维地址转换的FAT寻址方式及较完善的文件压缩解压算法,可在Windows98/Me,Windows2000/XP,DOS多平台下实现文件管理,拓宽了存储器的应用范围。  相似文献   

15.
针对高速数字信号处理的要求,提出用FPGA实现基-4FFT算法,并对其整体结构、蝶形单元进行了分析.采用蝶算单元输入并行结构和同址运算,能同时提供蝶形运算所需的4个操作数,具有最大的数据并行性,能提高处理速度;按照旋转因子存放规则,蝶形运算所需的3个旋转因子地址相同,且寻址方式简单;输出采取与输入相似的存储器;运算单元同时采用3个乘法的复数运算算法来实现.  相似文献   

16.
针对高速数字信号处理的要求,提出用FPGA实现基-4 FFT算法,并对其整体结构、蝶形单元进行了分析.采用蝶算单元输入并行结构和同址运算,能同时提供蝶形运算所需的4个操作数,具有最大的数据并行性,能提高处理速度;按照旋转因子存放规则,蝶形运算所需的3个旋转因子地址相同,且寻址方式简单;输出采取与输入相似的存储器;运算单元同时采用3个乘法的复数运算算法来实现.  相似文献   

17.
多模式匹配算法在网络入侵检测系统中有着广泛的应用,目前的研究主要集中在如何提高算法的匹配速度上,对于算法的内存消耗研究较少。对于基于硬件实现的嵌入式入侵检测而言,如何降低多模式匹配算法的内存消耗也是一个值得关注的问题。Aho-Corasick(AC)算法是一个基于有限状态机的多模式匹配算法,该算法具有O(n)的时间复杂度,但是由于状态表存储开销较大使其难以应用到嵌入式入侵检测系统中。对AC算法的内存消耗进行了深入地研究,分析了几种可行的AC有限状态机存储策略,提出了一种改进的Banded-Row格式的AC有限状态机存储策略。实验结果表明,该策略能够在较小地影响AC算法匹配速度的前提下,更加有效地降低其内存消耗。  相似文献   

18.
针对优化问题中的多极值的现象 ,提出了基于有记忆模拟退火的全局优化算法。并针对不同的设计变量 ,采用了不同的邻域产生方法。在分析算法性能的基础上 ,分别对连续变量和离散变量优化问题的工程实例进行了求优 ,结果表明该算法具有较高的计算精度和适应性。  相似文献   

19.
Most of users are accustomed to utilizing virtual address in their parallel programs running at the scalable high-performance parallel computing systems. Therefore a virtual and physical address translation mechanism is necessary and crucial to bridge the hardware interface and software application. In this paper, a new virtual and physical translation mechanism is proposed, which includes an address validity checker, an address translation cache (ATC), a complete refresh scheme and many reliability designs. The ATC employs a large capacity embedded dynamic random access memory (eDRAM) to meet the high hit ratio requirement. It also can switch the cache and buffer mode to avoid the high latency of accessing the main memory outside. Many tests have been conducted on the real chip, which implements the address translation mechanism. The results show that the ATC has a high hit ratio while running the well-known benchmarks, and additionally demonstrates that the new high-performance mechanism is well designed.  相似文献   

20.
针对内存管理中虚拟页面和物理页面连续分配的特性,提出可对相邻页面进行动态合并的旁路转换缓冲器(TLB)设计方法.该方法的核心思想是在处理器运行过程中,通过对相邻页面的递归合并,动态扩展单个TLB表项的地址映射范围,提高TLB表项的利用率并降低TLB缺失率.在两级TLB架构中,提出基于快速uTLB(fuTLB)和影子uTLB(suTLB)动态切换的新型uTLB结构,作为两级TLB架构的一级缓存,为页面动态合并提供现场和载体,页面合并过程对软件透明.基于Mibench测试基准的实验结果表明,与filter-TLB架构相比,该页面动态合并方法可以平均降低TLB缺失率达27%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号