首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
向量程序来源于手工编写或由编译器自动生成。受限于编程人员和并行编译器的能力,得到的向量程序都存在一定的优化空间。优化编译器通常关注如何将串行程序向量化,但很少对向量程序进行优化。因此,提出了一种针对SIMD代码的向量访存优化方法。该方法首先分析程序是否需要优化,若存在需求,则对程序同时进行深度冗余优化和对齐优化。实验数据显示,提出的方法可以明显提高程序的运行效率,达到了目标。  相似文献   

2.
利用数据预取机制降低块执行模型的访存延迟   总被引:1,自引:0,他引:1  
块执行模型通过将串行程序划分成一系列可并行执行的指令块来挖掘应用中潜在的指令级并行性.访存延迟是阻碍块执行模型提高指令级并行性的主要因素之一,而数据预取技术在传统执行模型中可有效降低访存延迟,对块执行模型也同样具有较强的适应性.本文分析了在块执行模型中引入数据预取机制的可行性,并从cache命中率、访存指令的延迟等方面验证了数据预取在块执行模型中的作用,仿真结果表明数据预取可有效降低块执行模型中的访存延迟.  相似文献   

3.
受功耗、面积的限制,高性能众核处理器倾向于将片上SRAM组织成SPM这种非cache形式,与片外主存构成多级存储架构.这种存储架构需要软件显示管理应用程序中的数据存储和传输.为此,提出了一种众核多级访存资源的静态数据布局优化模型.该模型首先选择应用程序中可进行访存优化的数组变量,对这些变量进行优化收益的评估,然后建立一个类0-1背包优化问题的目标模型,最后针对该优化模型提出了一个实用的近似算法.实验结果验证了该模型的有效性.  相似文献   

4.
曹越 《测控技术》2016,35(1):113-117
以自主嵌入式处理器为平台,对Android系统性能进行分析.通过Oprofile工具采集Android系统下的访存热点函数,结合处理器架构特点,并充分考虑传统Cache特性,重点针对Android系统的BionicC库及Libcutils库中的热点访存函数提出优化算法进行汇编优化.实验表明:优化后的Bionic C库和Libcutils库与优化前相比,访存带宽分别提升8.91%和12.3%,系统性能分别提升1.54%和3.81%;Android系统整体性能提升5.35%.  相似文献   

5.
数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种基于访存指令的调度策略,亦即将访存延迟有效地隐藏于计算延迟中,以提高基于汇编实现的数学函数库的函数性能;结合动态调用方式,利用从核本地局部数据存储空间LDM(local data memory),提出了一种提高访存速度的ldm_call算法。两种优化技术在共享存储结构下具有普遍适用性,并能够有效减少函数访存开销,提高访存速度。实验表明,两种技术分别能够平均提高函数性能16.08%和37.32%。  相似文献   

6.
存储器的访问调度策略是复杂的,不仅仅要考虑具体的电路时序参数,还有访存节拍数。在分析DRAM的特点以及访存调度策略的基础上,考虑DDR3时序规范,提出一种改进的蚁群优化访问调度策略。采用不同的trace作为测试,同贪婪式调度算法作比较,该算法可以有效降低平均总延迟、提高带宽利用率。  相似文献   

7.
徐瑞龙  祁云嵩  石琳 《计算机仿真》2020,37(2):212-215,274
采用当前方法对软件模块访存压力进行优化时,优化后的软件模块带宽较高、数据传输延时高,存在有效性差的问题。将机器学习应用在软件模块的访存压力优化过程中,提出基于机器学习的软件模块访存压力优化方法。计算链路的使用率,并将计算结果传送到每条流对应的发送端中,发送端根据接收到的信息对发送速率进行调整,实现拥塞控制。采用多目标规划方法,根据预算值和实际值之间存在的偏差,构建软件模块访存压力优化模型,通过二进制粒子群算法对软件模块访存压力优化模型进行求解,实现软件模块访存压力的优化。仿真结果表明,所提方法的带宽高、数据传输延时小,验证了基于机器学习的软件模块访存压力优化方法的有效性。  相似文献   

8.
研究确保在防火墙规则应用之前能够进行规则的冲突检测,避免规则之间出现矛盾、冗余。同时,描述了在保持规则间相互关系的基础上,利用日志管理系统的统计数据对规则重新排序,将最常用的规则放在具有高优先级的位置,从而降低规则比较的次数,进而提高防火墙过滤数据包的速度。  相似文献   

9.
片外访存带宽是共享存储多核系统的主要性能瓶颈.访存带宽敏感的任务调度可以有效缓解并发程序间的访存竞争,提高系统吞吐率.然而调度策略的实施需要关于程序执行的先验知识,给系统用户增加了额外负担;另一方面,并发程序间的带宽竞争使得运行时收集的程序带宽需求信息不精确,影响了调度效果.在该文中,作者提出了一个低开销、对用户透明的跨执行优化方法解决上述问题.它在运行时识别程序的阶段性(phase)行为,并估算每个phase的独占执行性能;上述信息被存储到数据库中,在程序未来的执行中指导调度,并且信息精度随着程序的多次执行持续增加.上述过程使得带宽敏感调度策略的进行不再需要任何用户信息制导,并且优化了调度效果.作者在基于Intel Xeon处理器的8核系统上实现并评估了该系统,测试结果表明:相对于Linux操作系统(OS)默认的调度策略,该文的方法能平均提高系统吞吐率3.7%,对于某些特定程序组达8.5%.  相似文献   

10.
通用处理器的高带宽访存流水线研究   总被引:1,自引:0,他引:1  
存储器访问速度的发展远远跟不上处理器运算速度的发展,日益严峻的访存速度问题严重制约了处理器速度的进一步发展.降低load-to-use延迟是提高处理器访存性能的关键,在其他条件确定的情况下,增加访存通路的带宽是降低load-to-use延迟的最有效途径,但增加带宽意味着增加访存通路的硬件逻辑复杂度,势必会增加访存通路的功耗.文中的工作立足于分析程序固有的访存特性,探索高带宽访存流水线的设计和优化空间,分析程序访存行为的规律性,并根据这些规律性给出高带宽访存流水线的低复杂度、低延迟、低功耗解决方案.文中的工作大大简化了高带宽访存流水线的设计,降低了关键路径的时延和功耗,被用于指导Godsonx处理器的访存设计.在处理器整体面积增加1.7%的情况下,将访存流水线的带宽提高了一倍,处理器的整体件能平均提高了8.6%.  相似文献   

11.
通过分析目前主流的Web用户访问模式挖掘的技术方法,针对各种挖掘算法存在复杂度高、灵活性低的缺陷,本文提出一种能对不规则用户访问路径进行用户访问模式挖掘的聚类算法,该算法可以简单高效地挖掘不定长度的用户兴趣模式。  相似文献   

12.
主存多媒体数据库系统性能深受处理器缓存未命中的影响,缓存感知型主存索引是提高数据检索效率的有效手段.针对SA-Tree不适用于主存存取的缺点,提出它的变体CSA-Tree.CSA-Tree利用PCA降维技术,将树的各层节点采用不同的维度来表示,这样不仅提高缓存空间的利用率,还降低了CPU负载,从而提高了索引查询效率.大量实验证明,CSA-Tree在主存环境中具有良好的高维数据检索性能.  相似文献   

13.
Programming and Computer Software - This paper is based on a dissertation “Techniques for organizing shared access to distributed memory pages in cloud computing systems” defended at...  相似文献   

14.
Li  Jia-Jun  Wang  Ke  Zheng  Hao  Louri  Ahmed 《计算机科学技术学报》2023,38(1):115-127
Journal of Computer Science and Technology - Graph convolutional neural networks (GCNs) have emerged as an effective approach to extending deep learning for graph data analytics, but they are...  相似文献   

15.
在分析了分形结构在三维空间的动态形成过程的基础上,提出了在屏幕空间演化生成分形图象的方法。该方法充分利用了已有的可视化技术来达到所需的真实感效果。  相似文献   

16.
一种面向非规则非致密空间分布数据的聚类方法   总被引:1,自引:0,他引:1  
针对目前很少关注非致密非规则数据聚类的情况,利用蚁群算法具有的组合优化方面的优势,引入近邻函数准则,提出了基于蚁群算法和近邻函数准则的聚类算法,来求解非规则非致密数据聚类问题.实验表明,对于非规则非致密分布数据的聚类问题,该聚类算法可根据连接关系合理地进行聚类,相比K均值算法等其他采用样本距离作为分类指标的聚类方法,可有效降低错聚率,一定程度上较好地解决了这类问题.  相似文献   

17.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

18.
In this paper, we present several algorithms for performing all-to-many personalized communication on distributed memory parallel machines. We assume that each processor sends a different message (of potentially different size) to a subset of all the processors involved in the collective communication. The algorithms are based on decomposing the communication matrix into a set of partial permutations. We study the effectiveness of our algorithms from both the view of static scheduling and runtime scheduling.  相似文献   

19.
The Principal Component Analysis (PCA) is applied to a set of astronomic data to obtain a separation between variations of luminosity and noisy fluctuations. A clustering with the Mixture of Gaussians method, performed in the principal subspace, allows us to classify the data according to the features of interest. Our results are compared with those obtained by the AGAPE (Andromeda Galaxy and Amplified Pixels Experiment) collaboration. Received: 22 December 2000, Received in revised form: 26 March 2001, Accepted: 20 April 2001  相似文献   

20.
检测数据集中的孤立点经常需要用户设置一些参数,当用户没有相应的经验时,孤立点检测或者困难或者不完全。本文提出一种无需参数设置,自动查找最可能的孤立点的检测方法。主要贡献包括:提出的一种聚类评价函数和自寻优层次聚类算法,该算法首先产生聚类树,然后通过评价函数,从聚类树上选择最优聚类结果;提出一个孤立类的检测算法,从聚类结果中寻找孤立类,孤立类中的数据就是检测出的孤立点。实验证明了新方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号