排序方式: 共有31条查询结果,搜索用时 15 毫秒
21.
针对子程序结构的线程级推测并行性分析 总被引:3,自引:0,他引:3
线程级推测技术为开发更多的线程级并行性,充分利用多核加速传统上难以手工或自动并行化的串行程序提供可行的技术途径.然而,这种技术的性能严重地依赖于线程划分方案.有研究表明,仅推测执行循环所产生的并行性是不够的.但推测执行子程序结构比循环结构要难.本文提出寻找适于推测并行执行的子程序结构的基本判定依据;通过运行由Simplescalar工具集改造得到的动态剖析工具ProRV、ProFun和SPEC CPU2000基准测试程序,我们对子程序结构线程化推测执行的适合性进行详细分析,给出具有指导意义的实验分析方法和实验数据.我们发现:①无返回值的子程序结构占据程序整体执行时间的大约40%;返回稀疏整型的子程序结构占据了程序整体执行时间的大约10%,对其返回值的预测成功率在70%左右.对于其他返回值类型的子程序结构,由于对其返回值的预测成功率过低,我们认为不适合作为线程划分的对象.②简单的last-value的值预测方案对于返回值的预测是简单而且足够有效的.③访存数据依赖普遍存在于子程序与其后继代码之间,显式同步机制对于针对子程序结构的线程级推测是必要的. 相似文献
22.
随着线延迟的逐渐增加,指令调度技术作为一种可以有效减少处理器片上通信的技术日益重要。本文介绍一种分片式处理器结构上基于加权路径的指令调度算法,该算法利用已经放置好的指令——锚指令信息精确计算路径长度,再用指令所在路径长度作为权值对指令进行调度。实验结果表明,本算法实现的调度器IPC比已有的两种TRIPS调度算法的IPC分别提高了21%和3%。 相似文献
23.
如何有效利用多核提供的丰富晶体管资源对串行程序的执行进行加速是当前研究中的热点问题。线程级推测(thread-level speculation,TLS)技术旨在充分利用多核资源,最大化地开发出串行代码中存在的潜在并行性。目前TLS技术已经在多种串行应用的并行化工作中得到有效利用,但嵌入式应用程序仍未在推测并行化方面进行有效的分析。因此,选取了八个具有代表性的嵌入式应用,对其在循环级推测并行化中的性能提升潜力和运行时特征(数据依赖、线程粒度和并行覆盖率)进行探讨。实验结果表明,利用线程级推测并行化嵌入式应用的加速效果优于指令级并行技术,实验中的最大加速比达到了13.29;在嵌入式应用领域,该技术可以有效地利用4到8核的计算资源。 相似文献
24.
针对纹理弱、特征稀少且存在大量相似性区域的零件图像拼接,一般基于特征点的图像拼接方法效果较差,本文提出一种改进方法。该方法首先依据FAST特征点检测方法提取特征点,再筛选出用于匹配的候选点集;其次,利用模板区域采样灰度特征,通过设置旋转角度和缩放比例搜索域结合结构相似性(SSIM)方法完成点匹配;最后,通过点匹配结果求出旋转、缩放和平移参量,利用3σ原则去除异常值得到最终结果。实验结果表明,在角度搜索域为[-45°,+45°],缩放搜索域为[0.5,1.5]的条件下,本文方法能够得到较准确的旋转、缩放、平移参量及拼接效果。 相似文献
25.
CEA(Chemical Equilibrium with Applications)是NASA Lewis研究中心基于最小化自由能方法研发的计算化学平衡程序,主要应用于液体火箭发动机化学热力平衡过程(燃烧)分析。在将近50年NASA研究人员的不断更新中CEA得到了完善,其中除了通用的化学平衡计算方法,还包括了诸多计算方法,这些方法广泛应用于空气动力学和热力学的研究当中。但是因为程序的高度定制化,并没有得到更加普遍的使用。对CEA程序的结构和工作流程进行了研究,提出一种基于Java Web的移植方法,实现了程序的Web完整移植,并且将算法封装为URL API供开发人员调用。一方面增加了程序的便携性,另一方面API的封装降低了二次开发难度,具有实际的应用价值。 相似文献
26.
谓词执行技术是克服程序中控制依赖的重要软件技术.利用类数据流体系结构的特点,设计了一种在类数据流体系结构中低开销、高效率地实现谓词执行技术的方法:仅占用指令编码中的1-bit;谓词的值通过片上网络在指令间直接传递,无需谓词寄存器.这种实现方法的主要开销是由类教据流指令集引入的软件输出树,本文进一步提出一种基于边剖析技术的优化方法.实验表明,这种优化能减少17.3%的软件输出树开销,同时将程序性能提高了15.5%. 相似文献
27.
高超声速进气道不起动预测研究中主要包括确定压力传感器位置和建立起动\不起动分类面,属于机器学习中特征选择问题和分类问题,而常用特征选择算法(基于支持向量机的递归特征消除SVM-RFE)单一并且耗时较长。为解决该问题寻找较优的特征选择算法,建立一个高超声速二元进气道/隔离段模型,通过数值模拟获得内流道上表面压力数据样本;利用Relief和SVMRFE组合式算法Relief-Corre方法,Relief-SVMRFE方法,Relief-PSO-SVMRFE方法进行特征选择;支持向量机SVM训练分类面。最后得出Relief-SVMRFE方法性能最优,运行效率比SVMRFE提高了约3倍,准确率比其他基于Relief组合方法高;获得最优特征的分类面具有较高的泛化性与鲁棒性,证明该分类面的有效性。 相似文献
28.
针对云计算中的任务分配问题,分析任务资源之间的数学模型,提出一种基于资源状态蚁群算法,相对一般蚁群算法,加入虚拟机实时状态,更精确地表达云计算任务分配的问题.通过CloudSim工具设计仿真实验,实验结果表明,与最近Cristian Mateos提出的蚁群改进算法相比,该算法在任务完成时间、算法稳定收敛方面取得了较好表现,以RR算法为基准,该算法提高后的时间比例稳定在RR算法任务完成时间的60%~65%,稳定性提高4.7倍. 相似文献
29.
线程级推测技术使在多核上加速传统上难以手工或自动并行化的串行程序成为可能,它不仅需要合理地选择线程的划分策略,而且需要合理地选择适合推测执行的应用.已有的大量研究主要集中在如SPEC CPU这样的桌面应用领域,为了全面地认识TLS技术的应用适用性,本文探讨TLS技术对科学计算应用的性能提升潜力,提出一套TLS适用性的基本判定准则,实验结果表明采用该技术加速SPLASH2中的多数应用可以有效利用16核及以上的计算资源. 相似文献
30.