排序方式: 共有45条查询结果,搜索用时 15 毫秒
1.
CGBenchmark是NASParalelBenchmarks(NPB)中的一个核心程序,它用共轭梯度法求大型稀疏对称正定矩阵的最小特征值,本文介绍其主要算法,并给出在分布式环境下的高效并行算法,最后给出了在SGIChalengePVM平台上的测试结果 相似文献
2.
介绍了利用部分学理论和形态学理论定义空间球的方法。针对Brandon Bennettd的RBG理论.给出了空间球的拓展和收缩的形式化定义,提出了一种定性空间关系表示的空间球模型。给出了利用空间球模型定性表示拓扑关系、方向关系和距离关系并对拓扑关系进行细化的方法。智能体对空间关系的确定是通过空间球实现的,该模型为智能体在约束空间环境中的行动推理提供了一个新的表示方法。 相似文献
3.
网格门户下基于GSI的MyProxy Login实现 总被引:4,自引:0,他引:4
Globus项目通过网格安全基础设施GSI(GridSecurityInfrastructure)来提供网格计算环境中的安全认证和安全通信能力,该文通过基于GSI的安全技术分析和对Gridport下MyProxylogin实现原理的研究,并与普通登录方式进行比较,说明Gridportlogin利用MyProxy解决用户代理问题将更安全、高效。 相似文献
4.
This paper presents an overview of TianHe-1A (TH-1A) supercomputer, which is built by National University of Defense Technology of China (NUDT). TH-1A adopts a hybrid architecture by integrating CPUs and GPUs, and its interconnect network is a proprietary high-speed communication network. The theoretical peak performance of TH-1A is 4700 TFlops, and its LINPACK test result is 2566 TFlops. It was ranked the No. 1 on the TOP500 List released in November, 2010. TH-1A is now deployed in National Supercomputer Center in Tianjin and provides high performance computing services. TH-1A has played an important role in many applications, such as oil exploration, weather forecast, bio-medical research. 相似文献
5.
TFQMR算法是一种Krylov子空间算法,常用来求解大型稀疏线性方程组.通过改变TFQMR算法的计算次序,提出了一种改进的TFQMR(ITFQMR)算法.对比TFQMR算法,ITFQMR算法的数值稳定性和TFQMR算法相同,几乎没有增加计算量,但考虑了在MIMD并行机上实现时并行算法的性能,其同步开销减少为TFQMR算法的一半,并且所有内积计算以及矩阵向量乘是独立的,没有数据相关性,可以进行计算与通信的重叠.从理论和实验两个角度来讨论ITFQMR算法的性能,当处理机台数较多时,ITFQMR算法的计算速度快于TFQMR算法.实验说明了在有64台处理机机群上进行,最快的并行ITFQMR算法的计算速度大约比TFQMR算法快20%. 相似文献
6.
数据重分布是实现消息传递环境下负载平衡的重要手段,提出了数据交错分布的模型问题及模型问题的并行计算模型,分析了模型问题在消息传递环境下的实现,讨论了性能和适用条件,给出了分析结果,讨论了通信与计算的时间重叠问题,将数据交错重分布负载平衡技术应用到非平衡刚性动力学方程组的并行计算中,获得了很好的负载平衡效果。 相似文献
7.
文中讨论了并行程序的优化问题,指出并行程序的优化应从数据划分、通信优化和串行优化三个方面着手。针对传统加速比的缺点和不足,我们提出了优化加速比模型来评价优化并行程序的性能;对NAS基准测试程序MG和FT进行了优化,用优化加速比模型分析了上述两个程序在IBM SP2上的性能。 相似文献
8.
稀疏矩阵向量乘是很多科学计算问题中的核心问题。本文针对稀疏对角矩阵,在DIA存储格式的基础上,设计了一种新型压缩存储格式CDIA,结合CUDA编程模型的特点,在计算线程上进行了细粒度的任务分配,同时为满足CUDA对存储器的合并访问要求,将压缩矩阵做了相应的转置处理,设计了细粒度算法与程序,并根据稀疏矩阵向量乘特点,做了相应的程序优化。实验数据显示,这种存储格式能够很好地发挥CUDA在数据处理方面的优势,在测试数据中,最高获得了单精度39.6Gflop/s和双精度19.6Gflop/s的浮点计算性能,性能在Nathan Bell和Michael Garland的基础上分别提高了7.6%和17.4%。 相似文献
9.
Parallel algorithm of solidification process simulation for large-sized system of liquid metal atoms 总被引:1,自引:1,他引:0
1 INTRODUCTIONItiswellknownthatinthestudyofmicrostruc turesofmaterials ,sometimesitisdifficulttogetthedesiredresultsbecauseofthelimitofexperimentcon ditions .Forexample ,theX raydiffractioncannotbeusedtoshowtherealmicrostructuresofliquidoramorphousmetalswithintheirshort rangeorder .Duringtherapidcoolingprocessesfromliquidtoglassmetals,itisalsodifficulttoobservethetransientchangeoftheirmicrostructuresbyinstruments ,andsoon .Withthedevelopmentofcomputerscienceandtechnology ,however ,thoser… 相似文献
10.
通过改变CR算法的计算次序。提出了一种改进的共轭剩余(ICR)算法.对比CR算法。ICR算法的数值稳定性和CR算法相同,几乎没有增加计算量。但考虑了在MIMD并行机上实现时并行算法的性能,其同步开销减少为CR算法的一半,并且所有内积计算以及矩阵向量乘是独立的,没有数据相关性。可以进行计算与通信的重叠.从理论和实验两个角度来讨论ICR算法的性能,当处理机台数较多时ICR算法的计算速度快于CR算法.在64台处理机机群上进行的数值实验表明,并行ICR算法的计算速度大约比CR算法快30%. 相似文献