首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 234 毫秒
1.
CT 图像重建加速的几种方法   总被引:2,自引:0,他引:2  
CT 图像重建速度是衡量CT 系统的重要指标之一。论文针对滤波反投影算法综述了当前国内外的重建加速技术,阐述了普通PC 上的加速方法,通过构建集群系统进行并行重建的方法,采用多个DSP 连接成并行计算模块的加速方法,基于现场可编程门阵列(FPGA)的并行重建方案,采用GPU 图像卡实现图像重建,采用细胞宽带引擎(CBE)的图像重建方案。在应用性能方面分析了各种加速方法的优缺点。  相似文献   

2.
一种基于SIMD技术的快速并行代数重建算法   总被引:2,自引:0,他引:2       下载免费PDF全文
代数重建算法是解决非完全投影数据重建的有效方法,尤其在对于超出探测器尺寸范围的大型零件的无损检测中已成为最有力的关键技术,但以往算法计算量较大、耗时较长。为了快速地进行代数重建,提出了一种基于Intel处理器单指令多数据(single instruction multiple data,SIMD)技术[2]的快速并行算法,并在充分分析代数重建公式特点的基础上,设计了一套便于并行化运算的数据结构及计算流程,其在运算中可一次性加载多个打包数据,利用MMX(multimedia extension)、SSE(streaming SIMD extension)和SSE2指令完成SIMD方式计算。通过仿真实验证明,该算法在达到同样精度的前提下,不仅提高了重建速度(加速比4倍),解决了传统代数重建算法运算速度慢的瓶颈问题,并且能够较好地重建部分数据缺失的投影图像,该算法对于航空航天大型零部件的无损检测具有重要的理论意义及工程应用价值。  相似文献   

3.
基于集群并行及指令优化的FDK重建算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为提高锥束CT的FDK重建算法在重建高分辨率的图像时的速度,分析2种并行策略及其对应的通信时耗,研究集群并行与SSE指令优化计算相结合的FDK算法,在8个节点的集群系统上进行实现。实验结果表明,采用集群并行加指令优化的方式,可将分辨率为2563的图像的重建速度提高到原来的29倍。  相似文献   

4.
针对锥束CT感兴趣区域扫描中存在的截断投影数据图像重建问题,提出用基于迭代的代数重建(ART)算法进行重建。锥束ART算法的缺点是计算量大、重建速度慢。为了提高该算法的重建速度,提出了一种基于多核平台的快速并行图像重建方法。首先将三维重建区域等分为上下两块,相应地,探测器平面也分为上下两部分;然后通过双线性插值计算虚拟探测器投影数据;最后通过多线程技术在多核平台上实现了ART算法的并行重建,在保持较高重建精度的同时取得了约两倍的重建加速比。在此基础上,通过仿真实验对3DShepp-Logan模型不同感兴趣区域进行了重建,实验结果表明,ART算法用于感兴趣区域图像重建是可行的。  相似文献   

5.
锥束CT图像重建数据量巨大、运算复杂度高,重建时间长,难以满足实际应用的需求。研究基于CUDA的图形处理器加速锥束CT重建算法的方案,通过有效的并行策略来提高滤波和反投影过程的时间,并利用常数存储器和纹理存储器来提高数据访存效率。实验证明在保证重建质量的情况下,重建速度可以提高82倍。  相似文献   

6.
何希  吴炎桃  邸臻炜  陈佳 《计算机应用》2019,39(7):2008-2013
形态学重建是医学图像处理中非常基础和重要的操作。它根据掩膜图像的特征对标记图像反复进行膨胀操作,直到标记图像中的像素值不再变化为止。对于传统基于中央处理器(CPU)的形态学重建系统计算效率不高的问题,提出了使用图形处理器(GPU)来加速形态学重建。首先,设计了适合GPU处理的数据结构:并行堆集群;然后,基于并行堆集群,设计和实现了一套基于GPU的形态学重建系统。实验结果表明,相比传统基于CPU的形态学重建系统,基于GPU的形态学重建系统可以获取超过20倍的加速比。基于GPU的形态学重建系统展示了如何把基于复杂数据结构的软件系统高效地移植到GPU上。  相似文献   

7.
周兵  冯中慧  王和兴 《计算机科学》2007,34(10):195-199
本文的目的就是通过理论分析和试验,探讨集群环境下并行聚类算法的设计思想。作为一种低成本、通用并行系统,集群系统的通讯能力相对于节点的计算能力是一个瓶颈。所以本文提出,在集群环境下设计并行聚类算法时,应采用数据并行的思想。本文首先从理论上,对采用数据并行思想后影响加速比的因素和通讯策略的选择进行了分析,然后实现了一个新的并行聚类算法——PARC算法。通过PARC算法的实验,证明了理论分析的正确性,并且表明并行聚类算法可以得到良好的聚类质量。本文的研究结果可以为以后设计更好的数据并行聚类算法提供一定的理论依据。  相似文献   

8.
KD树是三维场景渲染中常用的空间加速算法.由于SIMD计算平台不支持递归操作,导致KD树在GPU上的应用受到限制,因此提出了一个新的基于SIMD架构的并行KD树算法.通过创建时对KD树线索化,不仅省去堆栈使用,且因无需回溯到根节点而减少大量无效遍历操作,实现了基于GPU的高效并行加速.实验结果表明,线索KD树算法每秒计...  相似文献   

9.
将常用于CT图像重建的滤波反投影算法程序设计成能够运行在大数据框架Spark中的并行模式,以此来提高计算效率并实现批量图像的重建,缩短图像重建时间。基于分布式计算框架Spark,利用其图像处理工具Thunder,将滤波反投影算法在图像重建过程中设计成并行程序模式,实现图像的片间并行重建。实验结果表明,随着Spark集群规模的不断扩大,在确保重建图像质量的前提下,重建一定数量的CT图像相比单机模式下时间显著缩短,并行滤波反投影算法具有完全加速比,并行效率趋近于1。基于Spark集群实现的滤波反投影算法能够显著提升CT图像重建速度,并实现大量图像并行重建,可扩展其他的CT图像重建算法,对远程医学图像重建平台的建设具有重要参考意义。  相似文献   

10.
本文提出了一种基于SIMD寄存器SM3并行算法的快速SM2-KDF实现方法.首先预计算KDF所需的计数器ct值,再根据消息长度分组执行串行/并行的SM3哈希运算,在SM3消息扩展与迭代压缩部分使用PSHUFB与VPGATHERDD指令并行处理,之后对数据重新装配以使用256位YMM寄存器进行轮函数的运算,最后将输出哈希值与消息异或得到密文.在AMD Ryzen 5 3600 6-Core@3.6GHz和Intel I5-7200U@2.4 GHz两种测试环境下, SM2的KDF算法在消息长度大于1 KB时速度可提升至标准实现的3倍.在应用并行KDF算法后SM2公钥加密算法加密速度最快可提升47%,解密速度最快可提升53%,本方法同样适用于其他杂凑算法和公钥加解密算法的软件加速.  相似文献   

11.
一种基于奔腾SIMD指令的快速背景提取方法   总被引:3,自引:0,他引:3  
论文提出一种基于Intel奔腾SIMD指令的快速背景提取方法。在一种改进的混合高斯背景模型中,Jeffrey值的计算和背景模型的更新等存在着很高的内在SIMD并行性,通过将数据按照SSE数据类型组织,实现了混合高斯背景模型的SIMD算法。实验结果表明:嵌入奔腾SIMD指令的方法比传统计算提高75%左右的性能,加速了背景提取的速度,达到了实时处理的要求,具有较大的实际应用价值。  相似文献   

12.
在冷冻电镜三维重建计算模型中,傅里叶空间图像相似度算法被频繁调用,大量的计算开销导致模型整体运行速度变慢。针对该问题,提出一种基于SIMD的并行傅里叶空间图像相似度算法。通过手动负载均衡方式最大化CPU的线程使用率,添加AVX-512指令集增强CPU矢量寄存器的作用,同时设计高效的数据结构提升内存访问效率。在Intel Xeon Platinum 9242平台上的实验结果表明,与原始的OpenMP并行模型相比,经该算法优化后的程序可获得平均5.132倍的加速比,并且具有较强的鲁棒性。  相似文献   

13.
Many sorting algorithms have been studied in the past, but there are only a few algorithms that can effectively exploit both single‐instruction multiple‐data (SIMD) instructions and thread‐level parallelism. In this paper, we propose a new high‐performance sorting algorithm, called aligned‐access sort (AA‐sort), that exploits both the SIMD instructions and thread‐level parallelism available on today's multicore processors. Our algorithm consists of two phases, an in‐core sorting phase and an out‐of‐core merging phase. The in‐core sorting phase uses our new sorting algorithm that extends combsort to exploit SIMD instructions. The out‐of‐core algorithm is based on mergesort with our novel vectorized merging algorithm. Both phases can take advantage of SIMD instructions. The key to high performance is eliminating unaligned memory accesses that would reduce the effectiveness of SIMD instructions in both phases. We implemented and evaluated the AA‐sort on PowerPC 970MP and Cell Broadband Engine platforms. In summary, a sequential version of the AA‐sort using SIMD instructions outperformed IBM's optimized sequential sorting library by 1.8 times and bitonic mergesort using SIMD instructions by 3.3 times on PowerPC 970MP when sorting 32 million random 32‐bit integers. Also, a parallel version of AA‐sort demonstrated better scalability with increasing numbers of cores than a parallel version of bitonic mergesort on both platforms. Copyright © 2011 John Wiley & Sons, Ltd.  相似文献   

14.
《Parallel Computing》1997,23(7):899-913
Radiosity is a powerful method for solving the global illumination problem in the case of purely diffuse light reflexions. The progressive refinement algorithm provides interactivity during computation by displaying intermediate images, and overshooting methods increases the convergence rate of progressive radiosity. However, computation times remain very important. Parallelising these algorithms is a good way to significantly improve interactivity by reducing computation time. The aim of this paper is to present a method for the parallelisation of the progressive refinement radiosity algorithm on a massively parallel SIMD machine. We took care of both the SIMD machine nature and the high number of available processors on studying the several ways to efficiently implement the algorithm. The parallel scheme we propose uses a disk projection area for form factors estimate and decreases dramatically the computation times.  相似文献   

15.
Stochastic ray tracing is one of the most elegant methods for anti-aliasing and for generating such phenomena as soft shadows, fuzzy reflections, depth of field, and motion blur, which are difficult to accomplish with the conventional ray-tracing algorithm. Unfortunately, it makes use of stochastic sampling, which requires more than one sample for each pixel. One possible way to speed up ray tracing is to explore the inherent parallelism of the algorithm. In the past few years, the major focus of parallel ray-tracing research has been on the use of MIMD architectures. Although SIMD architectures may be ideal for ray tracing simple scenes, they have been thought unsuitable for ray tracing complex scenes. However, by using scene coherence, we have found that stochastic ray tracing using SIMD processor arrays can be as efficient as most of the existing MIMD ray-tracing algorithms and more cost effective.  相似文献   

16.
Sorted lists of integers are commonly used in inverted indexes and database systems. They are often compressed in memory. We can use the single‐instruction, multiple data (SIMD) instructions available in common processors to boost the speed of integer compression schemes. Our S4‐BP128‐D4 scheme uses as little as 0.7 CPU cycles per decoded 32‐bit integer while still providing state‐of‐the‐art compression. However, if the subsequent processing of the integers is slow, the effort spent on optimizing decompression speed can be wasted. To show that it does not have to be so, we (1) vectorize and optimize the intersection of posting lists; (2) introduce the SIMD GALLOPING algorithm. We exploit the fact that one SIMD instruction can compare four pairs of 32‐bit integers at once. We experiment with two Text REtrieval Conference (TREC) text collections, GOV2 and ClueWeb09 (category B), using logs from the TREC million‐query track. We show that using only the SIMD instructions ubiquitous in all modern CPUs, our techniques for conjunctive queries can double the speed of a state‐of‐the‐art approach. Copyright © 2015 John Wiley & Sons, Ltd.  相似文献   

17.
Cluster algorithms have application in diverse areas, including statistical mechanics of polymer solutions, spin models in physics, and the study of ecological systems. Most parallel cluster labeling algorithms are designed for SIMD and MIMD multiprocessors and based on relaxation methods. We present a parallel 3-D cluster labeling algorithm based on mapping tables, for distributed memory environments. The proposed algorithm focuses on minimizing interprocess communication to enhance execution performance on workstation networks. We implemented the algorithm with the aid of theEcliPSeparallel replication toolkit, exploiting special tree-combining and data reduction features of the system. We report on performance results for experiments conducted on workstation clusters.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号