首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
针对高光谱几何校正计算复杂,大数据量频繁传输降低处理效率,无法满足实时需求等问题,提出基于多核CPU和GPU的并行计算模型。实现基于GPU的并行几何校正,并引入流水线并行思想提出基于多线程的数据读写优化方法,实现重采样部分的数据I/O优化。应用航空推扫成像仪所得高光谱数据进行实验,验证该方法能够有效地隐藏部分硬盘与内存间的数据I/O时间,几何校正加速比达到4.03,在基于GPU的并行计算基础上提高了1.74倍。  相似文献   

2.
为实现电磁计算的安全可靠和自主可控,该文基于“天河二号”国产众核超级计算机平台,开展大规模并行矩量法(MoM)的开发工作。为减轻大规模并行计算时计算机集群的通信压力以及加速矩量法积分方程求解,通过分析矩量法电场积分方程离散生成的矩阵具有对角占优特性,提出一种新型LU分解算法,即对角块矩阵选主元LU分解(BDPLU)算法,该算法减少了panel列分解的计算量,更重要的是,完全消除了选主元过程的MPI通信开销。利用BDPLU算法,并行矩量法突破了6×105 CPU核并行规模,这是目前在国产超级计算平台上实现的最大规模的并行矩量法计算,其矩阵求解并行效率可达51.95%。数值结果表明,并行矩量法可准确高效地在国产超级计算平台上解决大规模电磁问题。  相似文献   

3.
异构BSP模型及其通信协议   总被引:9,自引:0,他引:9       下载免费PDF全文
异构并行计算由于其较高性能价格比而在高性能科学计算和通用应用领域受到广泛研究.但由于异构并行程序设计与性能分析仍处于经验阶段,开发实用程序较为困难.本文提出异构环境中的HBSP模型,并导出相应的开销预测方法,能有效指导异构并行程序的设计与分析.所设计并实现的HBSP模型的通信协议能运行于所有支持MPICH软件包的计算平台.最后以并行FFT算法为例,给出相应的算法设计和实际测试结果.  相似文献   

4.
WOB:一种新的文件检查点设置策略   总被引:6,自引:1,他引:5       下载免费PDF全文
实现分布/并行系统容错的基础是单进程检查点设置和卷回恢复技术,而对进程活动文件状态进行保存和恢复则是这种技术的重要方面.本文提出的延迟写策略,实现了对用户文件的检查点设置,有效地解决了在发生故障时用户文件内容与进程全局状态的不一致问题.它对用户通明,并且通过优化设置内存缓冲区大小、时延隐藏等手段,使得这种策略在空间开销、正常运行时间、恢复时间等性能指标上优于其它方法.  相似文献   

5.
一种基于高性能集群计算系统的检查点策略   总被引:1,自引:1,他引:0  
为了提高高性能集群计算系统的容错能力,检查点设置成为一种广泛采用的手段.目前检查点设置多采用的协调式设置协议,该协议在集群规模扩展情况下,同步操作造成巨大的系统时间开销,并阻塞正常计算的执行.针对该问题,使用非协调式检查点设置协议消除同步操作,采用消息日志记录方式保证系统状态一致性,并利用线程后台执行方式达到透明性设置.最后,通过典型的系统实验,验证了该方法的有效性,并进行同协调式协议设置的时间开销对比.  相似文献   

6.
为了进一步加快JPEG2000的压缩速度,对JPEG2000压缩标准进行研究,分析得出JPEG2000核心算法离散小波变换(DWT)部分数据之间的独立性适合并行化处理。NVIDIA最新推出的CUDA(计算统一设备架构)是非常适合大规模数据并行计算的软硬件开发平台。在通用计算图形处理器(general purpose graphic process unit, GPGPU)上使用CUDA技术实现DWT并行化加速,并针对GPGPU存储空间的特点进行优化。得出的实验结果表明,经过CUDA并行优化的方法能够有效地提高DWT的计算速度。  相似文献   

7.
通过引入应用程序并行特征、通信开销、资源限制等因素,建立了基于Amdahl定律扩展的多核处理器性能模型.通过模型参数仿真,搜索面向特定应用的多核处理器设计空间,得出如下规律:增大计算核心规模可实现超线性加速比;结构应优先选择异构结构;设计多进程、大容量的共享通信区可降低核间通信开销;计算核心数目和规模由应用程序并行度和各并行部分比例及设计规模决定.  相似文献   

8.
童炜  刘铎 《通信技术》2011,44(4):1-4,9
随着图形处理器(GPU)的处理能力的不断增强,图形处理器越来越多地被应用于计算密集型的数据运算处理中。JPEG图像压缩算法中的部分步骤存在典型的并行特性,针对大分辨率图像JPEG压缩串行顺序执行时间开销较大的问题,利用CUDA的并行计算和图形硬件的可编程性,可实现对JPEG图像压缩的加速,同时结合GPGPU硬件结构可实现JPEG压缩程序程序的优化设计。通过程序测试实验,与串行程序比较加速比在20以上。  相似文献   

9.
为确保GPU通用计算(GPGPU)程序在CPU-GPU异构平台上运行的可靠性,设计了一种以软件方法实现的容错模型.在分析GPGPU程序运行过程中瞬时故障的产生模式以及错误的传播路径后,对GPGPU程序运行所依赖的CPU端和GPU端分别进行容错设计,并针对GPGPU程序的运行特点,设计能够降低容错运算开销同时提升系统协同工作能力的优化方案,从而在提高GPGPU程序的可靠性的同时降低容错设计所带来的额外开销.通过对典型实例的测试验证了所提出的方案的可行性以及性能.  相似文献   

10.
遥感图像融合技术是有效利用多传感器、多平台、多光谱、多时相遥感数据的主要途径.针对经典的主成分分析(PCA)融合串行算法,提出一种新的基于CPU/GPU异构系统的并行PCA融合算法.实验结果表明,基于CPU/GPU异构系统CUDA架构的并行PCA融合算法充分利用GPU的并行处理能力,计算速度提高幅度明显,图像越大越复杂,提高的幅度越大,处理4096×4096图像数据时,最高能获得将近134倍的加速速率,极大的提高了PCA融合算法在实际应用中的实时性.  相似文献   

11.
矩阵LU分解的容错并行算法设计与实现   总被引:1,自引:0,他引:1  
给出了容错并行算法的定义,提出了一种新的基于并行复算的容错并行算法.针对许多计算密集型任务中的矩阵LU分解设计了相应的基于并行复算的容错并行算法,并对设计的矩阵LU分解的容错并行算法的性能进行了评估并与checkpointing方法进行了对比.结果表明与checkpointing方法相比,矩阵LU分解的容错并行算法有性能上的优势.  相似文献   

12.
提高用任务重复的检查点方案的性能   总被引:4,自引:0,他引:4       下载免费PDF全文
设置检查点是减少程序在故障条件下执行时间的一种常用技术.将检查点与任务重复技术相结合,不仅能够完成有效的故障恢复,而且还能进行完善的故障检测.上述系统的开销主要来自两方面:其一是每个检查点的比较和保存开销,其二是因故障而引起的卷回.本文利用增量检查点对Ziv和Bruck提出的方法进行了改进,改进后的方法不仅能够有效地减少比较、保存检查点的开销,而且还能够避免潜伏故障引起的卷回.分析表明改进后的方法与Ziv和Bruck的方法相比表现出更好的性能.  相似文献   

13.
张聪  邢同举  罗颖  张静  孙强 《电子设计工程》2011,19(19):141-143,146
数学形态学运算是一种高度并行的运算,其计算量大而又如此广泛地应用于对实时性要求较高的诸多重要领域。为了提高数学形态学运算的速度,提出了一种基于CUDA架构的GPU并行数学形态学运算。文章详细描述了GPU硬件架构和CUDA编程模型,并给出了GPU腐蚀并行运算的详细实现过程以及编程过程中为充分利用GPU资源所需要注意的具体问题。实验结果表明,GPU并行数学形态学运算速度可达到几个数量级的提高。  相似文献   

14.
张鹏  王俊 《现代电子技术》2005,28(19):14-16
根据基于ADSP TS-101的外辐射源雷达实验系统中脉冲压缩算法的特点和处理器的结构特点,提出了一种可以提高脉冲压缩予系统性能的方法。本方法充分利用ADSP TS-101内部6Mb的存储空间,将脉压算法中的FIR运算分解为4组并行运算单元,再按照一定的方法将结果进行累加。因为充分利用了每一次传入片内的数据,避免了数据的重复传输,大大减少了ADSP TS-101与片外存储空间的数据通信量,提高了运算效率。文中给出了基于ADSP TS-101数字脉压算法的改进方法的程序流程图及效率分析。  相似文献   

15.
Due to the relatively low bandwidth of WAN that supports cloud backup services and the increasing amount of backed-up data stored at service providers, the deduplication scheme used in the cloud backup environment must remove the redundant data for backup operations to reduce backup times and storage costs and for restore operations to reduce restore times. In this paper, we propose SAFE, a source deduplication framework for efficient cloud backup and restore operations. SAFE consists of three salient features, (1) Hybrid Deduplication, combining the global file-level and local chunk-level deduplication to achieve an optimal tradeoff between the deduplication efficiency and overhead to achieve a short backup time; (2) Semantic-aware Elimination, exploiting file semantics to narrow the search space for the redundant data in hybrid deduplication process to reduce the deduplication overhead; and (3) Unmodified Data Removal, removing the files and data chunks that are kept intact from data transmission for some restore operations. Through extensive experiments driven by real-world datasets, the SAFE framework is shown to maintain a much higher deduplication efficiency/overhead ratio than existing solutions, shortening the backup time by an average of 38.7 %, and reduce the restore time by a ratio of up to 9.7 : 1.  相似文献   

16.
Remote-sensing applications often calculate the discrete Fourier transform of sampled data and then compress and encode it for transmission to a destination. However, all these operations are executed on computing resources potentially affected by failures. Methods are presented for integrating various fault detection capabilities throughout the data flow path so that the momentary failure of any subsystem will not allow contaminated data to go undetected. New techniques for protecting complete source coding schemes are exemplified by examining a lossy compression system that truncates fast Fourier transform (FFT) coefficients to zero, then compresses the data further by using lossless arithmetic coding. Novel methods protect arithmetic coding computations by internal algorithm checks. The arithmetic encoding and decoding operations and the transmission path are further protected by inserting sparse parity symbols dictated by a high-rate convolutional symbol-based code. This powerful approach introduces limited redundancy at the beginning of the system but performs detection at later stages. While the parity symbols degrade efficiency slightly, the overall compression gain is significant because of the run-length coding. Well-known fault tolerance measures for FFT algorithms are extended to detect errors in the lossy truncation operations, maintaining end-to-end protection. Simulations verify that all single subsystem errors are detected and the overhead costs are reasonable  相似文献   

17.
18.
Modern digital signal processors (DSPs) provide dedicated address generation units (AGUs) which support data memory access by indirect addressing with automatic address modification in parallel to other machine operations. There is no address computation overhead if the next address is within the auto-modify range. Typically, optimization of data memory layout and address register assignment allows to reduce both execution time and code size of DSP programs. In this paper, we present an optimization technique for integrated data memory layout generation and address register assignment. We use a generic AGU model which captures important addressing capabilities of DSPs such as linear addressing, modulo addressing, auto-modifying, and indexing within a given auto-modify range. Experimental results demonstrate that the proposed technique significantly outperforms existing optimization strategies. This revised version was published online in July 2006 with corrections to the Cover Date.  相似文献   

19.
File systems and applications try to implement their own update protocols to guarantee data consistency, which is one of the most crucial aspects of computing systems. However, we found that the storage devices are substantially under‐utilized when preserving data consistency because they generate massive storage write traffic with many disk cache flush operations and force‐unit‐access (FUA) commands. In this paper, we present DJFS (Delta‐Journaling File System) that provides both a high level of performance and data consistency for different applications. We made three technical contributions to achieve our goal. First, to remove all storage accesses with disk cache flush operations and FUA commands, DJFS uses small‐sized NVRAM for a file system journal. Second, to reduce the access latency and space requirements of NVRAM, DJFS attempts to journal compress the differences in the modified blocks. Finally, to relieve explicit checkpointing overhead, DJFS aggressively reflects the checkpoint transactions to file system area in the unit of the specified region. Our evaluation on TPC‐C SQLite benchmark shows that, using our novel optimization schemes, DJFS outperforms Ext4 by up to 64.2 times with only 128 MB of NVRAM.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号