首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
近年来, 不断发展的量子计算已成为众人关注的焦点. 然而, 量子硬件存在稀缺性和噪声等问题, 这使得研究量子算法、验证量子芯片等行为都依赖运行在经典计算机上的量子模拟器. 本文讨论了不同量子模拟器使用的主要模拟方法, 并讨论了主流的全振幅状态向量模拟器和基于张量网络的量子模拟器的各种优化. 最后, 我们总结了量子模拟器的现状和未来发展方向.  相似文献   

2.
半经典量子傅里叶变换(quantum Fourier transform,QFT)是通过测量计算线路中特定的比特,依据测量结果经过经典信息处理控制下一个比特的变换.利用半经典量子傅里叶变换思想,提出了t-比特半经典量子相位估计算法,并在IBMQ Experience量子云平台、IBMqiskit量子模拟器和国内本源悟源云平台量子模拟器上开展了不同规模的半经典相位估计实验.实验表明,该方法提高了估计精度的同时减少了算法对线路规模和两比特受控门的依赖.  相似文献   

3.
量子计算是一种遵循量子力学规律来调控量子信息单元进行计算的新型计算模式,而量子算法由一系列量子门组合而成,其实现形式为量子线路。量子线路是对量子比特进行操作的线路,以量子比特为基本的存储单元,将量子逻辑门连接在一起来实现特定的计算功能。文中在“嵩山”超级计算机上利用MPI+OpenMP混合并行编程模型,实现了将大规模量子线路拆分到不同节点上进行构建,加快了线路的构建速度,并且在CPU集群系统上具有良好的可拓展性。针对节点间通信问题,设计了序列化和反序列化函数,以保证节点间数据的传输,并且根据各节点所分配任务量间存在的指数级差异,设计了一种拆分任务量、各节点轮循处理的优化方式,实现了节点间的负载均衡。最后在超级计算机CPU集群上成功实现了大规模的量子相位估计线路的构造,相较于单节点取得了8.63的加速比,并通过HHL算法验证了所设计的并行相位估计子模块的正确性,为大规模HHL算法在超算平台上的实现提供了参考。  相似文献   

4.
目前,基于GPU或多核CPU加速的光线跟踪算法是与硬件相关的.研究具有跨平台性能的实时光线跟踪算法既具有挑战性,又具有很强的应用价值.为此,提出一种基于OpenCL并且跨平台的动态场景实时光线跟踪绘制算法.首先通过对通用GPU并行处理性能进行发掘,将光线跟踪中KD-Tree建立、场景遍历和绘制3个过程均设计在GPU上,而CPU只负责其中各过程的调度,从而充分利用了GPU的计算性能,并有效地降低了数据传输开销;通过设计并行分区、并行SAH、紧密的数据管理以及区间性叶结点存储等算法,在GPU中高效、高质量地建立动态场景的KD-Tree,同时高质量的KD-Tree也有效地加速了场景的遍历速度.该算法以广度优先和大规模并行模式建立K D-Tree,更具通用性,既可以运行于NVIDIA GPU(CUDA GPU),也可以运行于AMD GPU.实验结果表明,文中算法可以在NVIDIA GPU和AMD GPU上对中等规模的动态场景实现实时光线跟踪绘制.  相似文献   

5.
应用GPU集群加速计算蛋白质分子场   总被引:3,自引:2,他引:1  
针对生物化学计算中采用量子化学理论计算蛋白质分子场所带来的巨大计算量的问题,搭建起一个GPU集群系统,用来加速计算基于量子化学的蛋白质分子场.该系统采用消息传递并行编程环境(MPI)连接集群各结点,以开放多线程OpenMP编程标准作为多核CPU编程环境,以CUDA语言作为GPU编程环境,提出并实现了集群系统结点中GPU和多核CPU协同计算的并行加速架构优化设计.在保持较高计算精度的前提下,结合MPI,OpenMP和CUDA混合编程模式,大大提高了系统的计算性能,并对不同体系和规模的蛋白质分子场模拟进行了计算分析.与相应的CPU集群、GPU单机和CPU单机计算方法对比,该GPU集群大幅度地提高了高分辨率复杂蛋白质分子场模拟的计算效率,比CPU集群的平均计算加速比提高了7.5倍.  相似文献   

6.
量子线路模型是使用最广泛的量子计算模型,它对于量子算法的构造和量子计算机的物理实现提供了一个基本框架.利用测量演算和分布式量子计算的基本思想,提出了测量量子线路模型(measurement quantum circuits model).测量量子线路主要考虑测量结果对酉运算的影响,测量结果和酉运算之间的关系以及测量基量子线路的在纯态和混合态上的作用.讨论了2个基元运算的并运算,以及连接运算,它们都是封闭的.基于此,定义测量量子线路的基本运算元,并证明任何一个测量量子线路是一个量子运算并举例得以说明.  相似文献   

7.
现有CPU加速的高性能Linpack基准测试程序(HPL)一般采用基于实际运算能力的动态负载均衡算法来实现。然而该算法在单节点多GPU的平台上表现不佳,其原因是单节点多GPU平台上单个GPU计算量小,并且GPU与CPU的总性能差距较大。为此,提出了经验指导的动态负载均衡算法以及多GPU自适应负载均衡算法,并且在单节点多GPU平台上进行了验证,结果显示,其比现有的基于NVIDIA费米GPU的HPI有6.3%的加速效果。  相似文献   

8.
在处理某些大规模并行问题时,量子计算因量子位独特的叠加态和纠缠态特性,相比经典计算机在并行处理方面具有更明显的优势。现阶段,物理量子比特计算机受限于可扩展性、相干时间和量子门操作精度,在经典计算机上开展量子计算模拟成为研究量子优越性和量子算法的有效途径。然而,随着量子比特数的增加,模拟所需的计算机资源呈指数增长。因此,研究大规模量子计算模拟在保证计算准确度、精度及效率的情况下减少模拟所需资源具有重要意义。从量子比特、量子门、量子线路、量子操作系统等方面展开,阐述量子计算的基本原理和背景知识。同时总结基于经典计算机的量子计算模拟基本方法,分析不同方法的设计思路和优缺点,列举目前常见的量子计算模拟器。在此基础上,针对量子计算模拟的通信开销问题,从节点拆分和通信优化2个方面出发,讨论基于超级计算机集群的量子计算模拟优化方法。  相似文献   

9.
陈章  高甄 《福建电脑》2008,(1):75-76
本文从AMP方法解SAT问题入手,在量子体系计算机上寻求求解SAT问题的完备解的计算方法。从量子力学理论和Deutch的量子计算理论出发讨论通用量子逻辑门和构建布尔与门和或门的方法,最后,本文给出在量子模拟器上运用量子逻辑门阵列求解SAT问题的计算步骤。  相似文献   

10.
"嵩山"超级计算机系统是中国自主研发的新一代异构超级计算机集群,其搭载的CPU和DCU加速器均为我国自主研发.为扩充该平台的科学计算生态,验证量子计算研究在该平台上开展的可行性,文中使用异构编程模型实现了量子傅里叶变换模拟在"嵩山"超级计算机系统上的异构版本,将程序的计算热点部分分配至DCU上运行;然后使用MPI在单计算节点上开启多进程,实现DCU加速器数据传输和计算的并发;最后,通过计算与通信的隐藏避免了DCU在数据传输时处于较长时间的空闲状态.实验首次在超算系统上实现了44 Qubits规模的量子傅里叶变换模拟,结果显示,异构版本的量子傅里叶变换模拟充分利用了DCU加速器计算资源,相较于传统CPU版本,其取得了11.594的加速比,且在集群上具有良好的可拓展性,该方法为其他量子算法在"嵩山"超级计算机系统上的模拟实现以及优化提供了参考.  相似文献   

11.
In recent years, many researchers have been using CPU for quantum computing simulation. However, in reality, the simulation efficiency of the large-scale simulator is low on a single node. Therefore, striving to improve the simulator efficiency on a single node has become a serious challenge that many researchers need to solve. After many experiments, we found that much computational redundancy and frequent memory access are important factors that hinder the efficient operation of the CPU. This paper proposes a new powerful and simple quantum computing simulator: PAS (power and simple). Compared with existing simulators, PAS introduces four novel optimization methods: efficient hybrid vectorization, fast bitwise operation, memory access filtering, and quantum tracking. In the experiment, we tested the QFT (quantum Fourier transform) and RQC (random quantum circuits) of 21 to 30 qubits and selected the state-of-the-art simulator QuEST (quantum exact simulation toolkit) as the benchmark. After experiments, we have concluded that PAS compared with QuEST can achieve a mean speedup of (QFT), (RQC) (up to , ) on the Intel Xeon E5-2670 v3 CPU.  相似文献   

12.
针对非结构网格隐式算法在GPU上的加速效果不佳的问题,通过分析GPU的架构及并行模式,研究并实现了基于非结构网格格点格式的隐式LU-SGS算法的GPU并行加速.通过采用RCM和Metis网格重排序(重组)方法,优化非结构网格的数据局部性,改善非结构网格的隐式算法在GPU上的并行加速效果.通过三维机翼算例验证了本文实现的正确性及效率.结果表明两种网格重排序(重组)方法分别得到了63%和69%的加速效果提高.优化后的LU-SGS隐式GPU并行算法获得了相较于CPU串行算法27倍的加速比,充分说明了本文方法的高效性.  相似文献   

13.
提出了一种基于开放运算语言(OpenCL)的GPU加速三维时域有限差分(FDTD)电磁场仿真计算的方法.该方法利用图形处理单元(GPU)的并行处理特性并结合OpenCL接口标准实现了时域卷积完全匹配层(CPML)吸收边界条件的三维FDTD的高性能加速计算.首先设置FDTD仿真参数并动态申请内存空间,然后初始化OpenCL的计算参数,对三维电磁模型基于OpenCL进行FDTD加速仿真.本方法显著提升了FDTD电磁场仿真速度,与利用CPU计算相比速度提升可达5-8倍,且具有CPML吸收边界条件,可以模拟电磁波在自由空间的传播;基于OpenCL编译的语言程序可以运行在CPU或GPU硬件上,并可充分发挥多核CPU的并行计算能力,使得FDTD电磁场仿真具有更广泛的实际应用.  相似文献   

14.
徐启迪  刘争红  郑霖 《计算机应用》2022,42(12):3841-3846
随着通信技术的发展,通信终端逐渐采用软件的方式来兼容多种通信制式和协议。针对以计算机中央处理器(CPU)作为运算单元的传统软件无线电架构,无法满足高速无线通信系统如多进多出(MIMO)等宽带数据的吞吐率要求问题,提出了一种基于图形处理器(GPU)的低密度奇偶校验(LDPC)码译码器的加速方法。首先,根据GPU并行加速异构计算在GNU Radio 4G/5G物理层信号处理模块中的加速表现的理论分析,采用了并行效率更高的分层归一化最小和(LNMS)算法;其次,通过使用全局同步策略、合理分配GPU内存空间以及流并行机制等方法减少了译码器的译码时延,同时配合GPU多线程并行技术对LDPC码的译码流程进行了并行优化;最后,在软件无线电平台上对提出的GPU加速译码器进行了实现与验证,并分析了该并行译码器的误码率性能和加速性能的瓶颈。实验结果表明,与传统的CPU串行码处理方式相比,CPU+GPU异构平台对LDPC码的译码速率可提升至原来的200倍左右,译码器的吞吐量可以达到1 Gb/s以上,特别是在大规模数据的情况下对传统译码器的译码性有着较大的提升。  相似文献   

15.
现代GPU一般都提供特定硬件(如纹理部件、光栅化部件及各种片上缓存)以加速二维图像的处理和显示过程,相应的编程模型(CUDA、OpenCL)都定义了特定程序设计接口(CUDA的纹理内存,OpenCL的图像对象)以便图像应用能利用相关硬件支持。以典型图像模糊化处理算法在AMD平台GPU的优化为例,探讨了OpenCL的图像对象在图像算法优化上的适用范围,尤其是分析了其相对于更通用的基于全局内存加片上局部存储进行性能优化的方法的优劣。实验结果表明,图像对象只有在图像为四通道且计算过程中需要缓存的数据量较小时才能带来较好的性能改善,其余情况采用全局内存加局部存储都能获得较好性能。优化后的算法性能相对于精心实现的CPU版加速比为200~1000;相对于NVIDIA NPP库相应函数的性能加速比为1.3~5。  相似文献   

16.
Simulating quantum computation on a classical computer is a difficult problem. The matrices representing quantum gates, and the vectors modeling qubit states grow exponentially with an increase in the number of qubits. However, by using a novel data structure called the Quantum Information Decision Diagram (QuIDD) that exploits the structure of quantum operators, a useful subset of operator matrices and state vectors can be represented in a form that grows polynomially with the number of qubits. This subset contains, but is not limited to, any equal superposition of n qubits, any computational basis state, n-qubit Pauli matrices, and n-qubit Hadamard matrices. It does not, however, contain the discrete Fourier transform (employed in Shor's algorithm) and some oracles used in Grover's algorithm. We first introduce and motivate decision diagrams and QuIDDs. We then analyze the runtime and memory complexity of QuIDD operations. Finally, we empirically validate QuIDD-based simulation by means of a general-purpose quantum computing simulator QuIDDPro implemented in C++. We simulate various instances of Grover's algorithm with QuIDDPro, and the results demonstrate that QuIDDs asymptotically outperform all other known simulation techniques. Our simulations also show that well-known worst-case instances of classical searching can be circumvented in many specific cases by data compression techniques. PACS: 03.67.Lx, 03.65.Fd, 03.65.Vd, 07.05.Bx  相似文献   

17.
We present a multigrid approach for simulating elastic deformable objects in real time on recent NVIDIA GPU architectures. To accurately simulate large deformations we consider the co-rotated strain formulation. Our method is based on a finite element discretization of the deformable object using hexahedra. It draws upon recent work on multigrid schemes for the efficient numerical solution of partial differential equations on such discretizations. Due to the regular shape of the numerical stencil induced by the hexahedral regime, and since we use matrix-free formulations of all multigrid steps, computations and data layout can be restructured to avoid execution divergence of parallel running threads and to enable coalescing of memory accesses into single memory transactions. This enables to effectively exploit the GPU’s parallel processing units and high memory bandwidth via the CUDA parallel programming API. We demonstrate performance gains of up to a factor of 27 and 4 compared to a highly optimized CPU implementation on a single CPU core and 8 CPU cores, respectively. For hexahedral models consisting of as many as 269,000 elements our approach achieves physics-based simulation at 11 time steps per second.  相似文献   

18.
The Building-Cube Method (BCM) based on equally-spaced Cartesian meshes has been proposed as a next generation CFD method. Due to the equally-spaced meshes, it is well suited for highly parallel computation. This paper proposes a parallel implementation scheme of BCM on a GPU cluster system, which needs efficient hierarchical parallel processing to exploit the potential of the cluster system. The proposed scheme employs the Red-Black SOR method for the pressure calculations, which is the most time-consuming part of BCM, to obtain massive data parallelism of BCM. By exploiting the coarse-grain and fine-grain parallelism of BCM, the proposed scheme hierarchically assigns equally-divided tasks into the GPU cluster system. Furthermore, to exploit the computational power of GPUs in the cluster system, the proposed scheme employs an efficient data management such as coalesced data transfer and reusing data on an on-chip memory. Experimental results show that the single GPU implementation can achieve about three times higher performance than the single CPU one. Moreover, the multiple GPU implementation can achieve an almost ideal scalability. Finally, the possibility of further acceleration of not only the pressure calculation but also the whole BCM is discussed.  相似文献   

19.
作为提高CPU读取和存储数据的效率,弥补与主存之间存取速度差距的有效策略,CPU的缓存(Cache)充分利用其对数据使用的局部性原理,对最近或最常使用的数据进行暂存,对CPU的性能起着决定性作用.缓存的微架构正是决定缓存性能的关键性因素.然而,现代先进的CPU缓存都具备极为复杂的结构,存在多种策略、多种硬件算法和多个层级等不同维度的设计,从硬件上直接设计和论证不仅耗时而且成本很高,Cache微架构模拟器正是用软件方法对硬件微架构进行模拟和仿真.设计一款结构优良的缓存,对不同微架构进行评估,是一件具有深远意义的工作.本文从硬件结构出发,设计实现了一款多级、高可配、高可扩展的缓存微架构功能模拟器CMFSim(Cache microarchitecture functional simulator),实现了常见的缓存策略和硬件算法,可以进行给定配置下的缓存功能的模拟,从而分析配置参数与缓存性能间的关系.  相似文献   

20.
An online beam dynamics simulator is being developed for use in the operation of an ion linear particle accelerator. By employing Graphics Processing Unit (GPU) technology, the performance of the simulator has been significantly increased over that of a single CPU and is therefore viable in the demanding accelerator operations environment. Once connected to the accelerator control system, it can rapidly respond to any control set point changes and predict beam properties along an ion linear accelerator in pseudo-real time. This simulator will be a virtual beam diagnostic tool which is especially useful when direct beam measurements are not available. Details about the code structure design, physics algorithms, GPU implementations, and performance are presented.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号