首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
索引作为加速数据库查询的一种成熟技术,始终受限于CPU的内存带宽与架构的发展,因此无法在性能上实现质的飞跃.所以使用GPU赋能索引技术来辅助数据库执行查询任务是势在必行的.因此,针对异构环境下索引结构的适应性以及现有GPU索引受限于显存容量导致扩展性不够等问题,提出了一种CPU与GPU协同处理的HPGB+-Tree索引算法.该算法以混合架构的方式重新构建索引结构,使其完全适应GPU的硬件特性,突破CPU内存带宽受限和GPU内存容量受限的双重难关.HPGB+-Tree索引不仅解决了索引异构问题,还充分利用两大硬件平台各自的优势加速基于索引的相关操作.在不同数据量与不同任务规模下对算法的性能进行了评估,实验结果表明,该算法在内核占用率与程序执行速度两个方面都极具优势,在性能上处于领先地位.  相似文献   

2.
实时碰撞检测是计算机图形应用中不可缺少的组成部分。随着高性能可编程图形处理器(GPU)的发展,出现了许多利用GPU来解决复杂物体间的碰撞检测问题的方法。提出了一种基于GPU的对参数化表面的碰撞检测方法。通过使用几何图像表示的参数化表面,实时的生成GPU优化的包围体层次结构,然后在这个层次结构的基础上实现优化的基于GPU的层次碰撞检测算法。结果显示本方法可以有效的提高碰撞检测的速度,相对于在CPU上实现同样的层次结构遍历方法,基于GPU的方法可以将碰撞检测速度平均提高13%左右。  相似文献   

3.
针对联机分析处理(OLAP)中事实表与多个维表之间的星形连接执行代价较高的问题,提出了一种在先进的多核中央处理器(CPU)和图形处理器(GPU)上的星形连接优化方法。首先,对于多核CPU和GPU平台的星形连接中的物化代价问题,提出了基于向量索引的CPU和GPU平台上的向量化星形连接算法;然后,通过面向CPU cache和GPU shared memory大小的向量划分来提出基于向量粒度的星形连接操作,从而优化星形连接中向量索引的物化代价;最后,提出了基于压缩向量的星形连接算法,将定长向量索引压缩为变长的二元向量索引,从而在低选择率时提高cache内向量索引的存储访问效率。实验结果表明,在CPU平台上向量化星形连接算法相对于常规的行式或列式连接性能提升了40%以上,在GPU平台上向量化星形连接算法相对于常规星形连接算法性能提升超过了15%;与当前主流的内存数据库和GPU数据库相比,优化的星形连接算法性能相对于最优内存数据库Hyper性能提升了130%,相对于最优的GPU数据库OmniSci性能提升了80%。可见基于向量索引的向量化星形连接优化技术有效地提高了多表连接性能,与传统优化技术相比,基于向量索引的向量化处理提高了较小cache上的数据存储访问效率,压缩向量进一步提升了向量索引在cache内的访问效率。  相似文献   

4.
GPU实时构建四叉树的快速地形渲染算法   总被引:3,自引:0,他引:3  
针对传统四叉树场景渲染CPU占用率高、带宽开销大的缺陷,提出一种适合于GPU实现的四叉树场景分割和渲染算法.利用纹理和像素着色器实时构建四叉树,使用几何着色器实现GPU对四叉树的遍历和场景分割;针对已有的动态构建算法中裂缝消除算法难以用GPU实现的缺点,通过在四叉树构建中引入"过渡集"的概念,有效地消除了不同分辨率层次之间可能出现的裂缝.实验结果证明,与传统的动态构建算法相比,文中算法易于GPU实现,无需CPU干预,并降低了带宽开销,可以达到较高的帧速率.  相似文献   

5.
张珩  崔强  侯朋朋  武延军  赵琛 《软件学报》2020,31(4):1225-1239
在复杂网络理论中,core分解是一种最基本的度量网络节点“重要性”并分析核心子图的方法.Core分解广泛应用于社交网络的用户行为分析、复杂网络的可视化、大型软件的代码静态分析等应用.随着复杂网络的图数据规模和复杂性的增大,现有研究工作基于多核CPU环境设计core分解并行算法,由于CPU核数和内存带宽的局限性,已经无法满足大数据量的高性能计算需求,严重影响了复杂网络的分析应用.通用GPU提供了1万以上线程数的高并行计算能力和高于100GB/s访存带宽,已被广泛应用于大规模图数据的高效并行分析,如广度优先遍历和最短路径算法等.为了实现更为高效的core分解,提出面向GPU平台下的复杂网络core分解的两种并行策略.第1种RLCore策略基于图遍历思想,利用GPU高并发计算能力对网络图结构自底向上遍历,逐步迭代设置各节点所属的core层;第2种ESCore策略基于局部收敛思想,对各节点从邻居节点当前值进行汇聚计算更新直至收敛.ESCore相比RLCore能够大大降低遍历过程中GPU线程更新同一节点的同步操作开销,而其算法的迭代次数受收敛率的影响.在真实网络图数据上的实验结果表明,所提出的两个策略在效率和扩展性方面能够大幅优于现有其他方法,相比单线程上的算法高达33.6倍性能提升,且遍历边的吞吐性能(TEPS)达到406万条/s,单轮迭代的ESCore的执行效率高于RLCore.  相似文献   

6.
张延松  刘专  韩瑞琛  张宇  王珊 《软件学报》2023,34(11):5205-5229
GPU数据库近年来在学术界和工业界吸引了大量的关注. 尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统, 但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问, 如果能够超越, 那什么样的负载/数据/查询处理模型更加适合, 则需要更深入的研究. 基于GPU的OLAP引擎有两个主要的技术路线: GPU内存处理模式和GPU加速模式. 前者将所有的数据集存储在GPU显存来充分利用GPU的计算性能和高带宽内存性能, 不足之处在于GPU容量有限的显存制约了数据集大小以及稀疏访问模式的数据存储降低GPU显存的存储效率. 后者只在GPU显存中存储部分数据集并通过GPU加速计算密集型负载来支持大数据集, 主要的挑战在于如何为GPU显存选择优化的数据分布和负载分布模型来最小化PCIe传输代价和最大化GPU计算效率. 致力于将两种技术路线集成到OLAP加速引擎中, 研究一个定制化的混合CPU-GPU平台上的OLAP框架OLAP Accelerator, 设计CPU内存计算、GPU内存计算和GPU加速3种OLAP计算模型, 实现GPU平台向量化查询处理技术, 优化显存利用率和查询性能, 探索GPU数据库的不同的技术路线和性能特征. 实验结果显示GPU内存向量化查询处理模型在性能和内存利用率两方面获得最佳性能, 与OmniSciDB和Hyper数据库相比性能达到3.1和4.2倍加速. 基于分区的GPU加速模式仅加速了连接负载来平衡CPU和GPU端的负载, 能够比GPU内存模式支持更大的数据集.  相似文献   

7.
为有效提高异构的CPU/GPU集群计算性能,提出一种支持异构集群的CPU与GPU协同计算的两级动态调度算法。根据各节点计算能力评测结果和任务请求动态分发数据,在节点内CPU和GPU之间动态调度任务,使用数据缓存和数据处理双队列机制,提高异构集群的传输和处理效率。该算法实现了集群各节点“能者多劳”,避免了单节点性能瓶颈造成的任务长尾现象。实验结果表明,该算法较传统MPI/GPU并行计算性能提高了11倍。  相似文献   

8.
伍世刚  钟诚 《计算机应用》2014,34(7):1857-1861
依据各级缓存容量,将CPU主存中种群个体和蚂蚁个体数据划分存储到一级、二级和三级缓存中,以减少并行计算过程中数据在各级存储之间的传输开销,在CPU与GPU之间采取异步传送和不完全传送数据、GPU多个内核函数异步执行多个流的方法,设置GPU block线程数量为16的倍数、GPU共享存储器划分大小为32倍的bank,使用GPU常量存储器存储交叉概率、变异概率等需频繁访问的只读参数,将输入串矩阵和重叠部分长度矩阵只读大数据结构绑定到GPU纹理存储器,设计实现了一种多核CPU和GPU协同求解最短公共超串问题的计算、存储和通信高效的并行算法。求解多种规模的最短公共超串问题的实验结果表明,多核CPU与GPU协同并行算法比串行算法快70倍以上。  相似文献   

9.
目前,基于GPU或多核CPU加速的光线跟踪算法是与硬件相关的.研究具有跨平台性能的实时光线跟踪算法既具有挑战性,又具有很强的应用价值.为此,提出一种基于OpenCL并且跨平台的动态场景实时光线跟踪绘制算法.首先通过对通用GPU并行处理性能进行发掘,将光线跟踪中KD-Tree建立、场景遍历和绘制3个过程均设计在GPU上,而CPU只负责其中各过程的调度,从而充分利用了GPU的计算性能,并有效地降低了数据传输开销;通过设计并行分区、并行SAH、紧密的数据管理以及区间性叶结点存储等算法,在GPU中高效、高质量地建立动态场景的KD-Tree,同时高质量的KD-Tree也有效地加速了场景的遍历速度.该算法以广度优先和大规模并行模式建立K D-Tree,更具通用性,既可以运行于NVIDIA GPU(CUDA GPU),也可以运行于AMD GPU.实验结果表明,文中算法可以在NVIDIA GPU和AMD GPU上对中等规模的动态场景实现实时光线跟踪绘制.  相似文献   

10.
三维锥束CT图像重建运算量大,纯软件(仅使用CPU)计算时间较长。为了充分利用计算机图形处理器(Graphic Process Unit,GPU)的并行处理能力以及提高数据传输效率,研究了一种结合使用GPU多重纹理(multitexture)加速三维锥束CT的FDK图像重建过程的方法。该方法采用多重纹理映射来提高反投影速度、减少中间数据存储量、减少浮点累加次数,使用顶点颜色通道来实现距离加权运算,采用扩展方法来增加并行反投影的纹理单元,从而提高重建速度。计算机实验结果表明,使用普通PC机重建尺寸为2563的图像,在保证数据精度为16 bit浮点数的要求下,GPU反投影计算可以在10 s以内完成。与仅使用CPU的重建方法相比,GPU重建图像加速方法达到了较高的时间加速比。  相似文献   

11.
结构化方法与面向对象方法是软件开发程序设计中的2个核心思想。这两种程序设计方法不仅表现为在程序语言、分析与设计上的差异,更表现在开发思想和开发视角上的差异。  相似文献   

12.
本文在论述模式识别的统计方法和模糊方法的共同性、差异以及各自适用范围的基础上, 研究了模式识别的统计模糊方法和模糊统计方法.统计模糊方法是在模糊分类器中充分利用 模式分量统计信息的隶属函数,使分类性能优于普通的模糊分类器.模糊统计方法是在以统 计方法为基础的分类器中,用模式分量的模糊隶属函数代替模式分量作为分类器输入.从对 本文中几个数据集所作的分类试验结果看,这种方法只需要不大的训练样本集便可使分类性 能接近于Bayes分类器的最佳水平.  相似文献   

13.
介绍了指数平滑法和Croston法,分析了指数平滑法和两步法的工作原理,结合备件需求预测问题,通过对指数平滑法和两步法方差的分析,得到两步法比指数平滑法具有更好的鲁棒性。为进一步研究两步法提供一定的理论基础。  相似文献   

14.
Dijkstra算法和矩阵迭代算法都是最短路径问题中的重要方法,然而两种方法中哪种方法具有更高计算效率?为了找到问题答案,文章通过对两种方法的介绍,另外通过MatLab平台对两种方法分别编程,同时进行实例的计算,然后通过各项指标对实验结果比较,得出结论,矩阵迭代算法较dijkstra算法具有更高效的计算能力,其简洁计算方式更便于计算机编程。此次研究有利于对两种最短路径方法有更深刻的认识,便于今后在实际应用中选择具有针对性的方法。  相似文献   

15.
笔者主要讨论基于关键字驱动的Web功能自动化测试方法与实现方式。以面向对象语言Python2.0+selenium2.0为自动化脚本开发的环境,结合Pycharm脚本编辑的IDE,在此环境下开发自动化脚本以实现Web功能自动化。目前,最为流行的软件开发方式是敏捷开发,开发后的软件不但要测试新的功能,也要回归老的功能;另外涉及软件版本的改版、优化或者升级同样需要对新功能的测试与老功能的回归。为了有效解决回归测试的不一致性的问题,引入自动化测试便是一个很好的选择,它能提高软件质量,节省经费,缩短产品发布周期。笔者主要讨论通过关键字定位页面元素,Selenium2.0采用Webdriver方式驱动浏览器在Web页面自动化实现方法与方式,希望能为自动化脚本开发与测试中提供借鉴和帮助.  相似文献   

16.
多相图像分割的Split-Bregman方法及对偶方法   总被引:1,自引:0,他引:1  
变分水平集方法为多相图像分割提供了统一框架,但其能量泛函的局部极值问题和较低的计算效率制约着该类方法的应用,文中针对此问题提出一种改进模型和方法.首先将两相图像分割的全局凸优化模型推广到多相图像分割,建立了多相图像分割的交替凸优化变分模型,以改善传统模型的局部极值问题;然后提出了相应的快速Split-Bregman方法和对偶方法来提高计算效率,其中Split-Bregman方法通过引入辅助变量将凸松弛后的变分问题转化为简单的Poisson方程和精确的软阈值公式,对偶方法则通过引入对偶变量将该问题转化为对偶变量的半隐式迭代计算和主变量的精确计算公式.文中的改进模型适用于任意多相图像分割,且对二维和三维图像分割具有相同形式,可用于三维图像的多对象自动形状恢复.最后通过多个数值算例验证了文中方法的计算效率优于传统的方法.  相似文献   

17.
随着形式化方法技术的不断发展,各具特色的形式化方法不断的涌现出来,这些形式化方法都有着各自不同的特点,该文力图改变众多形式化方法的单一性,使得形式化方法既能够描述软件系统的某些方面(数据,结构,行为),又能够描述某种类型的软件系统(顺序,并发和分布).该文使用的是集成化的方法,即将Petri网和B语言集成起来,通过结合petri网和B方法,主要是为了能够用B方法来扩展Petri网在数据和函数定义方面的能力;通过Petri网扩展B方法在明确表示操作语义和描述并发系统方面的能力.通过集成,可以发现集成后的Petri-B网可以描述和分析系统的不同方面(结构,控制,数据和功能)和不同类型的系统(顺序,并发和分布式).  相似文献   

18.
基于三帧差法和交叉熵阈值法的车辆检测   总被引:3,自引:1,他引:2       下载免费PDF全文
考虑运动车辆图像的时间相关性和空间相关性,采用三帧差分法与二维交叉熵阈值法相结合的方法对运动车辆进行检测。利用三帧差分法对视频图像进行运动车辆的检测,得到灰度图像的差分图像,使用二维交叉熵阈值法对差分图像进行二值化。实验结果证明,该方案能够检测出完整的运动车辆,具有良好的可靠性和鲁棒性,满足智能交通系统的要求。  相似文献   

19.
This paper proposes an advanced M/T method called Relay-style Digital Speed Measurement Method. Its speed measurement is triggered by encoder pulse signals, which simplifies the complexity of processing incapability of synchronization in the classical method, and it makes actual sampling point always occur before the periodic sampling point in relay-style, which achieves the continuous dynamic iterative measurement with high accuracy in a wide speed range. Through counting the overflow pulses of time counter by software, the minimally measurable speed can be effectively extended to an extremely low level without adding any hardware. In addition, by utilizing the information in speed measurement and subdividing dynamic position by time according to its corresponding relationship with time, Dynamic Position Subdivision Method is achieved to improve the feedback resolution of dynamic position. Finally, the experimental results show that Relay-style Digital Speed Measurement Method can obtain high accuracy than classical method in a wide speed range even though at a very low speed Dynamic Position Subdivision Method is helpful to reduce the fluctuations of the position control.  相似文献   

20.
本文介绍了Java远程方法调用(RMI)的优点与结构,并提出了如何将其连接到现有和原有系统中的方法以及如何编写客户湍、服务器端的程序以实现远程调用的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号