期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李琳李肯立《计算机工程与应用》2008,44(31):53-56

鉴于Larsen等人利用图形处理器(GPU)的多纹理技术做矩阵运算操作,以实现GPU在矩阵相乘方面的通用计算,提出一种利用GPU和CPU的协同处理模式,应用在基于层次聚类的动态近邻选择模型的聚类算法(DNNS)中,将算法中比较耗时的邻接度矩阵计算步骤交由GPU完成,而算法其余步骤由CPU执行,从而使算法的聚类效率得到显著提高。在配有Pentium IV 3.4G CPU和NVIDIA GeForce 7800GT显卡的硬件环境下经过实验测试,证明这种协同处理模式下的运算速度比完全采用CPU计算速度要快25%左右。这种改进的层次聚类算法适合在数据流环境下对大量数据进行实时高效聚类操作。相似文献

2.

图形处理器在分层聚类算法中的通用计算研究* 总被引：1，自引：0，他引：1

李琳李肯立朱雅丽《计算机应用研究》2008,25(8):2319-2321

ROCK是一种采用数据点间的公共链接数来衡量相似度的分层聚类方法,该方法对于高维、稀疏特征的分类数据具有高效的聚类效果。其邻接度矩阵计算是影响时间复杂度的关键步骤,将图形处理器(GPU)强大的浮点运算和超强的并行计算能力应用于此步骤,而其余步骤由CPU完成。基于GPU的ROCK算法的运算效率在AMD 643500+ CPU和NVIDIA GeForce 6800 GT显卡的硬件环境下经过实验测试,证明其运算速度比完全采用CPU计算速度要快。改进的分层聚类算法适合在数据流环境下对大量数据进行实时高效的聚类的相似文献

3.

基于CUDA的热传导GPU并行算法研究

孟小华黄丛珊朱丽莎《计算机工程》2014,(5):41-44,48

在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式,提出并实现一个基于CUDA的热传导GPU并行算法。根据GPU硬件配置设定Block和Grid的大小,将粒子划分为若干个block,粒子输入到GPU显卡中并行计算,每一个线程执行一个粒子计算,并将结果传回CPU主存,由CPU计算出每个粒子的平均热流。实验结果表明,与CPU串行算法在时间效率方面进行对比,该算法在粒子数到达16 000时,加速比提高近900倍,并且加速比随着粒子数的增加而加速提高。相似文献

4.

基于图形处理器的数据流快速聚类 总被引：16，自引：1，他引：16

曹锋周傲英《软件学报》2007,18(2):291-302

在数据流环境下,聚类算法不仅需要有较高的聚类质量,同时需要有实时处理速度.因而,提出了一类基于图形处理器(graphics processing unit,简称GPU)的快速聚类方法,包括基于K-means的基本聚类方法、基于GPU的数据流聚类以及数据流簇进化分析方法.这些方法的共同特点是充分利用了GPU强大的处理能力和流水线特性.与以往具有独立框架的数据流聚类算法不同,这些基于GPU的聚类算法具有同一框架和多种聚类分析功能,为数据流聚类分析提供了统一的平台.从分析可知,数据流聚类分析的核心操作实际上就是距离计算和比较.基于这一认识,利用GPU的子素向量处理功能进行距离计算.性能验证实验是在配有Pentium IV 3.4G CPU和NVIDIA GeForce 6800 GT显卡的PC上进行的.综合分析和实验结果表明,基于GPU的数据流聚类算法比传统的CPU算法平均快7倍,从而为高速数据流应用提供了良好的支持. 相似文献

5.

多核环境下Hilbert曲线划分简单要素多边形合并算法

陈占龙吴亮刘焕焕《计算机应用研究》2012,29(7):2747-2750

为了解决大规模复杂多边形数据合并运算效率问题,减少在空间数据库中检索多边形时的磁盘读取次数,针对多核环境下简单要素类多边形合并的特点,利用Hilbert曲线划分方法对简单要素的多边形进行空间数据划分,利用多核处理器并发执行,充分利用了多核计算环境中CPU的计算能力,保证了合理的任务分配与充分利用。介绍了该算法中用到的简单要素类多边形合并算子,利用对重合边的判断来进行多边形的合并;最后对提出的算法进行了实验分析。实验证明,本算法在进行大数据的多边形集合合并时效率较高,基于本算法开发的功能用于实际问题中可较好地解决大规模复杂多边形数据层合并运算的效率问题。相似文献

6.

基于图形处理器的边缘检测算法 总被引：1，自引：0，他引：1

张楠王建立王鸣浩《计算机科学》2010,37(1):265-267

边缘检测是一种高度并行的算法,计算量较大,传统的CPU处理难以满足实时要求。针对图像边缘检测问题的计算密集性,在分析常用边缘检测算法的基础上,利用CUDA(Compute Unified Device Architecture,计算统一设备架构)软硬件体系架构,提出了图像边缘检测的GPU(Graphics Processing Unit,图形处理器)实现方案。首先介绍GPU高强度并行运算的体系结构基础,并将Roberts和Sobel这两个具有代表性的图像边缘检测算法移植到GPU,然后利用当前同等价格的CPU和GPU进行对比实验,利用多幅不同分辨率图像作为测试数据,对比CPU和GPU方案的计算效率。实验结果表明,与相同算法的CPU实现相比,其GPU实现获得了相同的处理效果,并将计算效率最高提升到了17倍以上,以此证明GPU在数字图像处理的实际应用中大有潜力。相似文献

7.

CUDA平台下的实时超声扫描转换

王伟民王合闯王华军《计算机应用》2011,31(10):2760-2763

为了克服传统医学超声扫描转换不能实时的缺陷,实时超声扫描转换算法利用计算统一设备架构(CUDA)技术,通过分配最优的线程结构、合理规划中央处理器(CPU)和图形处理器(GPU)之间的数据传输方式和计算任务的划分,提高了算法的吞吐量,满足了实时性。传统CPU算法和3种GPU算法的实验结果对比显示,GPU处理3121×936大小的图片,帧速率可达746fps,并行算法加速比可达300以上。相似文献

8.

基于GPU栅格化的任意多边形布尔运算

《计算机工程》2018,(3)

任意多边形布尔运算大多基于CPU栅格化方法,而CPU的串行性会增加栅格化过程的耗时。为此,提出一种基于图形处理器(GPU)栅格化思想的多边形布尔运算算法。用GPU实现CPU中较耗时的二维图形栅格化过程并提取内外轮廓片元,构造GPU环境下的栅格数据结构及与之空间映射相对应的CPU环境下的顶点数据结构,采用CPU与GPU相协调的方式交替访问内外轮廓进行顶点跟踪及轮廓片元压缩,最终得到正确的布尔运算结果多边形。实验结果表明,与现有多边形布尔运算算法相比,该算法能有效控制精度,且具有更高的执行效率。相似文献

9.

多核CPU和GPU加速分子动力学模拟

林江宏林锦贤吕暾《计算机应用》2011,31(3):843-847

在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了计算机的处理能力。性能测试结果表明,相对于优化后的CPU串行计算,多核CPU-GPU异构并行计算模型有强大的性能优势,特别是将占整个程序执行时间90%的作用力的计算移植到GPU上执行,获得了最高可达12倍的计算加速比。相似文献

10.

基于GPU的皮肤变形算法

宫法明王永清高博《计算机工程与设计》2008,29(19)

为提高基于实例的皮肤变形算法的效率和速度,对加权姿态空间变形(WPSD)等算法进行了研究.WPSD中需要的逐顶点计算可以在GPU上以单指令流多数据流(SIMD)方式并行执行.并行顶点计算一般在GPU顶点处理器中执行,但是更进一步的并行操作是可以由片段处理器来获取到的.提出了一种基于GPU片段处理器实现的并行变形算法.每个顶点的关节权值可以由样本姿态自动的计算出,因此减少了手动操作,提高了WPSD等皮肤变形算法的质量. 相似文献

11.

基于图形处理器的模糊C均值聚类分割算法

刘刚梁晓庚贺学剑《计算机科学》2012,39(1):285-286,294

针对模糊C均值聚类图像分割算法运算量大、难于实时处理的问题,提出了一种基于图形处理器的加速算法。通过分析模糊C均值聚类算法各阶段可以并行处理的运算部分,利用计算统一设备架构软硬件结构,分别将隶属度矩阵计算、聚类中心计算和像素按隶属度归类3个部分改造成适合图形处理器硬件并行运行的形式。实验结果表明,相对于CPU串行算法,基于图形处理器的加速算法效率提升明显。鉴于大多数图像处理算法均具有可并行处理的部分,利用图形处理器进行加速具有普适性。相似文献

12.

异构集群上的宏基因组聚类优化

韦建文许志耿王丙强 Simon SEE 林新华《计算机科学》2017,44(3):20-22, 47

宏基因组基因聚类是筛选致病基因的新型方法,其依赖于海量的测序数据、有效的聚类算法以及高效的计算机来实现。相关系数矩阵的计算是进行聚类前必须完成的操作,占总计算量的比重较大。以某基因库为例,包含1300个样本、每样本百万基因的数据,单线程运行需要27年。充分发挥多核CPU的潜力,利用GPU加速卡强大的计算能力,将程序扩展到多节点集群上运行,是重要而迫切的工作。在仔细分析算法的基础上,首先针对单CPU节点和单GPU卡做了高效实现,获得了接近理想的加速比;然后利用缓存优化进一步提升性能;最后使用负载均衡方法在MPI线程间分发计算任务,实现了良好的扩展。相比未优化的单线程程序,16节点CPU获得了238.8倍的加速,6 块GPU卡获得了263.8倍的加速。相似文献

13.

基于异构并行计算的单细胞测序数据聚类算法

下载免费PDF全文

谢林娟李荔瑄张少强《计算机工程与应用》2022,58(24):83-89

随着单细胞RNA测序技术的发展,目前单细胞测序通量由上千细胞发展到主流上万细胞的规模。基于单细胞RNA测序数据的细胞分型是研究细胞的重要问题之一,该问题主要运用无监督聚类方法。现有针对大规模单细胞测序数据的聚类方法通过简化细胞关系网络来降低时间复杂度,从而导致细胞分型准确度降低。而常见较高准确度的细胞分型方法无法处理大规模数据。为此,采用将[k]最近邻与细胞相似度阈值结合构建全新的细胞关系网络,并采用CPU+GPU异构并行计算提高运算速度,通过改进的马尔科夫聚类算法进行细胞聚类。通过在七个较大规模单细胞数据集上实验,发现该算法比现有主要算法具有更好的聚类准确度,从而适合基于主流单细胞测序技术数据的细胞分型。相似文献

14.

对K-means及势函数聚类算法的研究与改进

叶于林夏秀渝莫建华刘帅《计算机系统应用》2015,24(4):209-213

在目前聚类方法中, k-means与势函数是最常用的算法,虽然两种算法有很多优点,但也存在自身的局限性。 k-means聚类算法：其聚类数目无法确定,需要提前进行预估,同时对初始聚类中心敏感,且容易受到异常点干扰;势函数聚类算法：其聚类区间范围有限,对多维数据进行聚类其效率低。针对以上两种算法的缺点,提出了一种基于 K-means 与势函数法的改进聚类算法。它首先采用势函数法确定聚类数目与初始中心,然后利用K-means法进行聚类,该改进算法具有势函数法“盲”特性及K-means法高效性的优点。实验对改进算法的有效性进行了验证,结果表明,改进算法在聚类精度及收敛速度方面有很大提高。相似文献

15.

Hierarchical parallel processing of large scale data clustering on a PC cluster with GPU co-processing

Hiroyuki Takizawa Hiroaki Kobayashi 《The Journal of supercomputing》2006,36(3):219-234

This paper presents an effective scheme for clustering a huge data set using a PC cluster system, in which each PC is equipped with a commodity programmable graphics processing unit (GPU). The proposed scheme is devised to achieve three-level hierarchical parallel processing of massive data clustering. The divide-and-conquer approach to parallel data clustering is employed to perform the coarse-grain parallel processing by multiple PCs with a message passing mechanism. By taking advantage of the GPU’s parallel processing capability, moreover, the proposed scheme can exploit two types of the fine-grain data parallelism at the different levels in the nearest neighbor search, which is the most computationally-intensive part of the data-clustering process. The performance of our scheme is discussed in comparison with that of the implementation entirely running on CPU. Experimental results clearly show that the proposed hierarchial parallel processing can remarkably accelerate the data clustering task. Especially, GPU co-processing is quite effective to improve the computational efficiency of parallel data clustering on a PC cluster. Although data-transfer from GPU to CPU is generally costly, acceleration by GPU co-processing is significant to save the total execution time of data-clustering. 相似文献

16.

Kubernetes异构资源细粒度调度策略的设计与实现

刘志彬黄秋兰胡庆宝程耀东胡誉田浩来《计算机工程》2023,49(2):31-36+45

在异构资源环境中高效利用计算资源是提升任务效率和集群利用率的关键。Kuberentes作为容器编排领域的首选方案,在异构资源调度场景下调度器缺少GPU细粒度信息无法满足用户自定义需求,并且CPU/GPU节点混合部署下调度器无法感知异构资源从而导致资源竞争。综合考虑异构资源在节点上的分布及其硬件状态,提出一种基于Kubernetes的CPU/GPU异构资源细粒度调度策略。利用设备插件机制收集每个节点上GPU的详细信息,并将GPU资源指标提交给调度算法。在原有CPU和内存过滤算法的基础上,增加自定义GPU信息的过滤,从而筛选出符合用户细粒度需求的节点。针对CPU/GPU节点混合部署的情况,改进调度器的打分算法,动态感知应用类型,对CPU和GPU应用分别采用负载均衡算法和最小最合适算法,保证异构资源调度策略对不同类型应用的正确调度,并且在CPU资源不足的情况下充分利用GPU节点的碎片资源。通过对GPU细粒度调度和CPU/GPU节点混合部署情况下的调度效果进行实验验证,结果表明该策略能够有效进行GPU调度并且避免资源竞争。相似文献

17.

密度分布函数在聚类算法中的应用

谭建豪章兢李伟雄《控制理论与应用》2011,28(12):1791-1796

深入分析了传统的基于密度的聚类方法的特点和存在的问题及讨论了基于密度聚类算法研究现状,提出了一种改进的基于密度分布函数的聚类算法.使用K最近邻（KNN）的思想度量密度以寻找当前密度最大点,即中心点.并使用区域比例,将类从中心点开始扩展,每次扩展的同时引入半径比例因子以发现核心点.再从该核心点的KNN扩展类,直至密度下降到中心点密度的给定比率时结束.给出了数个算法实例并与基于网格的共享近邻聚类（GNN）算法在聚类准确率和效率上进行了试验比较,试验表明该算法极大降低了基于密度聚类算法对参数的敏感性、改善了对高维密度分布不均数据集的聚类效果、提高了聚类准确率和效率. 相似文献

18.

Miss-aware LLC buffer management strategy based on heterogeneous multi-core

Fang Juan Zhang Xibei Liu Shijian Chang Zeqing 《The Journal of supercomputing》2019,75(8):4519-4528

When multiple processor (CPU) cores and a GPU integrated together on the same chip share the last-level cache (LLC), the competition for LLC is more serious. CPU and GPU have different memory access characteristics, so that they have differences in the sensitivity of LLC capacity. For many CPU applications, a reduced share of the LLC could lead to significant performance degradation. On the contrary, GPU applications have high number of concurrent threads and they can tolerate access latency. Taking into account the GPU program memory latency tolerance characteristics, we propose an LLC buffer management strategy (buffer-for-GPU, BFG) for heterogeneous multi-core. A buffer is added on the side of LLC to filtrate streaming requests of GPU. Cache-insensitive GPU messages directly access to buffer instead of accessing to LLC, thereby filtering the GPU request and freeing up the LLC space for the CPU application. Then, for the different characteristics of CPU and GPU applications, an improved LRU replacement taking into account the recent access time and access frequency of the cache block is adopted. The cache misses-aware algorithm dynamically selects the improved LRU or LRU algorithm to fit the current operating state by comparing the miss rate of cache in buffer so that the performance of the system will be improved significantly.

相似文献