期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

丁鹏陈利学龚捷张岩《计算机与现代化》2010,(1):12-15

随着图形硬件的快速发展,GPU的通用计算已经成为了一个新的研究领域。本文分析GPU编程模型,介绍使用图形硬件进行通用计算的方法,并把一些常用的算法映射到了GPU上。通过这些算法与CPU上对应的算法进行比较,分析使用GPU进行通用计算的优势和劣势。相似文献

2.

BitTorrent中一种基于全局贡献的节点选择策略

下载免费PDF全文

王利娥黄昆张大方《计算机工程与应用》2011,47(1):83-88

BitTorrent采用基于速率的Tit-For-Tat（Rate-based TFT）阻塞算法和乐观激活（Optimistic Unchoke,OU）算法为节点选择策略：上传节点采用Rate-based TFT算法选择为自身提供文件块上传速度最快的4个请求节点为下载节点,采用OU算法随机选择其他1个请求节点为下载节点。BitTorrent中Rate-based TFT算法只考虑邻居为上传节点所上传的文件块数即直接贡献,资源利用率不高,不能有效保证上传/下载之间的公平性。提出一种基于全局贡献的节点选择策略（Contribution-based TFT）,从直接贡献和间接贡献（即对其他节点所上传的文件块）两方面来考虑某段时间内节点的全局贡献,贡献越多,获取下载服务的优先权限越高。模拟实验表明,基于全局贡献的节点选择策略提高了上传配额利用率,减少了文件下载时间,并保证了公平性。相似文献

3.

基于NS2的BitTorrent算法仿真设计与实现

黄佳庆庞涛李雄阎顺《计算机仿真》2009,26(6):119-123

完成基于NS2平台的典型P2P文件下载协议BitTorrent的仿真实现和性能分析.仿真方案采用具有模块化的分层框架,通过扩展NS2上的类实现BitTorrent所有核心算法,采用双通道方案解决NS2中对P2P应用层控制消息的解析和应用层数据包分片传输的结合问题,且方案容易扩展支持其它P2P下载和P2P流媒体算法仿真,并支持向PDNS平台的平稳移植.仿真实验是在随机拓扑和幂率拓扑中节点突发加入和随机加入的性能比较,仿真结果验证仿真实现正确性和有效性. 相似文献

4.

CPU/GPU 异构环境下图像协同并行处理模型

杨洪余李成明王小平姜青山《集成技术》2017,6(5):8-18

随着GPU通用计算能力的不断发展,一些新的更高效的处理技术应用到图像处理领域.目前已有一些图像处理算法移植到GPU中且取得了不错的加速效果,但这些算法没有充分利用CPU/GPU组成的异构系统中各处理单元的计算能力.文章在研究GPU编程模型和并行算法设计的基础上,提出了CPU/GPU异构环境下图像协同并行处理模型.该模型充分考虑异构系统中各处理单元的计算能力,通过图像中值滤波算法,验证了CPU/GPU环境下协同并行处理模型在高分辨率灰度图像处理中的有效性.实验结果表明,该模型在CPU/GPU异构环境下通用性较好,容易扩展到其他图像处理算法. 相似文献

5.

GPU编程原理及其在网络安全领域的应用算法分析

吴鸿伟汤伟宾李晓潮郭东辉《计算机科学》2012,39(Z3)

近年来,GPU在通用计算方面对传统的CPU应用发起了强有力的冲击,被广泛运用于各种高性能计算中,特别是网络安全领域.为了解决传统硬件加速存在的缺陷问题,首先介绍GPU的基本硬件架构及其并行计算原理,其次说明基于CUDA的GPU编程与通用CPU编程之间算法实现的性能差异,最后详细分析了几种典型的网络安全算法,并设计了相应的GPU并行加速试验进行性能测试.实验结果表明,在算法设计合理的前提下,GPU可以提升应用算法上百倍的计算性能. 相似文献

6.

BT邻居结点算法验证平台的设计与实现 总被引：1，自引：1，他引：0

乔志伟徐汀荣《计算机工程与设计》2010,31(12)

为提高BitTorrent系统的文件分布性能,提出了一个优化的邻居结点选择算法.首先通过n叉树的结构模型分析BitTorrent系统,然后选择与请求结点拥有相近文件块数的结点作为邻居结点.为了证验该算法的可行性,基于BitTorrent文件共享系统的工作原理,设计了一个基于离散事件驱动的串行模拟器BTSim,详细介绍了该模拟器的设计思想和各个模块的具体实现.最后,使用模拟器对不同算法进行比较,比较结果表明了该算法的有效性. 相似文献

7.

基于GPU的遥感图像融合并行算法研究

赵进刘昌明宋峰张丽萍《微型机与应用》2013,32(6)

基于通用GPU并行计算技术,结合遥感图像数据融合处理特点,利用NVIDIA公司的CUDA编程框架,在其GPU平台上对BROVEY变换和YIQ变换融合算法进行了并行研究与实现.实验结果表明,随着遥感图像融合算法的计算复杂度、融合处理的问题规模逐渐增加,GPU并行处理的加速性能优势也逐渐增大,GPU通用计算技术在遥感信息处理领域具有广阔的应用前景. 相似文献

8.

基于GPU的遥感图像配准并行程序设计与存储优化

周海芳赵进《计算机研究与发展》2012,(Z1):281-286

遥感图像配准是遥感图像应用的一个重要处理步骤.随着遥感图像数据规模与遥感图像配准算法计算复杂度的增大,遥感图像配准面临着处理速度的挑战.最近几年,GPU计算能力得到极大提升,面向通用计算领域得到了快速发展.结合GPU面向通用计算领域的优势与遥感图像配准面临的处理速度问题,研究了GPU加速处理遥感图像配准的算法.选取计算量大计算精度高的基于互信息小波分解配准算法进行GPU并行设计,提出了GPU并行设计模型;同时选取GPU程序常用面向存储级的优化策略应用于遥感图像配准GPU程序,并利用CUDA(compute unified device architecture)编程语言在nVIDIA Tesla M2050GPU上进行了实验.实验结果表明,提出的并行设计模型与面向存储级的优化策略能够很好地适用于遥感图像配准领域,最大加速比达到了19.9倍.研究表明GPU通用计算技术在遥感图像处理领域具有广阔的应用前景. 相似文献

9.

基于访问控制列表的BitTorrent流量控制策略 总被引：9，自引：0，他引：9

柳斌李芝棠黎耀《计算机应用与软件》2006,23(5):19-20,34

BitTorrent是近年来使甬很广泛的一种基于P2P结构的文件共享应用。从客户端，Tracker服务器和元信息文件结构几个方面详细分析了BitTorrent协议。针对目前BitTorrent应用侵占大量带宽的问题，给出了一种基于访问控制列表的解决方案。通过在校园网中的实践证明该方案能有效地限制BitTorrent流量。相似文献

10.

BitTorrent在MIPS平台下的实现

崔玮门爱东况超《计算机与数字工程》2008,36(11)

具体分析BitTorrent协议与Trackerless DHT协议,使用 CommView抓包研究Tracker协议,Trackerless协议,与Peer wire协议交互的具体内容.使用标准C语言编写基于BitTorrent协议的P2P客户端软件;同时引入DHT协议实现可用于分布式网络的文件下载;并且移植到MIPS24KEC嵌入式平台下,在实时监控下达到良好的运行和下载效果. 相似文献

11.

融合遗传和蚁群算法并行求解最短公共超串

伍世刚钟诚《计算机应用》2014,34(7):1857-1861

依据各级缓存容量,将CPU主存中种群个体和蚂蚁个体数据划分存储到一级、二级和三级缓存中,以减少并行计算过程中数据在各级存储之间的传输开销,在CPU与GPU之间采取异步传送和不完全传送数据、GPU多个内核函数异步执行多个流的方法,设置GPU block线程数量为16的倍数、GPU共享存储器划分大小为32倍的bank,使用GPU常量存储器存储交叉概率、变异概率等需频繁访问的只读参数,将输入串矩阵和重叠部分长度矩阵只读大数据结构绑定到GPU纹理存储器,设计实现了一种多核CPU和GPU协同求解最短公共超串问题的计算、存储和通信高效的并行算法。求解多种规模的最短公共超串问题的实验结果表明,多核CPU与GPU协同并行算法比串行算法快70倍以上。相似文献

12.

基于CUDA的快速中值滤波算法

吕亚飞贾堃阳《电脑与微电子技术》2011,(13):3-6

在众多的快速中值滤波算法中选取一种适合在CUDA平台上实现的算法。并针对GPU的运算特点．对算法进行很大的改进。改进后的算法采用纹理存储器存储数据源,共享存储器和寄存器存储中间运算结果．并通过同一block内的线程共享排序结果减少了排序过程中所需的比较次数．降低了算法的复杂度。实验结果表明改进后的快速中值滤波算法充分发挥了GPU强大的并行处理能力．对于分辨率为4096×4096的图像其运算速度是基于CPU实现的6597倍．可有效地应用在实时图像处理中。相似文献

13.

基于CUDA的快速中值滤波算法

吕亚飞贾堃阳《现代计算机》2011,(14):3-6

在众多的快速中值滤波算法中选取一种适合在CUDA平台上实现的算法,并针对GPU的运算特点,对算法进行很大的改进。改进后的算法采用纹理存储器存储数据源,共享存储器和寄存器存储中间运算结果,并通过同一block内的线程共享排序结果减少了排序过程中所需的比较次数,降低了算法的复杂度。实验结果表明改进后的快速中值滤波算法充分发挥了GPU强大的并行处理能力,对于分辨率为4096×4096的图像其运算速度是基于CPU实现的6597倍,可有效地应用在实时图像处理中。相似文献

14.

基于GPU的AC模式匹配改进算法

下载免费PDF全文

汪宏王鹏《计算机工程与应用》2015,51(18):7-12

字符串匹配算法的应用非常广泛,在信息检索、信息安全等领域都起着关键的作用。近年来,由于GPU通用计算的高速发展,且GPU具有很强的并行计算能力和很高的存储器访问带宽,利用GPU来加速字符串匹配算法吸引了越来越多的关注。提出的改进的AC模式匹配算法,在对前人工作的基础上,进一步消除了output表的存储,将纹理存储器中的查表操作转换为数值比较操作,与改进前算法相比,速度提高了80%以上;进一步的,引入了多个可变参数,提高AC算法的有效数据匹配率,并优化线程块的大小,优化后的算法与采用一种特殊匹配方式的高效的PFAC算法相比,速度提高了9%以上。相似文献

15.

基于图划分抽样算法的图表示学习

夏鑫高品陈康姜进磊《计算机应用研究》2020,37(9):2586-2590,2599

在基于神经网络的图表示算法中,当节点属性维度过高、图的规模过大时,从内存到显存的数据传输会成为训练性能的瓶颈。针对这类问题,该方法将图划分算法应用于图表示学习中,降低了内存访问的I/O开销。该方法根据图节点的度数,将图划分成若干个块,使用显存缓存池存储若干个特征矩阵块。每一轮训练,使用缓存池中的特征矩阵块,以此来减少内存到显存的数据拷贝。针对这一思想,该方法使用基于图划分的抽样算法,设计显存的缓存池来降低内存的访问,运用多级负采样算法,降低训练中负样本采样的时间复杂度。在多个数据集上,与现有方法对比发现,该方法的下游机器学习准确率与原算法基本一致,训练效率可以提高2~ 7倍。实验结果表明,基于图划分的图表示学习能高效训练模型,同时保证节点表示向量的测试效果。今后的课题可以使用严谨的理论证明,阐明图划分模型与原模型的理论误差。相似文献

16.

面向异构架构的传递闭包并行算法

肖汉郭宝云李彩林周清雷《计算机工程》2021,47(8):131-139

传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言（OpenCL）框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于OpenCL的传递闭包并行算法。利用本地存储器优化的并行子矩阵乘算法来优化计算步骤,提高图形处理器（GPU）的存储器利用率,降低数据获取延迟。通过分块矩阵乘并行计算算法实现大数据量的矩阵乘,提高GPU计算核心的利用率。数据结果表明,与CPU串行算法、基于开放多处理的并行算法和基于统一设备计算架构的并行算法相比,传递闭包并行算法在OpenCL架构下NVIDIA GeForce GTX 1070计算平台上分别获得了593.14倍、208.62倍和1.05倍的加速比。相似文献

17.

Accelerating Louvain community detection algorithm on graphic processing unit

Mohammadi Maryam Fazlali Mahmood Hosseinzadeh Mehdi 《The Journal of supercomputing》2021,77(6):6056-6077

The Louvain community detection algorithm is a hierarchal clustering method categorized in the NP-hard problem. Its execution time to find communities in large graphs is, therefore, a challenge. Parallelization is an effective solution for amortizing Louvain's execution time. In this paper, we propose an adaptive CUDA Louvain method (ACLM) algorithm that benefits from the graphic processing unit (GPU). ACLM uses the shared memory in GPU, as well as the optimal number of threads in the GPU blocks. These features minimize parallelization overhead and accelerate the calculation of modularity parameters. The proposed algorithm allocates threads to each block based on the number of required streaming multiprocessors (SMs) and warps on GPU. The implementation results show that ACLM can effectively accelerate the execution time by 77% compared to the competitive method in the large graph benchmarks.

相似文献

18.

Miss-aware LLC buffer management strategy based on heterogeneous multi-core

Fang Juan Zhang Xibei Liu Shijian Chang Zeqing 《The Journal of supercomputing》2019,75(8):4519-4528

When multiple processor (CPU) cores and a GPU integrated together on the same chip share the last-level cache (LLC), the competition for LLC is more serious. CPU and GPU have different memory access characteristics, so that they have differences in the sensitivity of LLC capacity. For many CPU applications, a reduced share of the LLC could lead to significant performance degradation. On the contrary, GPU applications have high number of concurrent threads and they can tolerate access latency. Taking into account the GPU program memory latency tolerance characteristics, we propose an LLC buffer management strategy (buffer-for-GPU, BFG) for heterogeneous multi-core. A buffer is added on the side of LLC to filtrate streaming requests of GPU. Cache-insensitive GPU messages directly access to buffer instead of accessing to LLC, thereby filtering the GPU request and freeing up the LLC space for the CPU application. Then, for the different characteristics of CPU and GPU applications, an improved LRU replacement taking into account the recent access time and access frequency of the cache block is adopted. The cache misses-aware algorithm dynamically selects the improved LRU or LRU algorithm to fit the current operating state by comparing the miss rate of cache in buffer so that the performance of the system will be improved significantly.

相似文献

19.

From tile algorithm to stripe algorithm: a CUBLAS-based parallel implementation on GPUs of Gauss method for the resolution of extremely large dense linear systems stored on an array of solid state devices

Manuel Carcenac 《The Journal of supercomputing》2014,68(1):365-413

This paper presents an efficient algorithmic approach to the GPU-based parallel resolution of dense linear systems of extremely large size. A formal transformation of the code of Gauss method allows us to develop for matrix calculations the concept of stripe algorithm, as opposed to that of tile algorithm. Our stripe algorithm is based on the partitioning of the linear system’s matrix into stripes of rows and is well suited for efficient implementation on a GPU, using cublasDgemm function of CUBLAS library as the main building block. It is also well adapted to storage of the linear system on an array of solid state devices, the PC memory being used as a cache between the SSDs and the GPU memory. We demonstrate experimentally that our code solves efficiently dense linear systems of size up to 400,000 (160 billion matrix elements) using an NIVDIA C2050 and six 240 GB SSDs. 相似文献

20.

三种GPU并行的自适应邻域模拟退火算法

下载免费PDF全文

林敏钟一文《计算机工程与应用》2015,51(22):70-76

提出了三种新的GPU并行的自适应邻域模拟退火算法,分别是GPU并行的遗传-模拟退火算法,多条马尔可夫链并行的退火算法,基于BLOCK分块的GPU并行模拟退火算法,并通过对GPU端的程序采取合并内存访问,避免bank冲突,归约法等方式进一步提升了性能。实验中选取了11个典型的基准函数,实验结果证明这三种GPU并行退火算法比nonu-SA算法具有更好的精度和更快的收敛速度。相似文献