期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈志佳朱元昌邸彦强冯少冲《计算机工程与科学》2015,37(5):901-906

当前虚拟桌面实施方法中,终端用户对3D图形处理能力越来越高的要求与虚拟机GPU处理能力之间的矛盾逐渐凸显。为解决上述问题,对GPU虚拟化的典型实施方法进行了研究。在对上述虚拟化技术进行分析的基础上,介绍了一种改进的基于设备独占法和API remoting法的虚拟化方案。利用Hypervisor创建两种模式的虚拟机,分别为一台父虚拟机(GVM)和多台子虚拟机(DVM)。GVM完全独占物理GPU,而DVM与物理GPU无直接交互关系。两种模式虚拟机共享GPU内存以及指令通道,DVM中的GPU调用指令传递至GVM,通过GVM对物理GPU进行快速调用,将调用结果返回到共享内存空间,进而呈现给用户。最后对改进的GPU虚拟化方法与典型虚拟化方法进行了对比与分析,总结了其中的优缺点,梳理了将来的研究重点。相似文献

2.

Tuning remote GPU virtualization for InfiniBand networks

Carlos Reaño Federico Silla 《The Journal of supercomputing》2016,72(12):4520-4545

相似文献

3.

Improving the user experience of the rCUDA remote GPU virtualization framework

Carlos Reao Federico Silla Adrin Castell Antonio J. Pea Rafael Mayo Enrique S. Quintana‐Ortí Jos Duato 《Concurrency and Computation》2015,27(14):3746-3770

Graphics processing units (GPUs) are being increasingly embraced by the high‐performance computing community as an effective way to reduce execution time by accelerating parts of their applications. remote CUDA (rCUDA) was recently introduced as a software solution to address the high acquisition costs and energy consumption of GPUs that constrain further adoption of this technology. Specifically, rCUDA is a middleware that allows a reduced number of GPUs to be transparently shared among the nodes in a cluster. Although the initial prototype versions of rCUDA demonstrated its functionality, they also revealed concerns with respect to usability, performance, and support for new CUDA features. In response, in this paper, we present a new rCUDA version that (1) improves usability by including a new component that allows an automatic transformation of any CUDA source code so that it conforms to the needs of the rCUDA framework, (2) consistently features low overhead when using remote GPUs thanks to an improved new communication architecture, and (3) supports multithreaded applications and CUDA libraries. As a result, for any CUDA‐compatible program, rCUDA now allows the use of remote GPUs within a cluster with low overhead, so that a single application running in one node can use all GPUs available across the cluster, thereby extending the single‐node capability of CUDA. Copyright © 2014 John Wiley & Sons, Ltd. 相似文献

4.

GPU平台上ADL算法的实现

陈加忠夏涛欧阳昆黎单孙自龙《计算机技术与发展》2011,21(1)

自适应方向提升小波变换(ADL)利用图像纹理特征进行变换编码,从而获得更高的编码质量,但同时也增加了计算复杂度.为了提高图像编码速率,在统一计算设备架构(CUDA)的图形处理器(GPU)上,提出一种并行实现ADL中的插值和方向变换计算的新方案,对插值部分同时采用粗粒度和细粒度的并行,即把图像数据分成若干个块进行粗粒度的并行,而对块中的每个像素点采用细粒度的并行.对变换部分中的9个变换方向采用粗粒度的并行.实验表明,在GPU上并行实现ADL变换是CPU实现的4倍左右,CPU-GPU整体架构下的ADL变换编码的速度是CPU平台下的3倍左右. 相似文献

5.

共轭梯度法的GPU实现 总被引：1，自引：0，他引：1

下载免费PDF全文

夏健明魏德敏《计算机工程》2009,35(17):274-276

提出基于图形处理单元（GPU）实现矩阵与向量相乘的新算法,只需渲染四边形一次即可实现矩阵与向量乘法。并给出实现向量元素求和的新算法,与缩减算法不同,该算法不要求向量大小为2的幂。基于这2种算法使用OpenGL着色语言（GLSL）编程,用GPU实现求解线性方程组的共轭梯度法。与Krtiger算法相比,该方法所用计算时间更少。相似文献

6.

细分曲面的GPU完全实现

张嘉华梁成李桂清《计算机工程与科学》2010,32(2):75-81

本文提出一种完全在GPU上实现的细分曲面绘制策略。该方法以扇区为基本单元,利用三种新的枚举坐标对网格顶点进行编码。初始控制网格按扇区分割后,其顶点被编码到一张纹理上,控制顶点不规则性分离到扇区的同时扇区之间又具有松耦合联系,使GPU像素管线的并行性从片段网格内扩展到整个网格。另外,通过三张查找表来降低实时计算量,并且避免了在CPU上预先细分一次。经过实验对比说明,本文方法具有更高的实时性能。相似文献

7.

PCI总线目标接口状态机的Verilog HDL实现 总被引：1，自引：0，他引：1

齐淋淋向健勇《计算机工程与设计》2006,27(12):2268-2269,2272

随着计算机技术的发展,PCI总线以其高性能、突发传输和即插即用的优点获得广泛应用,成为事实上的计算机标准总线。介绍了采用独热（one-hot）编码方式、用Verilog HDL语言实现了PCI目标接口的核心控制部分——目标接口状态机,给出了详细的状态转移图和仿真结果图,并进行了分析。同时结合其它支持模块,灵活地配置到CPLD中实现了PCI目标接口,较好地完成了PCI目标接口的数据传输控制功能。相似文献

8.

企业级私有云中的虚拟化实现 总被引：6，自引：0，他引：6

下载免费PDF全文

曾赛峰朱立谷李强张福《计算机工程与应用》2010,46(36):70-73

在云存储的概念被提出之后,虚拟化技术在云存储系统中得到了广泛的应用,出现了全新的数据中心部署和管理方式。实现了一个企业级私有云存储系统WFS,在WFS云存储系统的四层架构中,分别采用了统一存储管理、虚拟路径、数据与元数据分离、云存储接口、多路径访问等虚拟化技术。通过对该系统进行分析,说明了虚拟化技术在云存储系统中的应用方式、特点以及在提高资源利用率、增强系统安全性、易用性等方面的重要作用。相似文献

9.

基于GPU的并行化Apriori算法的设计与实现

唐家维王晓峰《计算机科学》2014,41(10):238-243

大数据和高度并行的计算架构的时代已经来临,如何让传统的串行数据挖掘方法在当下获得更高的效率是一个值得探讨的问题。根据现代GPU大规模并行运算架构的特点(单结构多数据),对传统的串行Apriori算法进行并行化处理。使用最新的CUDA技术完成对传统串行Apriori算法中的支持度统计、候选集生成这两个计算的并行化实现,讨论了多种实现方法的差异,并提出改进方案。实验表明:改进后的并行算法使支持度统计在10000条事务的条件下效率提高16%,候选集生成在10000条事务的条件下效率提高25%。相似文献

10.

移动平台Android操作系统虚拟化技术的实现

刘博文顾乃杰谷德贺苏俊杰《计算机工程与应用》2017,53(14):32-38

虚拟化技术的研究正逐渐从服务器端转向移动智能设备领域。现有的虚拟化架构需要在物理硬件层和虚拟系统间进行大量的指令翻译,开销大,效率低。针对这一问题,提出了一种轻量级的移动操作系统虚拟化架构。通过在Linux内核命名空间机制的基础上扩展Driver命名空间框架,实现了多个虚拟Android系统的同时运行。此外,针对多个虚拟系统同时访问一套硬件设备发生冲突的问题,设计了通用的active-inactive模型来保证虚拟系统间对硬件设备的隔离复用。实验结果表明,虚拟后的Android系统在CPU使用率上并没有增加额外的开销,在内存使用量上减少了6.7%,此虚拟化架构具有很好的通用性与实用性。相似文献

11.

PCI扩展ROM机制的实现方法 总被引：1，自引：0，他引：1

尹勇生胡永华周干民《计算机工程与应用》2005,41(10):101-103

该文描述了一种实现PCI扩展ROM机制的方法。该方法以一个PCI接口芯片的设计为依托,不但支持系统BIOS在PCI存储器空间对扩展ROM寻址,还通过寄存器间址的方式在PCI输入输出空间实现了PCI扩展ROM。这种双重空间寻址方式满足了以任意字节组合方式对扩展ROM访问的要求。对面向PC机卡式模块的PCI设备开发,尤其是实现扩展ROM机制,该设计提供了一个实例。相似文献

12.

基于PCI9054的PCI高速通信接口实现 总被引：1，自引：0，他引：1

江勇万秋华《微计算机信息》2009,25(17)

PCI总线是计算机的一种标准总线,具有即插即用、中断共享、高速传输等优点,因此得到了广泛应用,并且出现多个升级扩展版本,但电气协议复杂,开发难度大.本文利用PCI9054协议转换芯片,用Verilog HDL语言在FPGA中产生相应的控制信号,完成对数据的快速读写,从而实现与PCI总线的高速通讯.实验结果证明此方案工作稳定,传输速度快,数据准确,可扩展到其他需要通过PCI等总线系统中. 相似文献

13.

基于历史模拟法的风险价值算法在GPU上的实现和优化

张劼文敏华林新华孟德龙陆豪《计算机科学》2018,45(5):291-294, 321

风险价值(Value at Risk,VaR)是风险管理的基本工具,可对现有头寸的下行风险提供量化衡量方法。基于历史模拟法的VaR(Historical VaR)是最流行的计算方法之一,被广泛应用于世界各大金融机构。对金融产品进行实时或准实时的VaR计算,对于及时规避金融风险具有重要意义。由于金融产品日益复杂,产品数量持续增长,现有CPU计算平台上的计算能力已经难以满足VaR的性能需求。为解决这一问题, 在GPU上使用CUDA 对Historical VaR的计算代码进行了实现和优化。通过改进排序算法、基于Multi-stream 隐藏通讯时间、解耦数据依赖并实现细粒度并行等优化方法,CUDA版本的VaR计算性能比优化后的CPU单核性能提升了42.6倍,为快速计算超大数量债券的VaR提供了有效的解决方案。以上优化方法也可以为金融领域内其他算法的GPU化提供思路。相似文献

14.

基于GPU的K-近邻算法实现

田盼华蓓陆李《计算机工程》2015,(2)

K-近邻计算在数据集规模较大时计算复杂度较高,因此,利用图形处理器( GPU )强大的并行计算能力对K-近邻算法进行加速。在分析现有K-近邻算法的基础上,针对该算法时间开销过大的问题,结合GPU的体系结构特征实现基于GPU的K-近邻算法。利用全局存储器的合并访问特性,提高GPU全局存储器访问数据的效率,通过事先过滤数据的方法来减少参与排序的数据量,进而减少排序阶段的线程串行化时间。在 KDD, Poker, Covertype 3个数据集上进行实验,结果表明,该实现方法在距离计算阶段每秒执行的浮点运算次数为266.37×109次,而排序阶段为26.47×109次,优于已有方法。相似文献

15.

Implementation of traceability using a distributed RFID-based mechanism

Juan Pedro Muñoz-Gea^{Author Vitae} Josemaria Malgosa-Sanahuja Author VitaeAuthor Vitae Juan Carlos Sanchez-Aarnoutse Author Vitae 《Computers in Industry》2010,61(5):480-496

Suppliers, manufacturers, distributors and retailers are typically interconnected within networks and it is for this reason that the relationships among all of them are represented as supply networks. Having enough information about the supply network in which an organization is involved can be useful in planning strategies or in assuring product quality. In this work, we propose a mechanism for automatically obtaining the supply network associated to a specific product using the EPCglobal Network. This mechanism is integrated within the Discovery Services (DS) component, which is currently being developed. Recently, there have been several proposals for the implementation of the DS based on centralized mechanisms. In this work we are going to develop a DS prototype based on Distributed Hash Tables (DHT) and an access control service to be integrated within the DS prototype. Finally, the mechanism to reconstruct supply networks will be integrated within the DS prototype. 相似文献

16.

基于虚拟存储技术的持续数据保护机制

牛超杨英杰毛秀青张国强《计算机工程与设计》2013,34(4)

为了解决信息系统中数据失效的问题,详细记录数据的变化情况,在灾难发生时能够最低限度的减小损失,分析了当前持续数据保护(CDP)技术的现状,立足现有的TRAP-4持续数据保护思想,提出了一种基于虚拟存储技术的持续数据保护机制(VPS_ CDP).在虚拟层改进了日志生成方式,减轻了系统工作负载,缩短了数据备份与恢复时间,并提出了基于文件块的持续保护思想,增强了系统对于核心数据的持续全备份能力. 相似文献

17.

基于GPU的粒子系统的实现技术

罗军王玲《微计算机信息》2008,24(4):273-275

为了提高大规模粒子系统绘制的实时性,在研究图形处理器(GPU)的编程架构和可编程接口基础上,实现了基于GPU的粒子系统.采用新的算法在GPU上完成了粒子系统与场景中其它物体的碰撞检测.与在CPU上实现的粒子系统相比,该系统在处理大规模粒子系统时,具有明显的速度优势. 相似文献

18.

GPU 上的矩阵乘法的设计与实现 总被引：1，自引：0，他引：1

梁娟娟任开新郭利财刘燕君《计算机系统应用》2011,20(1):178-181,149

矩阵乘法是科学计算中最基本的操作,高效实现矩阵乘法可以加速许多应用。本文使用NVIDIA的CUDA在GPU上实现了一个高效的矩阵乘法。测试结果表明,在Geforce GTX260上,本文提出的矩阵乘法的速度是理论峰值的97％,跟CUBLAS库中的矩阵乘法相当。相似文献

19.

基于虚拟技术和大型机硬件平台的Linux服务器系统实现 总被引：1，自引：0，他引：1

谭保华查纯张德强《计算机工程与设计》2009,30(5)

针对企业级计算服务器平均负载率低的问题,探究了采用虚拟化技术和Linux平台相结合的解决方案,分析了利用VM虚拟化技术创建Linux服务器的方法,介绍了利用VM系统虚拟化技术,实现在大型机硬件平台上动态分配,并行运行若干Linux服务器系统资源的方法.同时,探究了采用VM虚拟化技术实现Linux集群的基本方法.实际运行情况表明,采用虚拟化技术和Linux相结合,能够大幅度提高大型机资源利用率,有效解决企业级大型计算服务器平均负载率低的问题. 相似文献

20.

PCI设备驱动程序中几个关键问题的设计与实现 总被引：4，自引：0，他引：4

王峰张文军余松煜《测控技术》2002,21(8):58-60

讨论了在Windows98/95操作系统下PCI设备驱动程序的开发与实现方法，从编写PCI设备驱动程序的几个关键问题入手，较详细地描述了PCI设备的DMA传输，中断处理和应用程序接口的设计与实现方案，所提出的方案适用于高速率连续数据交换的应用场合，并且已在多个PCI设备中采用，取得良好的效果。相似文献