期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郑武兴王春平付强《单片机与嵌入式系统应用》2017,17(5)

本文以图像为基础,在TMDSEVM6678L实现并行处理设计,并分析其性能.文中主要介绍了核间通信的几种常用方法,以及多核编程的基本技巧.通过网页实现用户交互,并对网页数据传递进行分析,提供数据解析思路.分析比较数据的读取速度,采用合适的数据采集方法提高仿真效率.最后,统计不同数据量的处理时间,实验结果表明,采用消息机制进行核间通信实现并行处理具有实用性以及适用性. 相似文献

2.

一种适应多核处理器核间通信机制的设计

李静梅王军锋张岐《电脑学习》2011,1(4)

随着单芯片上集成处理器内核数量的增加,在支持多核处理器的应用程序方面,核间通信变得更加重要.通过分析多核运行任务特点,根据处理核上运行任务功能的不同,将处理核分成两类:控制核和计算核.根据对核的分类,提出了一种新的核间通信模型,该模型提供了三种不同的通信通道.运用这三条通道,把应用程序的I/O部分从计算核迁移到控制核来提高多核的利用率,实验结果表明该方式有效提高核间协作以及核间通信的效率,提升处理器的利用率. 相似文献

3.

面向多任务密码处理的多核核间通信单元设计与研究

《计算机应用与软件》2016,(3)

为了解决面向多任务密码处理的多核核间通信机制的优化实现问题,设计一种混合通信机制。在分析多核处理架构及核间通信特点的基础上,融合了簇内共享存储通信和簇间No C通信机制,同时引入了DMA通信机制,提出构建混合通信机制,进一步提升通信效率。其次,给出核间通信同步机制的优化实现,解决了同步和存储一致性冲突问题。最后,基于Design Complier对设计方案进行了实验评估。实验结果表明,相比其他方案,该方案具有较小的资源代价和较高的性能指标,获得了满意的通信吞吐率。相似文献

4.

针对多媒体应用的多核处理器核间通信优化

严婕《计算机应用与软件》2010,27(8)

目前多核架构已成为处理器的主流设计并成为各种多媒体应用的主流处理平台,而核间通信的效率是影响多核处理器性能的重要因素之一.提出了一种针对多媒体应用程序的核间通信的优化方法.该方法利用此类应用程序数据读取的规律性,通过在多核处理器上添加通信队列,实现只读数据的快速传递,从而提高多媒体应用程序的并行执行效率.实验表明使用通信队列对各种多媒体核心算法的性能都有普遍提高.同时,该方法具有良好的扩展性,当内核数目增加,通信队列所带来的好处也更加明显. 相似文献

5.

一种嵌入式操作系统确定性核间通信机制设计

包晟临朱旭光李健《单片机与嵌入式系统应用》2020,(11):28-31

为了适应操作系统国产化及高安全操作系统的现实需要,基于飞腾等DSP处理器的缓存机制提出了一种以核上私有内存为中心的多核嵌入式高安全操作系统的核间通信机制设计.为了将其应用到多核嵌入式高安全操作系统中,本文还结合实际操作系统设计中采用的优先级调度方案对该核间通信的确定性做了分析.实验结果表明,该通信机制下,端到端延迟存在... 相似文献

6.

基于多核DSP的激光点云解算算法并行设计

《电子技术应用》2017,(2):54-57

快速、实时地进行点云解算以及获取三维坐标信息是当前遥感应用的发展趋势。针对机载激光雷达点云计算量大、处理算法复杂等特点,设计了基于TMS320C6678多核DSP的并行、高效激光点云处理方法。首先,简要介绍了点云解算的算法原理和特点;其次,具体说明了基于TMS320C6678多核DSP的并行点云解算架构设计;最后,利用机载激光雷达系统获取的数据对设计的多核DSP并行处理架构进行了验证,并比较分析了同平台下单核和多核处理器的运行效率。相似文献

7.

基于ARM11 MPCore的多核间通信机制研究 总被引：1，自引：0，他引：1

邢向磊周余都思丹《计算机应用与软件》2009,26(5)

嵌入式应用中采用SMP(对称多处理)系统所面临的主要难题是多处理器内核之间的通信.对 ARM11 MPCore 处理器的多核间通信机制进行研究,并结合 Linux-2.6.19 对这一通信机制的具体实现作深入分析,并在 RealView Emulation Baseboard 上面进行相应的验证.实验结果表明,多核间通信机制可以使多线程之间的交互时间减小为原来的16.7%,从而提升并行计算系统的性能. 相似文献

8.

基于以太网和PCIe的多核DSP开发平台

张象羽施慧莉《计算机工程与科学》2019,41(10):1731-1737

多核数字信号处理器（DSP）在航空、航天等领域的信号处理系统中应用较广泛,在实际工程应用时,由于JTAG接口的性能限制,存在速度慢、不稳定、难操作等问题,导致开发效率低下并严重影响项目进度。建立了一种以千兆以太网和PCIe作为加载和调试接口的多核DSP软硬件开发平台,包括标准化的硬件模块和软件开发环境,具有易重构、易扩展、不再依赖JTAG接口、兼容多个软件操作系统、资源占用低等优点。以多核DSP TMS320C 6678为例,描述了多片DSP组成的信号处理系统开发中的关键技术,包括商用标准（COTS）模块、系统架构、硬件诊断、软件加载、软件调试等。用该平台可以显著降低使用门槛,大幅度提高开发效率。相似文献

9.

基于多核DSP的超声成像的高速数据传输

骆国丽张学健肖亮《计算机工程与设计》2014,35(9)

为实现高速的数据传输从而提高B模式超声成像的实时性,研究多核DSP (TI公司的TMS320C6678)的核间数据传递与网络通信技术.数据处理和传输任务分配在DSP的4个核上以流水方式进行,采用Notify Model实现核间通信,配置公用存储区以实现多核之间的数据共享,在SYS/BIOS系统上调用网络开发套件(network development kit,NDK)编写基于TCP/IP协议的网络通信程序.实验结果表明,核间数据传递的时间小于1 ms(图像大小为512×1024),网络通信的传输速率稳定在60MBps左右,结合优化的数据处理算法,DSP总的处理速率能够达到40帧/秒. 相似文献

10.

一种支持细粒度并行的SDN虚拟化编程框架

下载免费PDF全文

宋平刘轶刘驰张晶晶钱德沛郝沁汾《软件学报》2014,25(10):2220-2234

软件定义网络(software defined network,简称SDN)通过集中式的控制器提高了网络的可编程性,成为近年来网络领域非常热门的话题。以Openflow网络为代表的软件定义网络将逻辑控制与数据转发相隔离,为网络虚拟化技术提供了良好的平台。集中式的抽象与控制使得SDN虚拟化框架的处理效率成为主要瓶颈。现有的SDN虚拟化框架由于缺乏对细粒度并行的支持,为编程人员充分利用多核/众核资源、控制更大规模的网络带来了极大的挑战。为了提高SDN虚拟化框架的处理效率,提出一种新的SDN虚拟化编程框架,通过新颖的API和运行时,在框架内部支持细粒度的并行处理。该框架通过对网络中流和网络资源进行抽象,使开发人员可以直接通过划分流空间来定义不同的虚拟网络,利用无锁的编程方式对共享的网络资源和流进行操作。实验结果表明,该框架在逻辑控制的执行效率方面具有良好的可扩展性,可以创建出更大规模的虚拟网络,并对其进行更为复杂的控制。相似文献

11.

一种面向多核DSP的小容量紧耦合快速共享数据池 总被引：7，自引：0，他引：7

陈书明汪东陈小文万江华《计算机学报》2008,31(10)

该文结合片上便笺式存储器(SPM)的结构特点,提出了一种面向异构多核DSP的新型小容量紧耦合共享存储结构——快速共享数据池(FSDP).FSDP在存储层次上与一级Cache平行,可以被访存指令直接访问,采用多体并行的结构、交叉访问模式和基于硬件信号灯的自动同步机制,支持多个DSP核的并行访问与快速的核间数据交换,两核之间交换单个数据只需4拍.该文构建了FSDP的模拟模型,并进行了RTL级设计实现和分析.多种典型测试程序的验证表明,FSDP对于DSP核间细粒度共享数据的传输具有很高的效率,相比同类的VS-SPM结构能够将程序性能提高37%,与传统的共享数据Cache结合使用能够将异构多核DSP的性能提高13%. 相似文献

12.

OpenMDSP: Extending OpenMP to Program Multi-Core DSPs

下载免费PDF全文

何江舟陈文光陈光日郑纬民汤志忠叶寒栋《计算机科学技术学报》2014,29(2):316-331

Abstract Multi-core digital signal processors （DSPs） are widely used in wireless telecommunication, core network transcoding, industrial control, and audio/video processing technologies, among others. In comparison with general-purpose multi-processors, multi-core DSPs normally have a more complex memory hierarchy, such as on-chip core-local memory and non-cache-coherent shared memory. As a result, efficient multi-core DSP applications are very difficult to write. The current approach used to program multi-core DSPs is based on proprietary vendor software development kits （SDKs）, which only provide low-level, non-portable primitives. While it is acceptable to write coarse-grained task-level parallel code with these SDKs, writing fine-grained data parallel code with SDKs is a very tedious and error-prone approach. We believe that it is desirable to possess a high-level and portable parallel programming model for multi-core DSPs. In this paper, we propose OpenMDSP, an extension of OpenMP designed for multi-core DSPs. The goal of OpenMDSP is to fill the gap between the OpenMP memory model and the memory hierarchy of multi-core DSPs. We propose three classes of directives in OpenMDSP, including 1） data placement directives that allow programmers to control the placement of global variables conveniently, 2） distributed array directives that divide a whole array into sections and promote the sections into core-local memory to improve performance, and 3） stream access directives that promote big arrays into core-local memory section by section during parallel loop processing while hiding the latency of data movement by the direct memory access （DMA） of a DSP. We implement the compiler and runtime system for OpenMDSP on PreeScale MSC8156. The benchmarking results show that seven of nine benchmarks achieve a speedup of more than a factor of 5 when using six threads. 相似文献

13.

一种挖掘多核处理器存储级并行的算法

彭林张小强刘德峰谢伦国田祖伟《计算机研究与发展》2009,46(Z2)

多核处理器中,各个处理器核之间可以并发地进行外部存储访问,提供不同于单处理器的存储级并行(memory level parallelism)能力.不规则应用中的循环,传统的并行方法难以识别其并行性,不能充分利用多核处理器存储级并行能力和并行计算能力.对基于软件开发多核处理器存储级并行进行了讨论,提出一种前瞻并行多线程算法LLSM(loop level speculative mssultithreading).LLSM对不规则应用中的循环进行并行化,在多核处理器上的测试数据表明:该算法能够有效地挖掘多核处理器的存储级并行能力和计算能力,同时指出多核环境下存储级并行计算公式需要考虑线程同步开销. 相似文献

14.

Granularity Analysis for Exploiting Adaptive Parallelism of Declarative Programs on Multiprocessors

下载免费PDF全文

田新民王鼎兴沈美明郑纬民温冬婵《计算机科学技术学报》1994,(2)

1IntroductionAutomaticparallelexecutionofdeclarativelanguageprograms(e.g.functionprogramsandlogicprograms)isattractive,asitmakestheuseofparallelcomputersveryeasy,andtheprogrammerneednotbeconcernedwiththespecificsoftheunderlyingparallelarchitecture.However,ifseveralprocessorsareexecutingconcurrently,exploitingadaptiveparallelismishardduetonon-determinismoftaskgranularityanddatadependenciesamongtasks.TheearlysolutionproposedbyConeryandKibler[2]usesanorderingalgorithmtodeterminedependenciesatrun… 相似文献

15.

面向多核集群的数据流程序层次流水线并行优化方法

于俊清张维维陈文斌涂浩何云峰《计算机学报》2014,37(10)

数据流编程语言是一种面向领域的编程语言,它能够将计算与通信分离,暴露应用程序的并行性.多核集群中计算、存储和通信等底层资源的复杂性对数据流程序的性能提出了新的挑战.针对数据流程序在多核集群上执行存在资源利用低和扩展性差等问题,利用同步数据流图作为中间表示,文中提出并实现了面向多核集群的层次性流水线并行优化方法.方法包含任务划分与调度、层次流水线调度和数据局部性优化,经过编译优化后生成基于MPI的可并行执行的目标代码.其中任务划分与调度是利用程序中数据和任务并行性将任务映射到计算核上,实现负载均衡和低通信同步开销;层次性流水线调度是利用程序中的并行性构造低延迟流水线调度;数据局部性优化是针对数据访问存在的Cache伪共享做面向存储的优化.实验以X86架构多核处理器组成的集群为平台,选取媒体处理领域的典型应用算法作为测试程序,对层次流水线优化进行实验分析.实验结果表明了优化方法的有效性. 相似文献

16.

OMAP L138核间通信高吞吐量图像处理平台及应用

罗云宜陈奭付威威周哲冯驰《单片机与嵌入式系统应用》2016,(10):36-39

异构双核芯片 AMR+DSP具有强大的任务管理、人机交互和数据处理功能,为嵌入式图像处理领域提供了一种新的架构。为了减少开发人员对底层驱动的设计,TI 研发了 Syslink 驱动用于核间通信,包括 Notify、MessageQ 协议等,其中基于 MessageQ的通信协议常用于核间图像传输,但其占用资源较多、延迟高。本文对 TI 公司的达芬奇架构OMAP L138处理器的多核通信理论进行研究,利用核间中断寄存器和共享内存队列存储机制进行数据交互,实现了一种高吞吐量的图像处理平台。相似文献

17.

Accelerating sequential programs on commodity multi-core processors

Yuanming Zhang Gang Xiao Takanobu Baba 《Journal of Parallel and Distributed Computing》2014

A recently proposed pipelined multithreading (PMT) technique exhibits wide applicability in parallelizing general sequential programs on multi-core processors. However, significant inter-core communication overhead limits PMT performance and prevents its commercial utilization. A simple and effective clustered pipelined multithreading (CPMT) approach is presented to accelerate sequential programs on commodity multi-core processors. This CPMT technique adopts a clustered communication mechanism that can yield very low average communication overhead by eliminating false sharing as well as reducing communication operation and transit delays in the software-only approach. A single-producer/single-consumer concurrent lock-free clusteredQueue algorithm based on a two-level queue structure is also proposed. The accuracy of CPMT is theoretically demonstrated. The performances of the algorithm and CPMT are evaluated on a commodity AMD Phenom four-core processor. The number of enqueue and dequeue times of the algorithm are 20.8 and 23 cycles given an appropriate parameter, respectively. The speedup of CPMT ranges from 13.1% to 119.8% for typical loops extracted from the SPEC CPU 2000 benchmark suite. 相似文献

18.

一种数据并行中的群通信优化策略 总被引：1，自引：0，他引：1

王珏胡长军张纪林李建江《计算机学报》2008,31(2):318-328

群通信是影响大规模数据并行系统效率的关键因素,其主要发生在程序不同阶段间的数组重分布与循环划分后的数组重映射这两种情况.在一次通信中显著影响群通信效率常被忽视的因素是消息冲突和消息长度的不一致.因为它们会导致进程间大量的空闲等待时间.然而以前的研究要么不能完全避免消息冲突,要么针对某些特殊情况.对此,提出了在数组分布为Block_Cyclic(k)情况下的一种更具有普遍适用性的通信调度策略CSS.通过证明表明该策略能使一个通信步内的消息互不冲突且消息长度尽量相等.从而最小化通信调度生成时间和实际通信时间.最后的测试结果也表明,与传统的通信优化算法和MPI_Alltoallv实现相比,CSS策略使得通信效率得以明显提高. 相似文献

19.

基于DSP的异步串行通信的3种实现方式 总被引：1，自引：0，他引：1

郭炜马殿光邵诗逸《测控技术》2006,25(7):87-89

就某些不提供异步串行模块的DSP上实现异步串行通信进行了讨论,然后提出3种解决方案,最后就所提供的3种方案在成本、硬件消耗度和软件复杂度上进行比较. 相似文献

20.

多核处理器机群Memory层次化并行计算模型研究 总被引：7，自引：0，他引：7

涂碧波邹铭詹剑锋赵晓芳樊建平《计算机学报》2008,31(11)

多核处理器机群点对点通信同时具有memory纵向层次化特征和横向层次化的新特征.纵向层次化特征揭示了对不同大小和步长的消息进行点对点通信时消息通信中间件对其性能的影响;横向层次化的新特征由intra-CMPi、nter-CMP和inter-node消息通信性能的显著差异引起,目前缺少有效的分析模型.文中提出一种新的memory层次化并行计算模型,对多核处理器机群memory横向、纵向层次化特征进行了统一的抽象.在对多核处理器机群点对点通信和集合通信的开销进行模型分析和实际测试中,新模型的精确性优于现有的未引入memory横向层次化特征的模型. 相似文献