期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

向陶然叶笑春李文明冯煜晶谭旭张浩范东睿《计算机研究与发展》2019,56(6):1192-1204

深度神经网络(deep neural network, DNN)是目前最先进的图像识别算法,被广泛应用于人脸识别、图像识别、文字识别等领域.DNN具有极高的计算复杂性,为解决这个问题,近年来涌出了大量可以并行运算神经网络的硬件加速器.但是,DNN中的全连接层有大量的权重参数,对加速器的带宽提出了很高的要求.为了减轻加速器的带宽压力,一些DNN压缩算法被提出.然而基于FPGA和ASIC的DNN专用加速器,通常是通过牺牲硬件的灵活性获得更高的加速比和更低的能耗,很难实现稀疏神经网络的加速.而另一类基于CPU,GPU的CNN加速方案虽然较为灵活,但是带来很高的能耗.细粒度数据流体系结构打破了传统的控制流结构的限制,展示出了加速DNN的天然优势,它在提供高性能的运算能力的同时也保持了一定的灵活性.为此,提出了一种在基于细粒度数据流体系结构的硬件加速器上加速稀疏的DNN全连接层的方案.该方案相较于原有稠密的全连接层的计算减少了2.44×~ 6.17×的峰值带宽需求.此外细粒度数据流加速器在运行稀疏全连接层时的计算部件利用率远超过其他硬件平台对稀疏全连接层的实现,平均比CPU,GPU和mGPU分别高了43.15%,34.57%和44.24%. 相似文献

2.

面向低精度神经网络的数据流体系结构优化

范志华吴欣欣李文明曹华伟安学军叶笑春范东睿《计算机研究与发展》2023,52(1):43-58

数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性. 然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度（INT8,INT4或者更低）神经网络时,会面临3个问题：1）传统数据流架构的计算部件数据通路与低精度数据不匹配,无法体现低精度神经网络的性能和能效优势;2）向量化并行计算的低精度数据在片上存储中要求顺序排列,然而它在片外存储层次中是分散排列的,使得数据的加载和写回操作变得复杂,传统数据流架构的访存部件无法高效支持这种复杂的访存模式;3）传统数据流架构中使用双缓冲机制掩盖数据的传输延迟,但是,当传输低精度数据时,传输带宽的利用率显著降低,导致计算延迟无法掩盖数据传输延迟,双缓冲机制面临失效风险,进而影响数据流架构的性能和能效.为解决这3个问题,设计了面向低精度神经网络的数据流加速器DPU_Q.首先,设计了灵活可重构的计算单元,根据指令的精度标志位动态重构数据通路,一方面能高效灵活地支持多种低精度数据运算,另一方面能进一步提高计算并行性和吞吐量. 另外,为解决低精度神经网络复杂的访存模式,设计了Scatter引擎,该引擎将在低层次或者片外存储中地址空间离散分布的低精度数据进行拼接、预处理,以满足高层次或者片上存储对数据排列的格式要求.同时,Scatter引擎能有效解决传输低精度数据时带宽利用率低的问题,解决了双缓冲机制失效的问题.最后,从软件方面提出了基于数据流执行模式的低精度神经网络映射算法,兼顾负载均衡的同时能对权重、激活值数据进行充分复用,减少了访存和数据流图节点间的数据传输开销.实验表明,相比于同精度的GPU（Titan Xp）、数据流架构（Eyeriss）和低精度神经网络加速器（BitFusion）,DPU_Q分别获得3. 18倍、6.05倍、1.52倍的性能提升和4.49倍、1.6倍、1.13倍的能效提升.

相似文献

3.

基于混沌理论的网络数据流RBF神经网络预测 总被引：6，自引：0，他引：6

下载免费PDF全文

陆锦军王执铨《计算机工程》2006,32(23):100-103

应用相空间重构理论，研究了网络数据流的混沌特性，计算了实际网络数据流的关维数、Lyapunov指数，证实网络数据流存在混沌现象；据此建立了基于径向基函数(RBF)预测模型，对实际网络数据流进行预测。仿真实验表明，相对于反向传播(BP)神经网络预测，基于混沌理论的RBF神经网络预测方法学习速度快，预测精度高。相似文献

4.

可重构数据流SPJ查询处理器的研究 总被引：1，自引：1，他引：0

周茂春陈叶芳钱江波王志杰董一鸿陈华辉《计算机应用研究》2012,29(5):1781-1786

数据流的实时处理需要很高的处理速度,一种解决方法是使用协处理器。然而协处理器硬布线是不变的,查询不断变化使其一定时间内综合性能达不到最优。为提高数据流处理速度和资源利用率,采用了可重构的数据流SPJ查询处理器,在具备选择、投影和连接三种查询模块及相应指令集的基础上,根据输入查询的查询树调用相应的模块自适应对FPGA编程,改变自身的硬布线,实现数据流的处理。通过大量实验验证了处理器不仅正确,而且具备高速度和灵活性。相似文献

5.

基于动态特征提取和神经网络的数据流分类研究 总被引：1，自引：0，他引：1

汪成亮庞栩陆志坚罗昌银《计算机应用》2010,30(6):1539-1542

为提高数据流分类的精确性和适应性,提出了一种新的数据流分类方法。该方法基于总体最小二乘法对数据流进行分段拟合,并将传统曲线分析算法——滑动窗口(SW)和在线数据分割(OSD)进行结合、改进,以可变滑动窗口算法实现对数据流的合理分割,提高趋势分析精度。在此基础上,对数据流进行动态特征提取和判断,并以神经网络对数据流特征进行模式识别,精确分类,进而对监控对象提供早期预警、状态评估和决策支持。实验结果表明,该方法能对数据流进行有效的动态特征描述,分类效果明显。相似文献

6.

易变数据流的系统资源配置方法

下载免费PDF全文

王春凯庄福振史忠植《智能系统学报》2019,14(6):1278-1285

大规模数据流管理系统往往由上层的关系查询系统和下层的流处理系统组成。当用户提交查询请求时,往往需要根据数据流的流速和分布情况动态配置系统参数。然而,由于数据流的易变性,频繁改变参数配置会降低系统性能。针对该问题,提出了OrientStream+框架。设定以用户自定义查询延迟阈值为间隔片段的微批量数据流传输机制;并利用多级别管道缓存,对相同配置的数据流进行批量处理;然后按照数据流的时间戳计算出精准查询结果;引入基于异常检测的增量学习模型,用于提高OrientStream+的预测精度。最后,在Storm上实现了该资源配置框架,并进行了大量的实验。实验结果表明,OrientStream+框架可进一步降低系统的处理延迟并提高系统的吞吐率。相似文献

7.

基于可配置特征单元的软件失效数据检测仿真

包力《计算机仿真》2020,37(9):307-311

相似文献

8.

基于用户描述的可配置汇编器

下载免费PDF全文

邹耀刘佩林《计算机工程》2009,35(1):242-244

针对传统固定指令集处理器的汇编器开发周期长、无法及时适应可配置处理器指令集需求变化的问题,提出一种基于用户描述的可配置汇编器的设计和实现方法,高度抽象汇编器中依赖指令集的部分,通过对指令集高层次描述,快速将指令集的变化映射到汇编器源代码上。实验结果表明,该方法可降低汇编器50％左右的开发工作。相似文献

9.

可重构卷积神经网络加速器设计与实现

王肖邓军勇谢晓燕《传感器与微系统》2022,(2):82-85,89

针对卷积神经网络(CNN)中卷积核的多样性导致加速器难以实现高效计算的问题,提出了一种可重构卷积神经网络加速器实现方法.加速器包括18个处理引擎(PE),每个PE包含9个乘累加单元,3个PE构建一个5×5卷积核实现卷积核重构,调度器通过控制每层所需的卷积核大小和通道数分配PE实现卷积处理.加速器支持常见的3×3,5×5... 相似文献

10.

基于粗粒度数据流架构的稀疏卷积神经网络加速

吴欣欣欧焱李文明王达张浩范东睿《计算机研究与发展》2021,58(7):1504-1517

卷积神经网络(convolutional neural network, CNN)在图像处理、语音识别、自然语言处理等领域实现了很好的性能.大规模的神经网络模型通常遭遇计算、存储等资源限制,稀疏神经网络的出现有效地缓解了对计算和存储的需求.尽管现有的领域专用加速器能够有效处理稀疏网络,它们通过算法和结构的紧耦合实现高能效,却丧失了结构的灵活性.粗粒度数据流架构通过灵活的指令调度可以实现不同的神经网络应用.基于该架构,密集卷积规则的计算特性使不同通道共享相同的一套指令执行,然而稀疏网络中存在权值稀疏,使得这些指令中存在0值相关的无效指令,而现有的指令执行方式无法自动跳过它们从而产生无效计算.同时在执行不规则的稀疏网络时,现有的指令映射方法造成了计算阵列的负载不均衡.这些问题阻碍了稀疏网络性能的提升.基于不同通道共享一套指令的前提下,根据稀疏网络的数据和指令特征增加指令控制单元实现权值数据中0值相关指令的检测和跳过,同时使用负载均衡的指令映射算法解决稀疏网络中指令执行不均衡问题.实验表明：与密集网络相比稀疏网络实现了平均1.55倍的性能提升和63.77%的能耗减少.同时比GPU(cuSparse)和Cambricon-X实现的稀疏网络分别快2.39倍(Alexnet)、2.28倍(VGG16)和1.14倍(Alexnet)、1.23倍(VGG16). 相似文献

11.

PipeCNN：一种基于软件流水线的并行化卷积神经网络方法

吴鹏周宁宁《计算机应用研究》2021,38(4):1079-1083

针对使用传统模型并行方法加速卷积神经网络训练容易出现设备利用率不高的问题,提出了通过软件流水线方式加速卷积神经网络的方法PipeCNN。首先研究了卷积神经网络中的前向传播与反向传播算法,分析了训练过程中的数据相关性;然后基于软件流水线改进了卷积神经网络的训练过程,提出了两种可行的参数更新方式;最后使用循环队列来实现网络中层与层之间的消息通信,并提出任务分配算法来划分软件流水线中的工作段。实验结果显示,这种方法在保证模型准确性的前提下,可以取得良好的加速比以及设备利用率,表明了使用软件流水线可以有效解决模型并行中设备利用率不高的问题,提高了卷积神经网络的训练速度。相似文献

12.

基于Winograd稀疏算法的卷积神经网络加速器设计与研究

徐睿马胜郭阳黄友李艺煌《计算机工程与科学》2019,41(9):1557-1566

随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新设计一款卷积神经网络加速器,该加速器基于Winograd稀疏算法,该算法被证明有效降低了卷积神经网络的计算复杂性,并可以很好地适应稀疏神经网络。通过硬件实现该算法,本文的设计可以在减少硬件资源的同时,获得相当大的计算效率。实验表明,相比于传统算法,该加速器设计方案将运算速度提升了近4.15倍;从乘法器利用率的角度出发,相比现有的其他方案,该方案将利用率最多提高了近9倍。相似文献

13.

基于卷积神经网络的谣言检测

刘政卫志华张韧弦《计算机应用》2017,37(11):3053-3056

人工检测谣言通常需要耗费大量的人力物力,并且会有很长的检测延迟。目前现存的谣言检测模型一般根据谣言的内容、用户属性、传播方式人工地构造特征,而人工构建特征存在考虑片面、浪费人力等现象。为了解决这个问题,提出了基于卷积神经网络（CNN）的谣言检测模型。将微博中的谣言事件向量化,通过卷积神经网络隐含层的学习训练来挖掘表示文本深层的特征,避免了特征构建的问题,并能发现那些不容易被人发现的特征,从而产生更好的效果。实验结果表明,所提方法能够准确识别谣言事件,在准确率、精确率与F1值指标上优于支持向量机（SVM）与循环神经网络（RNN）等对比算法。相似文献

14.

基于卷积神经网络的图文融合媒体情感预测

蔡国永夏彬彬《计算机应用》2016,36(2):428-431

近年来,用户在社交媒体上越来越多地使用多媒体内容来分享经历和表达情绪。相比单独的文本和图像,融合文本和图像的多媒体内容能够更为充分地揭示用户的真实情感。针对单一文本或图像的情感不明显问题,提出了一种基于卷积神经网络(CNN)的图文融合媒体的情感分析方法。该方法融合图像特征与三个不同级别(词语级、短语级和句子级)的文本特征构建CNN模型,以分析比较不同层次的语义特征对情感预测的影响。在真实数据集上的实验结果表明,通过捕捉文本情感特征和图像情感特征之间的内部联系,可以更准确地实现对图文融合媒体情感的预测。相似文献

15.

面向云端FPGA的卷积神经网络加速器的设计及其调度

蔡瑞初余洋钟椿荣卢冶陈瑶《计算机应用研究》2020,37(1):172-177,182

卷积神经网络的高计算复杂性阻碍其广泛用于实时和低功耗应用,现有软件实现方案难以满足其对运算性能与功耗的要求,传统面向FPGA的卷积神经网络构造方式具有流程复杂、周期较长和优化空间较小等问题。针对该问题,根据卷积神经网络计算模式的特点,提出一种面向云端FPGA的卷积神经网络加速器的设计及其调度机制。通过借鉴基于HLS技术、引入循环切割参数和对卷积层循环重排的设计,采用模块化方式构造网络,并进行参数拓展以进一步优化加速器处理过程;通过分析系统任务和资源的特性总结调度方案,且从控制流和数据流两方面对其进行优化设计。与其他已有工作相比,提出的设计提供了一种同时具有灵活性、低能耗、高能效和高性能的解决方案,并且探讨了加速器的高效通用调度方案。实验结果表明,该加速器可在有效提高运算整速度的同时减少功耗。相似文献

16.

基于卷积神经网络的面罩语音识别

王霞杜桂明王光艳张艳《传感器与微系统》2017,36(10)

针对带噪面罩语音识别率低的问题,结合语音增强算法,对面罩语音进行噪声抑制处理,提高信噪比,在语音增强中提出了一种改进的维纳滤波法,通过谱熵法检测有话帧和无话帧来更新噪声功率谱,同时引入参数控制增益函数;提取面罩语音信号的Mel频率倒谱系数(MFCC)作为特征参数;通过卷积神经网络(CNN)进行训练和识别,并在每个池化层后经局部响应归一化(LRN)进行优化.实验结果表明:该识别系统能够在很大程度上提高带噪面罩语音的识别率. 相似文献

17.

改进的卷积神经网络行人检测方法

徐超闫胜业《计算机应用》2017,37(6):1708-1715

为了在行人检测任务中使卷积神经网络（CNN）选择出更优模型并获得定位更准确的检测框,提出一种改进的基于卷积神经网络的行人检测方法。改进主要涉及两个方面：如何决定CNN样本迭代学习次数和如何进行重合窗口的合并。首先,关于CNN样本迭代次序问题,在顺序迭代训练多个CNN分类模型的基础上,提出一种基于校验集正确率及其在迭代系列分类器中展现出的稳定性进行更优模型选择的策略,以使最终选择的分类器推广能力更优。其次,提出了一种不同于非极大值抑制（NMS）的多个精确定位回归框合并机制。精确定位回归框的获取以CNN检测过程输出的粗定位框作为输入。然后,对每个粗定位框应用CNN精确定位过程并获得对应的精确定位回归框。最后,对多个精确定位回归框进行合并,合并过程考虑了每个精确定位回归框的正确概率。更精确地说,最终的合并窗口是基于多个相关的精确定位回归框的概率加权求和方式获得。针对提出的两个改进,在国际上广泛使用的行人检测公共测试数据集ETH上进行了一系列实验。实验结果表明,所提的两个改进方法均能有效地提高系统的检测性能,在相同的测试条件下,融合两个改进的方法相比Fast R-CNN算法检测性能提升了5.06个百分点。相似文献

18.

级联优化CNN的手指静脉图像质量评估

下载免费PDF全文

曾军英谌瑶秦传波甘俊英翟懿奎冯武林《中国图象图形学报》2019,24(6):902-913

目的针对手动设计的手指静脉质量特征计算过程复杂、鲁棒性差、表达效果不理想等问题,提出了基于级联优化CNN（卷积神经网络）进行多特征融合的手指静脉质量评估方法。方法以半自动化方式对手指静脉公开数据库MMCBNU_6000进行质量标注并用R-SMOTE（radom-synthetic minority over-sampling technique）算法平衡类别;将深度学习中的CNN结构应用到手指静脉质量评估并研究了不同的网络深度对表征手指静脉质量的影响;受到传统方法中将二值图像和灰度图像结合进行质量评估的启发,设计了两种融合灰度图像和二值图像的质量特征的模型：多通道CNN（MC-CNN）和级联优化CNN（CF-CNN）,MC-CNN在训练和测试时均需要同时输入二值图像和灰度图像,CF-CNN在训练时分阶段输入二值图像和灰度图像,测试时只需输入灰度图像。结果本文设计的3种简单CNN结构（CNN-K,K=3,4,5）在MMCBNU_6000数据库上对测试集图像的分类正确率分别为93.31%、93.94%、85.63%,以灰度图像和二值图像分别作为CNN-4的输入在MMCBNU_6000数据库上对测试集图像的分类正确率对应为93.94%、91.92%,MC-CNN和CF-CNN在MMCBNU_6000数据库上对测试集图像的分类正确率分别为91.44%、94.62%,此外,与现有的其他算法相比,CF-CNN在MMCBNU_6000数据库上对高质量测试图像、低质量测试图像、整体测试集图像的分类正确率均最高。结论实验结果表明,基于CF-CNN学习到的融合质量特征比现有的手工特征和基于单一静脉形式学习到的特征表达效果更好,可以有效地对手指静脉图像进行高、低质量的区分。相似文献

19.

基于稠密卷积神经网络的烟雾识别方法

程广涛巩家昌李建《计算机应用》2020,40(5):1465-1469

针对传统烟雾检测方法中提取的图像特征鲁棒性较差的问题,提出了基于稠密卷积神经网络(DenseNet)的烟雾识别方法。首先,利用卷积操作和特征图融合构建稠密网络块,在卷积层之间设计稠密连接机制,以增强稠密网络块结构内的信息流通和特征重利用;然后,将已构建的稠密网络块叠加成稠密卷积神经网络用于烟雾识别,节省计算资源的同时提升对烟雾图像特征的表达能力;最后,针对烟雾图像数据量较小的问题,采取数据增强技术进一步改善训练模型的识别能力。在公开烟雾数据集上对提出的方法进行实验验证,实验结果表明,所提方法的模型大小只有0.44 MB,在两个测试集上的准确率分别为96.20%和96.81%。相似文献

20.

基于卷积神经网络的翻录语音检测算法

李璨王让定严迪群《计算机应用》2018,38(1):79-83

针对翻录语音攻击说话人识别系统,危害合法用户的权益问题,提出了一种基于卷积神经网络（CNN）的翻录语音检测算法。首先,通过提取原始语音与翻录语音的语谱图,并将其输入到卷积神经网络中,对其进行特征提取及分类;然后,搭建了适应于检测翻录语音的网络框架,分析讨论了输入不同窗移的语谱图对检测率的影响;最后,对不同偷录及回放设备的翻录语音进行了交叉实验检测,并与现有的经典算法进行了对比。实验结果表明,所提方法能够准确地判断待测语音是否为翻录语音,其识别率达到了99.26%,与静音段梅尔频率倒谱系数（MFCC）算法、信道模式噪声算法和长时窗比例因子算法相比,识别率分别提高了约26个百分点、21个百分点和0.35个百分点。相似文献