期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

何新宇张晓龙《计算机应用》2019,39(6):1680-1684

当前的肺炎图像识别算法面临两个问题：一是肺炎特征提取器使用的迁移学习模型在源数据集与肺炎数据集上图像差异较大，所提取的特征不能很好地契合肺炎图像；二是算法使用的softmax分类器对高维特征处理能力不够强，在识别准确率上仍有提升的空间。针对这两个问题，提出了一种基于深度卷积神经网络的肺炎图像识别模型。首先使用ImageNet数据集训练好的GoogLeNet Inception V3网络模型进行特征提取；其次，增加了特征融合层，使用随机森林分类器进行分类预测。实验在Chest X-Ray Images肺炎标准数据集上进行。实验结果表明，该模型的识别准确率、敏感度、特异度的值分别达到96.77%、97.56%、94.26%。在识别准确率以及敏感度指标上，与经典的GoogLeNet Inception V3+Data Augmentation （GIV+DA）算法相比，所提模型分别提高了1.26、1.46个百分点，在特异度指标上已接近GIV+DA算法的最优结果。相似文献

2.

自然场景下乌金体藏文的检测与识别

洪松高定国三排才让取次《计算机系统应用》2021,30(12):332-338

自然场景乌金体藏文文本信息作为高度浓缩的高层语义信息,不仅具有较大的研究和实用价值,而且可以用于协助藏文场景文本理解领域的研究.目前针对自然场景下乌金体藏文的检测与识别的相关研究甚少,本文在人工收集的自然场景乌金体藏文图像数据集的基础上,对比了目前常见的文字检测算法在自然场景乌金体藏文上的检测性能以及在不同特征提取网络下基于序列的文字识别算法CRNN在自然场景乌金体藏文图像数据集上的识别准确率并分析了在314张真实自然场景下乌金体藏文识别出错的特殊例子.实验表明本文在文字检测阶段采用的可微分的二值化网络DBNet在测试集上具有更好的检测性能,该方法在测试集上的准确率、召回率、F1值分别达到了0.89、0.59、0.71;在文字识别阶段采用MobileNetV3 Large作为特征提取网络时,CRNN算法在测试集上的识别准确率最高,达到了0.4365. 相似文献

3.

基于近邻监督局部不变鲁棒主成分分析的特征提取模型

葛孟婷万鸣华《计算机应用》2023,(4):1013-1020

针对无监督的局部不变鲁棒主成分分析（LIRPCA）算法未考虑样本间的类别关系的问题，提出了一种基于近邻监督局部不变鲁棒主成分分析（NSLIRPCA）的特征提取模型。所提模型考虑了样本间的类别信息，并以此构建关系矩阵。对所提模型进行公式求解和公式的收敛性证明，并将所提模型应用于各种遮挡数据集。实验结果表明，在ORL、Yale、COIL-Processed和PolyU数据集上，与主成分分析（PCA）算法、基于L1范数的主成分分析（PCA-L1）算法、非负矩阵分解（NMF）算法、局部保持投影（LPP）算法和LIRPCA算法相比，所提模型在原始图像数据集上的识别率分别最高提升了8.80%、7.76%、20.37%、4.72%和4.61%，在遮挡图像数据集上的识别率分别最高提升了30.79%、30.73%、36.02%、19.65%和17.31%。可见，所提模型提高了算法的识别性能，降低了模型复杂度，明显优于对比算法。相似文献

4.

基于自适应双阈值的地下目标自动检测算法

李海丰赵碧帆侯谨毅王怀超桂仲成《计算机应用》2022,42(4):1275-1283

在使用探地雷达（GPR）生成的Bscan图像进行地下目标检测时，当前基于深度学习的目标检测网络模型存在训练样本需求量高、耗时长，不能区分目标显著程度，难以识别复杂目标等问题。针对以上问题，提出一种基于直方图的双阈值分割算法。首先，根据地下目标的GPR图像直方图分布特性，快速从直方图中计算出分割地下目标所需的两个阈值；然后，采用支持向量机（SVM）和LeNet的组合分类器模型对分割结果进行分类识别；最后，进行分类结果整合并统计精确度数值。相较于传统的最大类间方差法（Ostu）、迭代法等阈值分割算法，所提算法获得的地下目标分割结果结构更加完整，并且几乎不含噪声。在真实数据集上，所提算法的平均识别准确率达到了90%以上，比仅使用单一分类器的平均识别准确率提高40%以上。实验结果表明，所提算法能够同时有效分割显著和非显著性地下目标，且采用的组合分类器能够获得更好的分类结果，适用于小样本数据集的地下目标自动检测和识别。相似文献

5.

区域增强型注意力网络下的人脸表情识别

陈公冠张帆王桦范辉张彩明《计算机辅助设计与图形学学报》2024,(1):152-160

为了识别人脸表情中包含复杂背景、面部遮挡等因素的真实环境下的图像,提出基于区域增强型注意力网络的人脸表情识别方法.首先提出基于注意力的区域增强网络,减弱外部因素的影响以及增强表情识别在真实环境下的鲁棒性;然后提出通道-空间注意力融合网络,作用于全局的特征提取;最后通过分区损失和交叉熵损失相结合的方式提升表情图像的辨识度,从而提升识别准确率.在公开数据集RAF-DB, FERPlus和AffectNet上的实验结果表明,表情识别准确率分别达到88.81%, 89.32%和60.45%;所提方法具有更高的准确率和鲁棒性. 相似文献

6.

基于长短期记忆的车辆行为动态识别网络

卫星乐越韩江洪陆阳《计算机应用》2019,39(7):1894-1898

高级辅助驾驶装置采用机器视觉技术实时处理摄录的行车前方车辆视频，动态识别并预估其姿态和行为。针对该类识别算法精度低、延迟大的问题，提出一种基于长短期记忆（LSTM）的车辆行为动态识别深度学习算法。首先，提取车辆行为视频中的关键帧；其次，引入双卷积网络并行对关键帧的特征信息进行分析，再利用LSTM网络对提取出的特性信息进行序列建模；最后，通过输出的预测得分判断出车辆行为类别。实验结果表明，所提算法识别准确率可达95.6%，对于单个视频的识别时间只要1.72 s；基于自建数据集，改进的双卷积算法相比普通卷积网络在准确率上提高8.02%，与传统车辆行为识别算法相比准确率提高6.36%。相似文献

7.

基于多粒度与自修复融合的人脸表情识别

王俊峰木特力甫·马木提阿力木江·艾沙努尔毕亚·亚地卡尔库尔班·吾布力《计算机工程与设计》2023,(2):473-479

为有效提取和融合表情多粒度特征信息，降低自然场景人脸表情数据集存在不确定性和错误数据等因素致使准确率难以满足现实需求的问题，基于深度卷积神经网络提出多粒度与自修复融合的表情识别模型。采用拼图生成器生成不同粒度图像，利用渐进式的训练过程学习不同粒度图像之间互补的特征信息，采用自修复方法避免网络过度拟合错误样本图像，对错误样本进行重新标注。在AffectNet数据集和RAF-DB数据集上准确率分别达到了63.94%和87.10%,实验结果表明，该模型具有较高的准确率和良好的鲁棒性。相似文献

8.

基于孪生网络和双向最大边界排序损失的行人再识别

祁子梁曲寒冰赵传虎董良李博昭王长生《计算机应用》2019,39(4):977-983

针对在实际场景中存在的不同行人图像之间比相同行人图像之间更相似所造成的行人再识别准确率较低的问题，提出一种基于孪生网络并结合识别损失和双向最大边界排序损失的行人再识别方法。首先，对在超大数据集上预训练过的神经网络模型进行结构改造，主要是对最后的全连接层进行改造，使模型可以在行人再识别数据集上进行识别判断；其次，联合识别损失和排序损失监督网络在训练集上的训练，并通过正样本对的相似度值减去负样本对的相似度值大于预定阈值这一判定条件，来使得负例图像对之间的距离大于正例图像对之间的距离；最后，使用训练好的神经网络模型在测试集上测试，提取特征并比对特征之间的余弦相似度。在公开数据集Market-1501、CUHK03和DukeMTMC-reID上进行的实验结果表明，所提方法分别取得了89.4%、86.7%、77.2%的rank-1识别率，高于其他典型的行人再识别方法，并且该方法在基准网络结构下最高达到了10.04%的rank-1识别率提升。相似文献

9.

基于AT-PGGAN的增强数据车辆型号精细识别

下载免费PDF全文

杨昌东余烨徐珑刀付源梓路强《中国图象图形学报》2020,25(3):593-604

目的车型识别在智能交通、智慧安防、自动驾驶等领域具有十分重要的应用前景。而车型识别中，带标签车型数据的数量是影响车型识别的重要因素。本文以"增强数据"为核心，结合PGGAN（progressive growing of GANs）和Attention机制，提出一种基于对抗网络生成数据再分类的网络模型AT-PGGAN（attention-progressive growing of GANs），采用模型生成带标签车型图像的数量，从而提高车型识别准确率。方法该模型由生成网络和分类网络组成，利用生成网络对训练数据进行增强扩充，利用注意力机制和标签重嵌入方法对生成网络进行优化使其生成图像细节更加完善，提出标签重标定的方法重新确定生成图像的标签数据，并对生成图像进行相应的筛选。使用扩充的图像加上原有数据集的图像作为输入训练分类网络。结果本文模型能够很好地扩充已有的车辆图像，在公开数据集StanfordCars上，其识别准确率相比未使用AT-PGGAN模型进行数据扩充的分类网络均有1%以上的提升，在CompCars上与其他网络进行对比，本文方法在同等条件下最高准确率达到96.6%，高于对比方法。实验结果表明该方法能有效提高车辆精细识别的准确率。结论将生成对抗网络用于对数据的扩充增强，生成图像能够很好地模拟原图像数据，对原图像数据具有正则的作用，图像数据可以使图像的细粒度识别准确率获得一定的提升，具有较大的应用前景。相似文献

10.

基于深度卷积自编码神经网络的手写数字识别研究

曾文献孟庆林郭兆坤《计算机应用研究》2020,37(4):1239-1243

针对提高不同笔体下的手写识别准确率进行了研究,将深度卷积神经网络与自动编码器相结合,设计卷积自编码器网络层数,形成深度卷积自编码神经网络。首先采用双线性插值方法分别对MNIST数据集与一万幅自制中国大学生手写数字图片进行图像预处理,然后先使用单一MNIST数据集对深度卷积自编码神经网络进行训练与测试;最后使用MNIST与自制数据集中5 000幅混合,再次训练该网络,对另外5 000幅进行测试。实验数据表明,所提深度卷积自编码神经网络在MNIST测试集正确率达到99.37%,有效提高了准确率;且5 000幅自制数据集模型测试正确率达99.33%,表明该算法实用性较强,在不同笔体数字上得到了较高的识别准确率,模型准确有效。相似文献

11.

基于YOLOv3和MobileNetv2的银行卡号识别方法

蔡兴泉阮瓒茜孙海燕《计算机辅助设计与图形学学报》2022,34(1):142-151

针对当前银行卡号识别易受复杂背景、环境光线等因素干扰导致识别率低、不稳定的问题,提出基于YOLOv3和MobileNetv2的银行卡号识别方法.首先预处理数据集,收集多样式银行卡图片,批量进行拉普拉斯锐化及部分图像增强处理,标注图像;然后构建YOLOv3区域分割网络结构,将已标注好的数据集输入YOLOv3网络,优化目标尺寸损失和focal loss优化置信度损失,控制迭代计算,分割字码区域,输出初步识别模型,计算初步识别结果;再构建改进后的YOLOv3网络和基础MobileNetv2网络,输入预处理数据集进行训练,输出联合识别模型,计算联合识别结果;最后比对初步识别结果和联合识别结果,输出准确率最高的结果.实验时,整合扩建中软杯与和鲸科技银行卡数据集,根据字码形态分为4种类型,分别进行定位识别及准确率对比实验.结果表明,在字码区域定位效果方面,所提方法优于传统CNN和基础YOLOv3方法;在字码识别准确率方面,所提方法在4种类型银行卡上的准确率达93.74%,93.21%,95.14%和99.10%,皆优于改进的YOLOv3和YOLOv3-MobileNetv2等方法.实验证明,所提方法可以识别复杂背景下不同字码形态的银行卡字码,克服了环境因素对卡号识别的影响,提升了识别准确率,具有良好的鲁棒性,且在设计实现的验证系统和应用平台上运行稳定、可靠. 相似文献

12.

基于时域卷积网络的中文句子级唇语识别算法

刘培培贾静平《计算机应用研究》2023,(9):2596-2602

针对现有中文句子级唇语识别技术存在的视觉歧义、特征提取不充分导致识别准确率偏低的问题,提出了一种基于时域卷积网络,采用三维时空卷积的中文句子级唇语识别算法——3DT-CHLipNet(Chinese LipNet based on 3DCNN,TCN)。首先,针对特征提取不充分的问题,所提算法采用了比长短期记忆网络(LSTM)感受野更大的时域卷积网络(temporal convolutional network, TCN)来提取长时依赖信息;其次,针对中文唇语识别中存在的“同型异义”视觉歧义问题,将自注意力机制应用于中文句子级唇语识别,以更好地捕获上下文信息,提升了句子预测准确率;最后,在数据预处理方面引入了时间掩蔽数据增强策略,进一步降低了算法模型的错误率。在最大的开源汉语普通话句子级数据集CMLR上的实验测试表明,与现有中文句子级唇语识别代表性算法相比,所提算法的识别准确率提高了2.17%至23.99%。相似文献

13.

基于注意力自身线性融合的弱监督细粒度图像分类算法

陆鑫伟余鹏飞李海燕李红松丁文谦《计算机应用》2021,41(5):1319-1325

随着人工智能的飞速发展,计算机视觉领域对图像的分类任务不仅仅限于识别出物体的大类,更需要对同一类别的图像进行更加细致的子类划分。为了有效区分出类间的微小差异以及减少背景因素的干扰,提出了一种基于AABP的细粒度分类算法。首先,通过Inception V3预训练模型提取全局图像特征,并利用深度可分离卷积在特征映射上预测出局部注意力区域;然后,应用弱监督数据增强网络（WS-DAN）的算法将增强后的图像反馈回网络中,以此加强网络的泛化能力,防止过拟合;最后,将进一步提取的注意力特征区域在AABP网络中进行线性融合,以提升分类的精度。实验结果表明,该算法在数据集CUB-200-2011上达到88.51%的准确率、97.65%的top5准确率,在Stanford Cars数据集上到89.77%的准确率、99.27%的top5准确率,在FGVC-Aircraft数据集上到93.5%的准确率、97.96%的top5准确率。相似文献

14.

多模型数据集的免疫鲁棒回归分析

徐雪松舒俭《计算机应用》2014,34(8):2285-2290

针对传统多模型数据集回归分析方法计算时间长、模型识别准确率低的问题,提出了一种新的启发式鲁棒回归分析方法。该方法模拟免疫系统聚类学习的原理,采用B细胞网络作为数据集的分类和存储工具,通过判断数据对模型的符合度进行分类,提高了数据分类的准确性,将模型集抽取过程分解成“聚类”“回归”“再聚类”的反复尝试过程,利用并行启发式搜索逼近模型集的解。仿真结果表明,所提方法回归分析时间明显少于传统算法,模型识别准确率明显高于传统算法。根据8模型数据集分析结果,传统算法中,效果最好的是基于RANSAC的逐次提取算法,其平均模型识别准确率为90.37%,需53.3947s;计算时间小于0.5s的传统算法,其准确率不足1%;所提算法仅需0.5094s,其准确率达到了98.25%。相似文献

15.

基于图像变形网络的小样本图像分类算法研究

杨飚周芷晴《工业控制计算机》2022,35(5):86-88

传统的图像分类算法在数据集过小的情况下分类准确率不高,且传统的图像变形方法容易破坏数据主体语义信息。基于图像变形网络的小样本图像分类算法研究中,采用端对端的方式结合图像变形网络和小样本图像分类网络,通过加权融合训练图像和相似图像的方式实现了对原有数据集的有效扩充,利用数据增强提高了小样本图像分类的准确率。实验数据表明,提出的方法在mini-ImageNet数据集上对小样本图像分类网络的性能有较好的提升效果。相似文献

16.

基于视觉识别的智能翻译机器人人机交互系统研究

王馨悦周小天《自动化与仪器仪表》2023,(5):207-211

为提高智能翻译机器人人机交互的准确率，提出一种基于视觉识别的智能翻译机器人人机交互方法。方法通过采用Faster R-CNN模型提取视觉图像序列特征，并采用图结构表示提取的视觉图像序列特征，然后进行编码-解码，实现了智能翻译机器人的人机交互。仿真结果表明，所提方法提取的视觉图像特征具有较高的准确率，在ImageNet数据集上的准确率均超过80%,在MS COCO数据集上的准确率均超过70%;图结构表示准确率较高，达到80%以上。相较于基于SOTA模型和基于VLN模型的人机交互方法，所提方法无论是使用束搜索还是预搜索进行评估，其加权路径长度和错误率更小，成功率和路径长度加权成功率更高。指令匹配的成功率达到95.42%,识别准确率较高，提出方法具有一定的有效性和优越性，可用于实际智能翻译机器人人机交互。相似文献

17.

基于图像聚类的交通标志CNN快速识别算法

下载免费PDF全文

伍锡如雪刚刚《智能系统学报》2019,14(4):670-678

为了提高交通标志图像识别的准确性和实时性,提出一种基于图像聚类的交通标志CNN快速识别算法。利用图像聚类算法对原始数据集进行样本优化;采用多种图像预处理操作使样本整体质量进一步提升;构造了深度为9的CNN结构,通过多次训练得到最终的网络模型,将待识别的图像输入到CNN模型来实现自动识别。在德国交通标志数据集（German traffic sign recognition benchmark, GTSRB）和比利时交通标志数据集（Belgium traffic sign dataset, BTSD）上证明了算法的有效性,单张图片的识别速度只需0.2 s,识别精度高达98.5%以上。本算法具有识别速度快、准确率高的特点,可为智能驾驶的可靠性和安全性提供理论依据和技术支持。相似文献

18.

基于注意力机制的NewVGG16-BiGRU鼾声分类

邓志平王冬霞马晓冬曹玉东《计算机应用》2023,(S1):276-280

针对已有的鼾声分类模型因未考虑实际睡眠时的其他声音而导致的泛化能力差、准确率较低等问题，提出一种基于注意力机制的NewVGG16双向门控循环单元（NVGG16-BiGRU-Att）算法用于鼾声识别。首先，生成每个声段的谱图，采用NVGG16网络提取语谱图、梅尔（Mel）时频图和恒Q变换（CQT）时频图组成的谱图特征矩阵；其次，将提取的特征向量输入BiGRU，结合注意力机制，增加分类过程中的重要特征信息的权重，改善分类效果；最后，经过全连接层输出鼾声与非鼾声。在采集的鼾声数据集上进行实验，实验结果表明，所提算法取得了较好的分类效果，其中Mel时频图效果最优，识别准确率达到96.18%；相较于卷积神经网络（CNN）+长短期记忆（LSTM）网络、卷积CNNsLSTMs-深度神经网络（DNNs）模型，在同特征输入下，所提算法的准确率提升了0.31%～2.39%，验证了所提算法具有较好的鲁棒性，能够提升分类性能。相似文献

19.

Gabor-C3D手势识别算法

李占利刘博宇靳红梅徐建军《计算机工程与设计》2023,(5):1405-1411

针对现有的手势识别方法注重高层信息，对浅层信息利用不够，导致手势识别准确性和实时性较差的问题，提出一种Gabor-C3D手势识别算法。采用多方向多尺度的Gabor滤波器组提取手势图像中空域和频域的纹理特征；针对手势动作的特点，设计轻量级C3D网络进行特征学习与分类，在保证精度的同时降低网络的复杂度。在公开数据集与自建数据集上进行实验，实验结果表明，所提算法在自建会议手势数据集与20bn-jester中的手势平均识别率分别达到98.73%与89.26%,分类效果优于传统C3D网络。相似文献

20.

基于卷积神经网络的多尺度葡萄图像识别方法

邱津怡罗俊李秀贾伟倪福川冯慧《计算机应用》2019,39(10):2930-2936

葡萄品种质量检测需要识别多类别的葡萄，而葡萄图片中存在多种景深变化、多串等多种场景，单一预处理方法存在局限导致葡萄识别的效果不佳。实验的研究对象是大棚中采集的15个类别的自然场景葡萄图像，并建立相应图像数据集Vitis-15。针对葡萄图像中同一类别的差异较大而不同类别的差异较小的问题，提出一种基于卷积神经网络（CNN）的多尺度葡萄图像识别方法。首先，对Vitis-15数据集中的数据通过三种方法进行预处理：旋转图像的数据扩增方法、中心裁剪的多尺度图像方法以及前两种方法的数据融合方法；然后，采用迁移学习方法和卷积神经网络方法来进行分类识别，迁移学习选取ImageNet上预训练的Inception V3网络模型，卷积神经网络采用AlexNet、ResNet、Inception V3这三类模型；最后，提出适合Vitis-15的多尺度图像数据融合的分类模型MS-EAlexNet。实验结果表明，在同样的学习率和同样的测试集上，数据融合方法在MS-EAlexNet上的测试准确率达到了99.92%，相较扩增和多尺度图像方法提升了近1个百分点，并且所提方法在分类小样本数据集上具有较高的效率。相似文献