首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
在深度学习技术的发展驱动下,智慧应用场景对文本识别任务提出了更高的要求。现有方法更加侧重构建强大的视觉特征提取网络,忽略了文本序列特征的提取能力。针对该问题,提出了一种基于层次自注意力的场景文本识别网络。通过融合卷积和自注意力可以建立并增强文本序列信息与视觉感知信息间的联系。由于视觉特征和序列特征在全局空间中的充分交互,有效地减小了复杂背景噪声对识别精度的影响,实现了对规则和不规则场景文本的鲁棒性预测。实验结果表明,所提方法在各数据集上均表现出竞争力。尤其是在CUTE数据集上可以实现81.4%,6.24 ms的最佳精度和速度,具备一定的应用潜力。  相似文献   

2.
针对现有场景文本识别方法只关注局部序列字符 分类,而忽略了整个单词全局信息的问题,提出 了一种多级特征选择的场景文本识别(multilevel feature selection scene text recogn ition,MFSSTR)算 法。该算法使用堆叠块体系结构,利用多级特征选择模块在视觉特征中分别捕获上下文特征 和语义特 征。在字符预测过程中提出一种新颖的多级注意力选择解码器(multilevel attention sele ction decoder, MASD),将视觉特征、上下文特征和语义特征拼接成一个新的特征空间,通过自注意力机制 将新的特征 空间重新加权,在关注特征序列的内部联系的同时,选择更有价值的特征并参与解码预测, 同时在训练 过程中引入中间监督,逐渐细化文本预测。实验结果表明,本文算法在多个公共场景文本 数据集上识 别准确率能达到较高水平,特别是在不规则文本数据集SVTP上准确率能达到87.1%,相比于当前热门算法提升了约2%。  相似文献   

3.
针对自然场景下文本识别所存在的字符分割困难、识别精度依赖字典等问题,文中提出了一种基于注意力机制与连接时间分类损失相结合的文本识别算法。利用卷积神经网络与双向长短时期记忆网络实现对图像的特征编码,再使用Attention-CTC结构实现对特征序列的解码,有效解决Attention解码无约束的问题。该算法避免了对标签进行额外对齐预处理和后续语法处理,在加快训练收敛速度的同时显著提高了文本识别率。实验结果表明,该算法对字体模糊、背景复杂的文本图像都具有很好的鲁棒性。  相似文献   

4.
目前,大多数讽刺识别模型都是针对文本数据进行研究,推文中包含的图像数据未得到有效利用,导致讽刺识别任务准确度不高.针对这一问题,提出一种结合注意力机制的联合神经网络模型RCBA,用于图文混合的多模态讽刺识别任务.RCBA模型首先利用结合空间注意力机制和通道注意力机制的深度残差网络(ResNet101)进行图像特征自适应...  相似文献   

5.
针对多方向排列的文本因其尺度变化大、复杂背景干扰而导致检测效果仍不甚理想的问题,本文提出了一种基于注意力机制的多方向文本检测方法。首先,考虑到自然场景下干扰信息多,构建文本特征提取网络(text feature information ResNet50,TF-ResNet),对图像中的文本特征信息进行提取;其次,在特征融合模型中加入文本注意模块(text attention module, TAM),抑制无关信息的同时突出显示文本信息,以增强文本特征之间的潜在联系;最后,采用渐进扩展模块,逐步融合扩展前部分得到的多个不同尺度的分割结果,以获得精确检测结果。本文方法在数据集CTW1500、ICDAR2015上进行实验验证和分析,其F值分别达到80.4%和83.0%,比次优方法分别提升了2.0%和2.4%,表明该方法在多方向文本检测上与其他方法相比具备一定的竞争力。  相似文献   

6.
姚少卿  苏志刚 《信号处理》2020,36(11):1940-1946
基于深度学习的语义分割算法可以实现安检违禁品自动识别,并获得违禁品的位置、类别及形状信息。但传统的语义分割算法在面对违禁品尺寸不一且目标多样的识别任务时表现较差。针对该问题,本文提出了一种基于语义分割技术的多目标违禁品识别算法。编码阶段,设计使用空洞空间金字塔卷积模块(Atrous Spatial Pyramid Convolution Block, ASPC),提升网络对于特征图多尺度信息的挖掘能力。同时引入注意力机制,对ASPC模块的特征提取过程进行监督,进一步提升模块的特征提取能力。解码阶段,受U-Net模型启发,采用逐级上采样操作,同时加入1×1卷积实现通道降维,减少计算量,提升模型运行速度。实验结果显示,本文提出的算法在多目标违禁品识别任务中表现良好,平均交并比(mIoU)得分78.62,处理单张图片用时(Time)68ms。   相似文献   

7.
针对现有文本分类算法处理中文数据时存在的分类精度低、参数量庞大、模型难训练等问题,对BERT算法进行了优化.BERT算法处理中文文本时无法提取词向量特征,为此提出了均匀词向量卷积模块AWC.通过在传统卷积神经网络中引入注意力机制来提取可靠词向量特征,再进一步获取到文本的局部特征,由此弥补了BERT模型无法提取词向量的缺...  相似文献   

8.
王军  鹿姝  李云伟 《信号处理》2020,36(9):1429-1439
连续手语识别的难点之一是手语数据中存在时空维度的冗余信息,以及手语数据与给定标签序列的对齐问题。因此,本文提出一种融合注意力机制和连接时序分类的连续手语识别模型,可以提取手语数据中彩色和深度视频片段的短期时空特征以及手部运动轨迹特征,将三种模态的特征融合后使用空间注意力加权并按照时间顺序输入到双向长短期记忆网络中进行时序建模,以获取长期时空特征,最后利用融合注意力机制和连接时序分类模型的解码网络以端到端的方式实现连续手语的准确识别。本模型在自行采集的中国手语数据集上进行测试,得到了高达0.935的准确率。   相似文献   

9.
针对传统语义分割算法参数量大、运行慢,不利于违禁品识别技术实际应用的问题,提出一种基于轻量化分割网络的违禁品识别算法.在模型的浅层特征层设计空洞卷积模块来扩大网络的感受野,减少误分类并提升分割精细度.在深层特征层设计非对称卷积模块取代传统单一串联卷积操作,降低计算复杂度.实验结果表明,所提算法在识别精度和速度上取得了均...  相似文献   

10.
当前,人体行为识别在视频监控等多领域得到了重要的应用。针对传统的算法检测所呈现出的不足之处如准确性差、易受环境背景影响等问题,采用基于骨骼与关键点的方式进行行为识别。首先,使用人体姿态估计算法Openpose获取视频中人体各个关节点的坐标信息,然后通过时空图卷积神经网络(Spatial-Temporal Graph Convolution Networks,ST-GCN)进行人体行为识别。为了提高识别精度,在原有算法上加入通道注意力机制。实验结果表明,所提的算法在NTU-RGB+D数据集上,C-SUB和C-VIEW的top-1分别取得83.62%与90.86%的精度,相比ST-GCN分别提升了2.12%和2.56%。在自建数据集上,所提算法得到了78.33%的精度,相比ST-GCN的71.67%,提高了6.66%。  相似文献   

11.
郭琰  张矛 《信息技术》2021,(4):148-152,158
基于基础seq2seq深度学习算法在语法纠错准确率和召回率方面存在的不足,提出了融合Attention机制和Transformer模块的改进型seq2seq语法纠错算法。通过引入Attention机制来记录decoder端和encoder端语言信息,提升信息完整性,采用beam-search和copy机制进行启发式搜索,缓解解空间对机器内存的消耗,利用Transformer模块进行自注意力机制的特征抽取,实现了语句向量数据的扩充并得到可解析上下文纠错。最后选择合适的语料库,对不同的语法纠错算法的准确率、召唤率和F 0.5数据语法纠错效果评价指标进行了比较,结果表明了文中改进的算法模型的有效性,提高了语法纠错的准确率和召回率。  相似文献   

12.
针对变形字体的识别问题,提出了一种基于形状上下文和模糊推理相结合的度量机制的变形字体识别方法。首先,在分析现行字体识别方法的基础上,提出了薄板样条曲线TPS与模糊推理相结合的相似性距离度量机制的总体思路;其次,描述了基于形状上下文的变形字体图像的特征提取过程;而后讨论了薄板样条曲线TPS与模糊推理相结合的相似性距离度量机制,并将其应用在变形字体的识别算法中。实验结果表明所提出的方法是有效的。  相似文献   

13.
为了解决自然场景文本检测中由于文本实例分布随机、形态与尺度多样造成的检测难题,设计了一种基于注意力机制特征融合与增强的自然场景文本检测算法。利用注意力机制对有效特征提取的优势,在模型的解码融合阶段设计并引入了一种基于注意力的特征融合模块(Attention-based Feature Fusion Module, AFFM),利用空间和通道注意力分别为高层特征和低层特征引入更丰富的细节和全局信息,进一步提高了检测的准确率;设计了联合注意力特征增强模块(Joint Attention Feature Enhancement Module, JAM),利用卷积对级联后的特征在不同通道之间、空间位置间的联系建模,并生成联合特征权重mask对级联特征做加权,从而提高信息的表征能力,有效减少误检与漏检。在Total-Text和ICDAR2015两个数据集上对模型做评估,测试结果表明,该方法的F1综合指标分别达到了85.1%和87.6%,均优于当前主流算法。  相似文献   

14.
段辉军  王志刚  王彦 《激光与红外》2020,50(11):1370-1378
由于缺乏目标的先验信息,实时预警检测系统存在虚警率高、实时性偏低等问题,限制了实战环境下的广泛应用。为了提升目标检测识别的性能,本文提出了一种基于改进YOLO网络的双通道显著性目标识别算法,该算法利用红外图像与可见光互补特性进行多尺度融合,并在融合图像上采用显著性检测获取疑似目标区域,最后利用改进的识别网络对疑似区域进行多层次目标识别。改进的YOLO识别网络增加了一路辅助网络,改善整个特征提取网络的性能,并采用注意机制对辅助网络和骨干网络的特征信息融合,增强有效信息通道,抑制无效信息通道,提高网络识别效率。仿真实验结果表明,本文提出的模型可以有效地提高目标检测与识别精度,其实时性得到了大大增强。  相似文献   

15.
16.
从语音情感特征的提取和分类建模出发,以混合卷积神经网络模型为基础,改进特征提取中的 Itti模型,包括:增加通过局部二值模式提取的纹理特征;结合听觉敏感度权重提取情感强相关特征。然后提出通过特征约束条件提取标定权重特征的约束挤压和激励网络结构;最后形成以 VGGnet 和长短时记忆网络混合网络为基础的微调模型,进一步提升了情感表征能力。通过在自然情感数据库和柏林德语数据库上进行验证,该模型在情感识别率上有明显的上升,相较于基准模型提升了 8. 43%,同时对比了本模型在自然数据库(FAU-AEC)和柏林数据库(EMO-DB)上的识别效果,实验结果证明模型具有良好的泛化性。  相似文献   

17.
针对传统去雾算法容易依赖先验知识以及恢复出来的清晰图像会产生颜色失真等问题,本文提出一种基于双注意力机制的雾天图像清晰化算法。首先将雾图输入编码器,经过下采样后得到特征图像;特征提取模块将多个特征提取基本块联结在一起,每个基本块由局部残差学习和特征注意模块组成,提高图像质量以及图像特征信息的利用率,增加网络训练的稳定性;然后通过通道注意力与多尺度空间注意力并行的结构处理特征图像,使得网络更加关注细节特征,提取更多关键信息,同时提高网络效率;最后将融合后的特征图像输入解码器中,经过多级映射,得到与输入大小匹配的雾密度图。实验结果表明,不论是对合成雾天图像或者真实雾天图像,本文算法能够高效地进行去雾处理,得到更自然的清晰图像。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号