首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
自然场景文本识别是计算机视觉领域的研究热点之一,在无人驾驶、图像检索、机器人导航等领域具有广泛的应用前景.由于自然场景中的文本图像存在背景复杂、透视失真、过度弯曲等现象,给文本识别带来了巨大的挑战.针对上述问题,本文提出了一种基于多路并行的位置关联网络(Multi-Path Parallel Location Association Network, MPLAN)的自然场景文本识别方法.首先,针对不规则文本图像,MPLAN使用文本矫正网络自适应学习图像变换,从而获得线性排列的文本图像.其次,为了捕获字符间的位置信息,MPLAN提出了位置关联模块,利用序列特征的有序性,通过捕获字符位置信息,以提高序列特征与目标字符的对齐准确度.此外,为了增强字符间的语义相关性,MPLAN提出了基于多路传输思想的并行注意力模块,获取全局语义信息,实现序列特征的上下文通信,从而锁定有效字符的位置.在包括规则文本、不规则文本在内的六个数据集上的实验结果表明,MPLAN能够有效利用位置信息与全局语义信息解码字符序列,特别是在识别不规则文本上取得了领先的性能.  相似文献   

2.
目的 场景文本检测是场景理解和文字识别领域的重要任务之一,尽管基于深度学习的算法显著提升了检测精度,但现有的方法由于对文字局部语义和文字实例间的全局语义的提取能力不足,导致缺乏文字多层语义的建模,从而检测精度不理想。针对此问题,提出了一种层级语义融合的场景文本检测算法。方法 该方法包括基于文本片段的局部语义理解模块和基于文本实例的全局语义理解模块,以分别引导网络关注文字局部和文字实例间的多层级语义信息。首先,基于文本片段的局部语义理解模块根据相对位置将文本划分为多个片段,在细粒度优化目标的监督下增强网络对局部语义的感知能力。然后,基于文本实例的全局语义理解模块利用文本片段粗分割结果过滤背景区域并提取可靠的文字区域特征,进而通过注意力机制自适应地捕获任意形状文本的全局语义信息并得到最终分割结果。此外,为了降低边界区域的预测噪声对层级语义信息聚合的干扰,提出边界感知损失函数以降低边界区域特征的歧义性。结果 算法在3个常用的场景文字检测数据集上实验并与其他算法进行了比较,所提方法在性能上获得了显著提升,在Totoal-Text数据集上,F值为87.0%,相比其他模型提升了1.0%;在MSRA-TD500(MSRA text detection 500 database)数据集上,F值为88.2%,相比其他模型提升了1.0%;在ICDAR 2015(International Conference on Document Analysis and Recognition)数据集上,F值为87.0%。结论 提出的模型通过分别构建不同层级下的语义上下文和对歧义特征额外的惩罚解决了层级语义提取不充分的问题,获得了更高的检测精度。  相似文献   

3.
目的 基于深度学习的端到端场景文本识别任务已经取得了很大的进展。然而受限于多尺度、任意形状以及背景干扰等问题,大多数端到端文本识别器依然会面临掩码提议不完整的问题,进而影响模型的文本识别结果。为了提高掩码预测的准确率,提出了一种基于软注意力的掩码嵌入模块(soft attention mask embedding,SAME),方法 利用Transformer更好的全局感受野,将高层特征进行编码并计算软注意力,然后将编码特征与预测掩码层级嵌入,生成更贴近文本边界的掩码来抑制背景噪声。基于SAME强大的文本掩码优化及细粒度文本特征提取能力,进一步提出了一个健壮的文本识别框架SAME-Net,开展无需字符级注释的端到端精准文本识别。具体来说,由于软注意力是可微的,所提出的SAME-Net可以将识别损失传播回检测分支,以通过学习注意力的权重来指导文本检测,使检测分支可以由检测和识别目标联合优化。结果 在多个文本识别公开数据集上的实验表明了所提方法的有效性。其中,SAME-Net在任意形状文本数据集Total-Text上实现了84.02%的H-mean,相比于2022年的GLASS(global to local attention for scene-text spotting),在不增加额外训练数据的情况下,全词典的识别准确率提升1.02%。所提方法在多向数据集ICDAR 2015(International Conference on Document Analysis and Recognition)也获得了与同期工作相当的性能,取得83.4%的强词典识别结果。结论 提出了一种基于SAME的端到端文本识别方法。该方法利用Transformer的全局感受野生成靠近文本边界的掩码来抑制背景噪声,提出的SAME模块可以将识别损失反向传输到检测模块,并且不需要额外的文本校正模块。通过检测和识别模块的联合优化,可以在没有字符级标注的情况下实现出色的文本定位性能。  相似文献   

4.
文本指代实例分割(RIS)任务是解析文本描述所指代的实例,并在对应图像中分割出该实例,是计算机视觉与媒体领域中热门的研究课题。当前,大多数RIS方法基于单尺度文本/图像模态信息的融合,以感知指代实例的位置和语义信息。然而,单一尺度模态信息很难同时涵盖定位不同大小实例所需的语义和结构上下文信息,阻碍了模型对任意大小指代实例的感知,进而影响模型对不同大小指代实例的分割。对此,设计多尺度视觉-语言交互感知模块和多尺度掩膜预测模块:前者增强模型对不同尺度实例语义与文本语义之间的融合与感知;后者通过充分捕捉不同尺度实例的所需语义和结构信息提升指代实例分割的表现。由此,提出了多尺度模态感知的文本指代实例分割模型(MMPN-RIS)。实验结果表明,MMPN-RIS模型在RefCOCO,RefCOCO+和RefCOCOg3个公开数据集的oIoU指标上均达到了前沿性能;针对文本指代不同尺度实例的分割,MMPN-RIS模型有着较好的表现。  相似文献   

5.
针对自然场景文本检测算法未能高效、准确地实现端到端的任意形状文本检测,提出了轻量型像素聚类文本核重建的文本检测算法,针对轻量型网络特征信息弱和感受野小的问题,设计了图像级上下文信息模块(imagelevel context module)来捕获全局图像信息和语义级上下文信息模块(semantic-level context module)学习目标区域信息,两者信息融合增强网络特征信息保证检测的准确性,为了有效区分相邻文本和定位弯曲文本,基于文本核启发将文字实例中心视为聚类中心,从核中心经过一次像素聚类重建完整的文字实例实现对任意形状文本的检测。方法在弯曲文本数据集Total-Text和CTW1500综合评分达到了84.1%和84.6%超过了最好的CARFT方法,检测速度42帧/s超过最优EAST的,有效地解决了检测形状文本的高效和准确性,在应用层面更加友好。  相似文献   

6.
随着深度学习技术的发展, 自然场景文本检测的性能获得了显著的提升. 但目前仍然存在两个主要的挑战: 一是速度和准确度之间的权衡, 二是对任意形状的文本实例的检测. 本文采用基于分割的方法高效准确的检测任意形状场景文本. 具体来说, 使用具有低计算成本的分割头和简洁高效的后处理, 分割头由特征金字塔增强模块和特征融合模块组成, 前者可以引入多层次的信息来指导更好的分割, 后者可以将前者给出的不同深度的特征集合成最终的特征进行分割. 本文采用可微二值化模块, 自适应地设置二值化阈值, 将分割方法产生的概率图转换为文本区域, 从而提高文本检测的性能. 在标准数据集ICDAR2015和Total-Text上, 本文提出的方法使用轻量级主干网络如ResNet18在速度和准确度方面都达到了可比较的结果.  相似文献   

7.
目的 获取场景图像中的文本信息对理解场景内容具有重要意义,而文本检测是文本识别、理解的基础。为了解决场景文本识别中文字定位不准确的问题,本文提出了一种高效的任意形状文本检测器:非局部像素聚合网络。方法 该方法使用特征金字塔增强模块和特征融合模块进行轻量级特征提取,保证了速度优势;同时引入非局部操作以增强骨干网络的特征提取能力,使其检测准确性得以提高。非局部操作是一种注意力机制,能捕捉到文本像素之间的内在关系。此外,本文设计了一种特征向量融合模块,用于融合不同尺度的特征图,使尺度多变的场景文本实例的特征表达得到增强。结果 本文方法在3个场景文本数据集上与其他方法进行了比较,在速度和准确度上均表现突出。在ICDAR(International Conference on Document Analysis and Recognition) 2015数据集上,本文方法比最优方法的F值提高了0.9%,检测速度达到了23.1 帧/s;在CTW(Curve Text in the Wild) 1500数据集上,本文方法比最优方法的F值提高了1.2%,检测速度达到了71.8 帧/s;在Total-Text数据集上,本文方法比最优方法的F值提高了1.3%,检测速度达到了34.3 帧/s,远远超出其他方法。结论 本文方法兼顾了准确性和实时性,在准确度和速度上均达到较高水平。  相似文献   

8.
当前场景文本检测技术面临的挑战主要体现在2个方面:模型实时性和准确性之间的权衡,以及任意形状文本的检测。它们决定了场景文本检测在真实场景中应用是否可行。针对以上2个问题,本文采用基于分割的方法,提出一种轻量且特征提取能力强的主干网络,可以实时准确地检测任意形状的自然场景文本。具体来说,使用了结构简单的双分辨率残差主干网络和低计算成本的深度聚合金字塔池化模块,将二者提取到的特征融合使用可微二值化模块进行分割。通过在标准英文数据集ICDAR2015上进行的对比实验表明,本文提出的改进方法有效,且在实时性和准确性上都达到可比较的结果。  相似文献   

9.
针对深度卷积神经网络模型缺乏对语义信息的表征能力,而细粒度视觉识别中种类间视觉差异微小且多集中在关键的语义部位的问题,提出基于语义信息融合的深度卷积神经网络模型及细粒度车型识别模型.该模型由定位网络和识别网络组成,通过定位网络FasterRCNN获取车辆目标及各语义部件的具体位置;借助识别网络提取目标车辆及各语义部件的特征,再使用小核卷积实现特征拼接和融合;最后经过深层神经网络得到最终识别结果.实验结果表明,文中模型在斯坦福BMW-10数据集的识别准确率为78.74%,高于VGG网络13.39%;在斯坦福cars-197数据集的识别准确率为85.94%,其迁移学习模型在BMVC car-types数据集的识别准确率为98.27%,比该数据集目前最好的识别效果提高3.77%;该模型避免了细粒度车型识别对于车辆目标及语义部件位置的依赖,并具有较高的识别准确率及通用性.  相似文献   

10.
针对自然场景文本检测中存在大量假阳性问题,提出了嵌入重评分机制的自然场景文本检测方法。引入实例分割网络(Mask R-CNN)作为基本框架,实现对自然场景中多方向、不规则文本的检测;设计文本掩膜重评分机制,通过预测文本掩膜的质量,将文本的语义类别信息与其对应的掩膜完整性信息相结合,重新评估文本掩膜的质量,精确了文本的候选区域;重新设计损失函数的作用范围。上述模型基于端到端训练,在ICDAR2013、ICDAR2015和Total-Text等数据集进行性能测试,结果表明,提出的方法有效的提高了字符分割的完整性,较之现有方法明显地提高了文本检测的准确率和召回率,更适合自然场景中的不规则文本的识别。  相似文献   

11.
宋长平  李婧 《计算机应用研究》2020,37(11):3297-3301
传统序列到序列模型未充分利用输入文本的句子结构,导致其无法生成结构严谨、语法更好的摘要。因此,提出了一种融合句子基本结构的摘要生成方法。首先,明确提出融合句子结构生成文本摘要的概念。再者,在摘要生成器上增添了句子基本结构模块和监督模块,句子基本结构模块从输入文本中捕捉一系列句子结构,监督模块评估已捕获句子结构的重要性,以此协助句子基本结构模块从中提取可用的句子结构。最后,摘要生成器融合可用的句子结构生成最终摘要。在数据集LCSTS上的实验表明,此方法的ROUGE得分相较于seq2seq皆有提高,即其生成摘要的准确性优于seq2seq模型。实验也验证了句子基本结构模块和监督模块存在的必要性。  相似文献   

12.
翟程远 《工业控制计算机》2011,24(10):66+69-66,69
介绍了UV机的制造过程及控制方法,利用LG的Master-K120系列PLC作为UV机的主控制器,同时阐述了PLC(附加RTC模块)和文本显示器之间通讯原理。PLC与文本显示器取代原本的MCU与LCD的控制,不但减少了开发周期,并降低了成本,具有良好的应用市场前景。  相似文献   

13.
层级多标签文本分类相比普通的多标签文本分类更具有挑战性,因为文本的多个标签组织成树状的层次结构。当前方法使用相同的模型结构来预测不同层级的标签,忽略了它们之间的差异性和多样性。并且没有充分地建模层级依赖关系,造成各层级标签尤其是下层长尾标签的预测性能差,且会导致标签不一致性问题。为了解决以上问题,将多任务学习架构引入,提出了MSML-BERT模型。该模型将标签结构中每一层的标签分类网络视为一个学习任务,通过任务间知识的共享和传递,提高各层级任务的性能。基于此,设计了多尺度特征抽取模块,用于捕捉不同尺度和粒度的特征以形成不同层级需要的各种知识。进一步,设计了多层级信息传播模块,用于充分建模层级依赖,在不同层级之间传递知识,以帮助下层任务。在该模块中,设计了层次化门控机制,为了过滤不同层级任务之间的知识流动。在RCV1-V2、NYT和WOS数据集上进行了充分的实验,结果显示该模型的总体表现尤其是在下层长尾标签上的表现超过了其他主流模型,并且能维持较低的标签不一致比率。  相似文献   

14.
整合数据持久化与全文检索的新方法   总被引:3,自引:0,他引:3       下载免费PDF全文
在基于J2EE架构的信息管理系统开发中,针对难以实现数据持久化与全文索引的同步与结构匹配问题,提出基于Hibernate Search的实施模型。该模型包含了对组件的扩展和优化,同时将其应用于知识库案例中,实现了高效灵活的知识库全文检索。实验结果表明,该模型能有效整合数据库与全文检索中的数据信息,提高全文检索效率。  相似文献   

15.
文本聚类中权重计算的对偶性策略   总被引:15,自引:0,他引:15  
卜东波  白硕  李国杰 《软件学报》2002,13(11):2083-2089
在文本聚类/分类处理中,一个重要步骤就是寻找文本的合理表示.在被广泛采用的向量空间模型中,一个文本被表示成一个向量,向量的各维是特征项,而向量空间模型的核心问题就是如何进行特征的抽取和选择.在特征的权重计算中,存在一种对偶性现象.利用迭代的方法来处理和利用这种对偶性,获得了文本的隐含概念.实验结果表明,采用概念空间代替原始词空间来表示文本,能够得到更好的聚类结果.  相似文献   

16.
介绍一种基于GPS模块和科大讯飞TTS语音模块的景区自助语音导游系统,给出了系统的详细硬件设计方案及主要软件流程图。除可为景区游客的自助导游提供支持外,还可充分展示景区的各类工作成果,并收集游客对景区相关工作的评价意见,最后还可通过上位PC机软件提取游客活动信息及评价意见,进而为景区改善旅游服务及管理工作提供依据。  相似文献   

17.
文本生成图像算法对生成图像的质量和文本匹配度有很高的要求. 为了提高生成图像的清晰度, 在现有算法的基础上改进生成对抗网络模型. 加入动态记忆网络、细节校正模块(DCM)、文本图像仿射组合模块(ACM)来提高生成图片的质量. 其中动态记忆网络可以细化模糊图像并选择重要的文本信息存储, 以提高下一阶段生成图像的质量. DCM纠正细节, 完成合成图像中缺失部分. ACM编码原始图像特征, 重建与文本描述无关的部分. 改进后的模型实现了两个目标, 一是根据给定文本生成高质量的图片, 同时保留与文本无关的内容. 二是使生成图像不再较大程度依赖于初始图像的生成质量. 通过在CUB-200-2011鸟类数据集进行研究实验, 结果表明相较之前的算法模型, FID (Frechet inception)有了显著的改善, 结果由16.09变为10.40. 证明了算法的可行性和先进性.  相似文献   

18.
苏广和  彭文辉  于雪泳 《软件》2011,32(4):51-52,58
分析了导弹信息处理系统的CPU模块、输入和输出模块的设计,通过该设计方式可以有效地提高导弹信息处理系统的信息交换速度,从而优化了硬件模块化设计技术的优势。  相似文献   

19.
随着时代的发展,传统的实验教学存在的问题,越来越明显,严重束缚了学生的想象力和思维能力的开发,紧跟时代潮流,顺应时代发展,探讨新的实验教学模式势在必行。为了充分利用现有的实验室资源,节约学生的学习时间,降低教师的工作强度,特进行了实验室开放信息化管理平台研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号