排序方式: 共有92条查询结果,搜索用时 15 毫秒
1.
基于软注意力机制的图像描述算法,提出类激活映射-注意力机制的图像描述方法。利用类激活映射算法得到卷积特征包含定位以及更丰富的语义信息,使得卷积特征与图像描述具有更好的对应关系,解决卷积特征与图像描述的对齐问题,生成的自然语言描述能够尽可能完整的描述图像内容。选择双层长短时记忆网络改进注意力机制结构,使得新的注意力机制适合当前全局和局部信息的特征表示,能够选取合适的特征表示生成图像描述。试验结果表明,改进模型在诸多评价指标上优于软注意力机制等模型,其中在MSCOCO数据集上Bleu-4的评价指标相较于软注意力模型提高了16.8%。类激活映射机制可以解决图像空间信息与描述语义对齐的问题,使得生成的自然语言减少丢失关键信息,提高图像描述的准确性。 相似文献
2.
从影视字幕中获取相应的文本,可为影视节目的内容检索提供一种重要的手段.针对从视频数据中截取下来的帧数据,对灰度化后的彩色单帧视频中的字幕分割方法进行了探讨,提出了区域检测算法的处理方案,实验结果表明用该方法获取文本信息是合理有效的. 相似文献
3.
4.
5.
6.
数字视频中字幕检测及提取的研究和实现 总被引:12,自引:1,他引:12
首先进行文字事件检测,然后进行边缘检测、阈值计算和边缘尺寸限制,最后依据文字像素密度范围进一步滤去非文字区域的视频字幕.提出的叠加水平和垂直方向边缘的方法,加强了检测到的文字的边缘;对边缘进行尺寸限制过滤掉了不符合文字尺寸的边缘;进一步,提出像素密度α的概念,并指出文字区域的像素密度α应在某一阈值范围之内(αmin≤α≤αmax).通过像素密度α滤去了非文字区域,应用投影法最终确定视频字幕所在区域.以上方法的结合保证了提出的算法的正确率和鲁棒性.选用不同类型的视频素材对文中算法进行实验,并与其他方法进行比较,得出文中算法具有较高的正确率和较快的计算速度. 相似文献
7.
基于支持向量机的视频字幕自动定位与提取 总被引:23,自引:4,他引:23
视频字幕蕴含了丰富语义 ,可用于对相应视频流进行高级语义标注 .文中首先将原始图像帧分割为 N× N的子块 ,提取每个子块的灰度特征 ;然后使用预先训练好的 SVM分类机进行字幕子块和非字幕子块的分类 ;最后结合金字塔模型和后期处理过程 ,实现视频图像字幕区域的自动定位提取 .实验表明文中方法取得了良好的效果 相似文献
8.
赵亚琴 《计算机工程与应用》2009,45(33):175-178
提出一种新的有效的新闻视频主题字幕检测方法。利用像素的空间量化亮度值计算局部帧差变化,以便检测新闻视频字幕的出现帧和消失帧,并建立4条规则来进一步区分主题字幕和非主题字幕,然后对同一主题字幕所在帧利用多帧结合的方法生成两个候选的主题字幕文字检测帧,选择其中之一进行文字区域的定位和提取;最后用投影法分割字符,并对投影法产生的错误分割字符的常见情况,提出相应的解决方法。实验结果表明了该方法的有效性。 相似文献
9.
10.
图像描述任务旨在针对一张给出的图像产生其对应描述。针对现有算法中语义信息理解不够全面的问题,提出了一个针对图像描述领域的多模态Transformer模型。该模型在注意模块中同时捕捉模态内和模态间的相互作用;更进一步使用ELMo获得包含上下文信息的文本特征,使模型获得更加丰富的语义描述输入。该模型可以对复杂的多模态信息进行更好地理解与推断并且生成更为准确的自然语言描述。该模型在Microsoft COCO数据集上进行了广泛的实验,实验结果表明,相比于使用bottom-up注意力机制以及LSTM进行图像描述的基线模型具有较大的效果提升,模型在BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE-L、CIDEr-D上分别有0.7、0.4、0.9、1.3、0.6、4.9个百分点的提高。 相似文献