首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 687 毫秒
1.
基于统计学理论,提出了一种视频多粒度语义分析的通用方法,使得多层次语义分析与多模式信息融合得到统一.为了对时域内容进行表示,首先提出一种具有时间语义语境约束的关键帧选取策略和注意力选择模型;在基本视觉语义识别后,采用一种多层视觉语义分析框架来抽取视觉语义;然后应用隐马尔可夫模型(HMM)和贝叶斯决策进行音频语义理解;最后用一种具有两层结构的仿生多模式融合方案进行语义信息融合.实验结果表明,该方法能有效融合多模式特征,并提取不同粒度的视频语义.  相似文献   

2.
视频数据中的音频流包含了丰富的语义信息.在基于内容的视频检索中,对音频信息的分析是不可分割的一部分.本文主要讨论基于内容的音频场景分割,分析各种音频特征及提取方法,并在此基础上提出一种新的音频流分割方法,根据六种音频类型(语音、音乐、静音、环境音、纯语音、音乐背景下的语音和环境音背景下的语音)的音频特征对视频数据中的音频流分割音频场景.实验证明该方法是有效的,在保证一定的分割精度的同时,准确率和查全率都得到了较大的提高.  相似文献   

3.
现有多数视频只包含单声道音频,缺乏双声道音频所带来的立体感。针对这一问题,本文提出了一种基于多模态感知的双声道音频生成方法,其在分析视频中视觉信息的基础上,将视频的空间信息与音频内容融合,自动为原始单声道音频添加空间化特征,生成更接近真实听觉体验的双声道音频。我们首先采用一种改进的音频视频融合分析网络,以编码器-解码器的结构,对单声道视频进行编码,接着对视频特征和音频特征进行多尺度融合,并对视频及音频信息进行协同分析,使得双声道音频拥有了原始单声道音频所没有的空间信息,最终生成得到视频对应的双声道音频。在公开数据集上的实验结果表明,本方法取得了优于现有模型的双声道音频生成效果,在STFT距离以及ENV距离两项指标上均取得提升。  相似文献   

4.
随着通信和计算机技术的发展,图像和视频信息的应用越来越多.图像和视频信息分析中的一个重要方法是获得合适的特征来逼近人类视觉特性.独立分量分析是一种新的无监督训练方法,它可以在图像和视频的理解方面很好地与人类视觉相匹配.给出了不同的ICA图像/视频分析模型和基于这些模型的独立特征,对多媒体ICA分析和数字小波分析方法进行了对比,对于不同分析方法的计算机仿真给出了不同模型的独立特征,并且给出了基于这些特征在图像和视频水印方案中的应用.应用实验的仿真结果表明,独立特征对于图像和视频水印性能具有较好的改善作用.  相似文献   

5.
为了将伴生音频数据的情感语义用于引导视频精彩片段的提取,提出一种音频感知驱动下的视频精彩片段提取方法.为提取伴生音频数据的情感语义,使用一个基于分层二叉树支持向量机的音频分类器提取中层音频类型,并集成了一个情感映射模型以感知高层情感语义;然后利用该前置音频情感感知模型实现伴生音频情感语义的波动分析,并进一步以精彩片段起止定位策略和音视频同步修订为辅助手段,实现视频精彩片段的定位.文中方法以音频数据情感语义波动序列为核心枢纽,以两阶段音频情感感知模型为前导分析,构建了一个完整的音频情感驱动下视频精彩片段提取架构.实验结果表明,在保证一定查准率的情况下,音频情感驱动下的视频精彩片段提取具有较好的通用性,较高的查全率以及完整度.  相似文献   

6.
音视显著性检测方法采用的双流网络结构,在音视信号不一致时,双流网络的音频信息对视频信息产生负面影响,削弱物体的视觉特征;另外,传统融合方式忽视了特征属性的重要程度。针对双流网络的问题进行研究,提出了一种基于视觉信息补偿的多流音视显著性算法(MSAVIC)。首先,在双流网络的基础上增加单独的视频编码分支,保留视频信号中完整的物体外观和运动信息。其次,利用特征融合策略将视频编码特征与音视频显著性特征相结合,增强视觉信息的表达,实现音视不一致情况下对视觉信息的补偿。理论分析和实验结果表明,MSAVIC在四个数据集上超过其他方法2%左右,在显著性检测方面具有较好的效果。  相似文献   

7.
针对传统情感分析方法无法解决短视频情感表达问题以及现有多模态情感分析方法准确率不高、不同模态信息之间交互性差等问题,通过对多模态情感分析方法进行研究,结合时域卷积网络(TCN)和软注意力机制建立了复合层次融合的多模态情感分析模型。该模型首先将视频中提取到的文本特征、视频面部特征和音频特征进行维度均衡,然后将得到的不同模态的信息特征进行复合式融合,即先将单模态信息进行融合得到双模态特征信息,再将得到的三个双模态信息进行融合,得到最终的三模态信息,最后将得到的三模态信息和每个单模态信息进行融合得到最终的多模态情感特征信息。每次融合的特征信息都经过TCN网络层进行序列特征的提取,将最终得到的多模态特征信息通过注意力机制进行筛选过滤后用于情感分类,从而得到预测结果。在数据集CMU-MOSI和CMU-MOSEI上的实验表明,该模型能够充分利用不同模态间的交互信息,有效提升多模态情感分析的准确率。  相似文献   

8.
情感标签标注是情感计算中的一个重要领域。该领域中针对音频、图像和多媒体内容的情感标签标注已有多个相关工作发表。为分析某个基于脑电图的大脑编码的多媒体情感标签标注中音频信号的重要性,情感计算公开数据库DEAP被用作测试基准。基于DEAP数据库的多媒体刺激,共提取了音频特征和三类视频特征。首先仅使用视频特征基于该框架进行多媒体标签标注任务,之后联合使用音频和视频特征进行同样的工作。实验结果表明,与仅使用视频特征的结果相比,联合使用音视频特征可以提高标注准确率,并且没有因为增加特征维数造成性能损失。  相似文献   

9.
针对各模态之间信息密度存在差距和融合过程中可能会丢失部分情感信息等问题,提出一种基于非文本模态强化和门控融合方法的多模态情感分析模型。该模型通过设计一个音频-视觉强化模块来实现音频和视觉模态的信息增强,从而减小与文本模态的信息差距。之后,通过跨模态注意力和门控融合方法,使得模型充分学习到多模态情感信息和原始情感信息,从而增强模型的表达能力。在对齐和非对齐的CMU-MOSEI数据集上的实验结果表明,所提模型是有效的,相比现有的一些模型取得了更好的性能。  相似文献   

10.
赵奇  刘皎瑶  徐敬东 《计算机工程》2007,33(22):134-136,
提出了一种结合音视频双重特征检测视频内容的新方法,以提高对视频内容的识别准确率.该方法分别对视觉特征和音频特征进行分析,引入支持向量机对音频段进行分类,并综合音视域的分析结果对视频内容进行判断.针对特殊视频片断进行分析,证明结合音视特征的分析方法可行有效,可应用于视频内容监控及特定视频片段的检索与分割.  相似文献   

11.
现有音视人眼关注点检测算法使用双流结构分别对音视信息进行特征提取,随后对音视特征融合得到最终的预测图。但数据集中的音频信息和视觉信息会有不相关的情况,因此在音视不一致时直接对音视特征进行融合会使得音频信息对视觉特征产生消极的影响。针对上述问题,本文提出一种基于音视一致性的音视人眼关注点检测网络(Audio-visual Consistency Network, AVCN)。为验证该网络的可靠性,本文在现有音视结合的人眼关注点检测模型上加入音视一致性网络,AVCN对提取的音、视频特征进行一致性二值判断,二者一致时,输出音视融合特征作为最终的预测图,反之则输出视觉占主导的特征作为最终结果。该算法在开放的6个数据集上进行实验,结果表明加入AVCN模型的整体指标会有所提高。  相似文献   

12.
微博短文本是一种典型的用户生成数据(user generate data),蕴含了丰富的用户情感信息,微博短文本情感分类在舆情分析等众多应用中具有较强的实用价值.微博短文本具有简洁不规范、话题性强等特征,现有研究表明基于有监督的深度学习模型能够显著提升分类效果.本文针对广播电视领域微博文本展开情感分类研究,实验对比了多种文本分类模型,结果表明基于Bert的情感分类方法准确率最高.深入分析实验结果发现,Bert模型对于困难样本的分类错误率较高,为此本文引入Focal Loss作为Bert模型的损失函数,提出一种基于Bert与Focal Loss的微博短文本情感分类方法(简称为Bert-FL方法),使得Bert模型能够更容易学习到困难样本的类别边界信息,实验表明Bert-FL方法的分类准确率绝对提升了0.8%,同时对困难样本的分类准确率也有显著提升.  相似文献   

13.
面对某些热点事件,微博评论者经常使用反讽来表达对于该事件的看法,以往的情感分析任务往往忽略这一语言现象。为了提高微博情感分析的准确率,该文对反讽识别开展了研究。通过分析中文文本的语言现象和社交网络的特性,归纳了中文微博反讽的语言特征,提出了一种融合语言特征的卷积神经网络(CNN)的反讽识别方法。该方法将反讽特征和句子分别采用Word Embedding作为输入,再卷积、池化后,将其全连接融合,构建了新的卷积神经网络模型。实验结果表明,该方法在反讽识别的性能上优于传统的基于机器学习的方法。  相似文献   

14.
近年来,视听联合学习的动作识别获得了一定关注.无论在视频(视觉模态)还是音频(听觉模态)中,动作发生是瞬时的,往往在动作发生时间段内的信息才能够显著地表达动作类别.如何更好地利用视听模态的关键帧携带的显著表达动作信息,是视听动作识别待解决的问题之一.针对该问题,提出关键帧筛选网络KFIA-S,通过基于全连接层的线性时间...  相似文献   

15.
We propose ViComp, an automatic audio-visual camera selection framework for composing uninterrupted recordings from multiple user-generated videos (UGVs) of the same event. We design an automatic audio-based cut-point selection method to segment the UGV. ViComp combines segments of UGVs using a rank-based camera selection strategy by considering audio-visual quality and camera selection history. We analyze the audio to maintain audio continuity. To filter video segments which contain visual degradations, we perform spatial and spatio-temporal quality assessment. We validate the proposed framework with subjective tests and compare it with state-of-the-art methods.  相似文献   

16.
基于音视特征的视频内容检测方法   总被引:1,自引:1,他引:1       下载免费PDF全文
蔡群  陆松年  杨树堂 《计算机工程》2007,33(22):240-242
提出了一种结合音视频双重特征检测视频内容的新方法,以提高对视频内容的识别准确率。该方法分别对视觉特征和音频特征进行分析,引入支持向量机对音频段进行分类,并综合音视域的分析结果对视频内容进行判断。针对特殊视频片断进行分析,证明结合音视特征的分析方法可行有效,可应用于视频内容监控及特定视频片段的检索与分割。  相似文献   

17.
近年来,以微博为代表的社交媒体在情感分析中备受关注。然而,绝大多数现有的主题情感模型并没有充分考虑到用户性格特征,导致情感分析结果难尽人意。故该文在现有的JST模型基础上进行改进,提出一种基于时间的性格建模方法,将用户性格特征纳入主题情感模型中;鉴于微博数据包含大量的表情符号之类的特有信息,为了充分利用表情符号来提升微博情感识别性能,该文将情感符号融入JST模型中,进而提出了一种改进的主题情感联合模型UC-JST(Joint Sentiment/Topic Model Based on User Character)。通过在真实的新浪微博数据集上进行实验,结果表明UC-JST情感分类效果优于JST、TUS-LDA、JUST、TSMMF四种典型的无监督情感分类方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号