首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
现有多数视频只包含单声道音频,缺乏双声道音频所带来的立体感。针对这一问题,本文提出了一种基于多模态感知的双声道音频生成方法,其在分析视频中视觉信息的基础上,将视频的空间信息与音频内容融合,自动为原始单声道音频添加空间化特征,生成更接近真实听觉体验的双声道音频。我们首先采用一种改进的音频视频融合分析网络,以编码器-解码器的结构,对单声道视频进行编码,接着对视频特征和音频特征进行多尺度融合,并对视频及音频信息进行协同分析,使得双声道音频拥有了原始单声道音频所没有的空间信息,最终生成得到视频对应的双声道音频。在公开数据集上的实验结果表明,本方法取得了优于现有模型的双声道音频生成效果,在STFT距离以及ENV距离两项指标上均取得提升。  相似文献   

2.
针对在视频行为检测中卷积神经网络(CNN)对时域信息理解能力不足的问题,提出了一种融合 非局部神经网络的行为检测模型。模型采用一种双分支的 CNN 结构,分别提取视频的空间特征和运动特征。 将视频单帧和视频连续帧序列作为网络输入,空间网络对视频当前帧进行 2D CNN 特征提取,时空网络采用融 合非局部模块的 3D CNN 来捕获视频帧之间的全局联系。为了进一步增强上下文语义信息,使用一种通道融合 机制来聚合双分支网络的特征,最后将融合后的特征用于帧级检测。在 UCF101-24 和 JHMDB 2 个数据集上进 行了实验,结果表明,该方法能够充分融合空间和时间维度信息,在基于视频的时空行为检测任务上具有较高 的检测精度。  相似文献   

3.
柴冰  李冬冬  王喆  高大启 《计算机科学》2021,48(12):312-318
现有的脑电(EEG)情感识别研究普遍采用神经网络和单一注意机制来学习情感特征,具有相对单一的特征表示.而神经科学研究表明,不同频率和电极通道的脑电信号对情感有不同的响应程度,因此文中提出了一种融合频率和电极通道卷积注意的方法,用于脑电情感识别.具体来说,首先将EEG信号分解到不同的频带上并提取相应的帧级特征,然后用预激活残差网络来学习深层次的脑电情感相关特征,同时在残差网络的每个预激活残差单元中都融入频率和电极通道卷积注意模块,以建模脑电信号的频率和电极通道信息,并生成脑电特征的最终注意表示.在DEAP和DREAMER数据集上的独立于受试者场景下的实验结果表明,所提出的卷积注意方法相比单一注意机制更有助于增强EEG信号中情感显著信息的导入,并且能产生更好的情感识别结果.  相似文献   

4.
音视显著性检测方法采用的双流网络结构,在音视信号不一致时,双流网络的音频信息对视频信息产生负面影响,削弱物体的视觉特征;另外,传统融合方式忽视了特征属性的重要程度。针对双流网络的问题进行研究,提出了一种基于视觉信息补偿的多流音视显著性算法(MSAVIC)。首先,在双流网络的基础上增加单独的视频编码分支,保留视频信号中完整的物体外观和运动信息。其次,利用特征融合策略将视频编码特征与音视频显著性特征相结合,增强视觉信息的表达,实现音视不一致情况下对视觉信息的补偿。理论分析和实验结果表明,MSAVIC在四个数据集上超过其他方法2%左右,在显著性检测方面具有较好的效果。  相似文献   

5.
文本情感分析作为自然语言处理领域的一大分支,具有非常高的研究价值。该文提出了一种基于多通道卷积与双向GRU网络的情感分析模型。该模型首先使用多通道卷积神经网络对文本不同粒度的特征信息进行提取,提取后的特征信息经过融合送入双向 GRU 中,结合注意力机制获得文本的上下文情感特征,最后由分类器给出文本的情感倾向。注意力机制自适应的感知上下文信息进而提取对情感极性影响较强的特征,在模型的基础上引入Maxout神经元,解决模型训练过程中的梯度弥散问题。模型在IMDb及SST-2数据集上进行实验,实验结果表明本文模型较CNN-RNN模型在分类精确度上有了一定程度的提升。  相似文献   

6.
现有音视人眼关注点检测算法使用双流结构分别对音视信息进行特征提取,随后对音视特征融合得到最终的预测图。但数据集中的音频信息和视觉信息会有不相关的情况,因此在音视不一致时直接对音视特征进行融合会使得音频信息对视觉特征产生消极的影响。针对上述问题,本文提出一种基于音视一致性的音视人眼关注点检测网络(Audio-visual Consistency Network, AVCN)。为验证该网络的可靠性,本文在现有音视结合的人眼关注点检测模型上加入音视一致性网络,AVCN对提取的音、视频特征进行一致性二值判断,二者一致时,输出音视融合特征作为最终的预测图,反之则输出视觉占主导的特征作为最终结果。该算法在开放的6个数据集上进行实验,结果表明加入AVCN模型的整体指标会有所提高。  相似文献   

7.
为提高视频清晰度,引进双通道卷积神经网络算法,设计了一种针对视频处理过程的超分辨率增强方法。将视频录入计算机,建立视频信息与输入特征之间的级联关系,提取视频处理中的图像边缘纹理信息;引进双通道卷积神经网络算法,使用3×3的滤波处理器,提取视频特征信息,将提取的信息映射到双通道3×3区域中,匹配视频的矢量信息;引进Pair-wise模型将输入的低分辨率图像作为模型的分支,通过训练分支得到一个针对处理视频特征的字典,并据此生成高分辨率图像块。实验结果证明,设计方法可以在提高视频清晰度的同时,提高视频峰值信噪比,达到优化视频处理效果的目的。  相似文献   

8.
深度网络模型在微博情感倾向性分析过程中难以有效利用情感特征信息,为此,提出一种基于多样化特征信息的卷积神经网络(MF-CNN)模型。结合词语多样化的抽象特征和2种网络输入矩阵计算方法,利用句中的情感信息,以优化情感分类效果。在COAE2014和微博语料数据集上进行文本情感分析,结果表明,MF-CNN模型的情感分类效果优于传统的分类器和深度卷积神经网络模型。  相似文献   

9.
刘嘉敏  苏远歧  魏平  刘跃虎 《自动化学报》2020,46(10):2137-2147
基于视频-脑电信号交互协同的情感识别是人机交互重要而具有挑战性的研究问题.本文提出了基于长短记忆神经网络(Long-short term memory, LSTM)和注意机制(Attention mechanism)的视频-脑电信号交互协同的情感识别模型.模型的输入是实验参与人员观看情感诱导视频时采集到的人脸视频与脑电信号, 输出是实验参与人员的情感识别结果.该模型在每一个时间点上同时提取基于卷积神经网络(Convolution neural network, CNN)的人脸视频特征与对应的脑电信号特征, 通过LSTM进行融合并预测下一个时间点上的关键情感信号帧, 直至最后一个时间点上计算出情感识别结果.在这一过程中, 该模型通过空域频带注意机制计算脑电信号${\alpha}$波, ${\beta}$波与${\theta}$波的重要度, 从而更加有效地利用脑电信号的空域关键信息; 通过时域注意机制, 预测下一时间点上的关键信号帧, 从而更加有效地利用情感数据的时域关键信息.本文在MAHNOB-HCI和DEAP两个典型数据集上测试了所提出的方法和模型, 取得了良好的识别效果.实验结果表明本文的工作为视频-脑电信号交互协同的情感识别问题提供了一种有效的解决方法.  相似文献   

10.
文本情感分析是自然语言处理领域一个重要的分支。现有深度学习方法不能更为全面地提取文本情感特征,且严重依赖于大量的语言知识和情感资源,需要将这些特有的情感信息充分利用使模型达到最佳性能。该文提出了一种融合卷积神经网络与双向GRU网络的文本情感分析胶囊模型。该模型首先使用多头注意力学习单词间的依赖关系、捕获文本中情感词,利用卷积神经网络和双向GRU提取文本不同粒度的情感特征,特征融合后输入全局平均池化层,在得到文本的实例特征表示的同时,针对每个情感类别结合注意力机制生成特征向量构建情感胶囊,最后根据胶囊属性判断文本情感类别。模型在MR、IMDB、SST-5及谭松波酒店评论数据集上进行实验,相比于其他基线模型具有更好的分类效果。  相似文献   

11.
针对各模态之间信息密度存在差距和融合过程中可能会丢失部分情感信息等问题,提出一种基于非文本模态强化和门控融合方法的多模态情感分析模型。该模型通过设计一个音频-视觉强化模块来实现音频和视觉模态的信息增强,从而减小与文本模态的信息差距。之后,通过跨模态注意力和门控融合方法,使得模型充分学习到多模态情感信息和原始情感信息,从而增强模型的表达能力。在对齐和非对齐的CMU-MOSEI数据集上的实验结果表明,所提模型是有效的,相比现有的一些模型取得了更好的性能。  相似文献   

12.
微博短文本是一种典型的用户生成数据(user generate data),蕴含了丰富的用户情感信息,微博短文本情感分类在舆情分析等众多应用中具有较强的实用价值.微博短文本具有简洁不规范、话题性强等特征,现有研究表明基于有监督的深度学习模型能够显著提升分类效果.本文针对广播电视领域微博文本展开情感分类研究,实验对比了多种文本分类模型,结果表明基于Bert的情感分类方法准确率最高.深入分析实验结果发现,Bert模型对于困难样本的分类错误率较高,为此本文引入Focal Loss作为Bert模型的损失函数,提出一种基于Bert与Focal Loss的微博短文本情感分类方法(简称为Bert-FL方法),使得Bert模型能够更容易学习到困难样本的类别边界信息,实验表明Bert-FL方法的分类准确率绝对提升了0.8%,同时对困难样本的分类准确率也有显著提升.  相似文献   

13.
面对某些热点事件,微博评论者经常使用反讽来表达对于该事件的看法,以往的情感分析任务往往忽略这一语言现象。为了提高微博情感分析的准确率,该文对反讽识别开展了研究。通过分析中文文本的语言现象和社交网络的特性,归纳了中文微博反讽的语言特征,提出了一种融合语言特征的卷积神经网络(CNN)的反讽识别方法。该方法将反讽特征和句子分别采用Word Embedding作为输入,再卷积、池化后,将其全连接融合,构建了新的卷积神经网络模型。实验结果表明,该方法在反讽识别的性能上优于传统的基于机器学习的方法。  相似文献   

14.
近年来,视听联合学习的动作识别获得了一定关注.无论在视频(视觉模态)还是音频(听觉模态)中,动作发生是瞬时的,往往在动作发生时间段内的信息才能够显著地表达动作类别.如何更好地利用视听模态的关键帧携带的显著表达动作信息,是视听动作识别待解决的问题之一.针对该问题,提出关键帧筛选网络KFIA-S,通过基于全连接层的线性时间...  相似文献   

15.
We propose ViComp, an automatic audio-visual camera selection framework for composing uninterrupted recordings from multiple user-generated videos (UGVs) of the same event. We design an automatic audio-based cut-point selection method to segment the UGV. ViComp combines segments of UGVs using a rank-based camera selection strategy by considering audio-visual quality and camera selection history. We analyze the audio to maintain audio continuity. To filter video segments which contain visual degradations, we perform spatial and spatio-temporal quality assessment. We validate the proposed framework with subjective tests and compare it with state-of-the-art methods.  相似文献   

16.
赵奇  刘皎瑶  徐敬东 《计算机工程》2007,33(22):134-136,
提出了一种结合音视频双重特征检测视频内容的新方法,以提高对视频内容的识别准确率.该方法分别对视觉特征和音频特征进行分析,引入支持向量机对音频段进行分类,并综合音视域的分析结果对视频内容进行判断.针对特殊视频片断进行分析,证明结合音视特征的分析方法可行有效,可应用于视频内容监控及特定视频片段的检索与分割.  相似文献   

17.
基于音视特征的视频内容检测方法   总被引:1,自引:1,他引:1       下载免费PDF全文
蔡群  陆松年  杨树堂 《计算机工程》2007,33(22):240-242
提出了一种结合音视频双重特征检测视频内容的新方法,以提高对视频内容的识别准确率。该方法分别对视觉特征和音频特征进行分析,引入支持向量机对音频段进行分类,并综合音视域的分析结果对视频内容进行判断。针对特殊视频片断进行分析,证明结合音视特征的分析方法可行有效,可应用于视频内容监控及特定视频片段的检索与分割。  相似文献   

18.
近年来,以微博为代表的社交媒体在情感分析中备受关注。然而,绝大多数现有的主题情感模型并没有充分考虑到用户性格特征,导致情感分析结果难尽人意。故该文在现有的JST模型基础上进行改进,提出一种基于时间的性格建模方法,将用户性格特征纳入主题情感模型中;鉴于微博数据包含大量的表情符号之类的特有信息,为了充分利用表情符号来提升微博情感识别性能,该文将情感符号融入JST模型中,进而提出了一种改进的主题情感联合模型UC-JST(Joint Sentiment/Topic Model Based on User Character)。通过在真实的新浪微博数据集上进行实验,结果表明UC-JST情感分类效果优于JST、TUS-LDA、JUST、TSMMF四种典型的无监督情感分类方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号