首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(Conv-TasNet)和双路径递归神经网络(DPRNN),提出多头注意力机制时域视听语音分离(MHATD-AVSS)模型。通过音频编码器与视觉编码器获得音频特征与视频的唇部特征,并采用多头注意力机制将音频特征与视觉特征进行跨模态融合,得到融合视听特征,将其经DPRNN分离网络,获得不同说话者的分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及信噪比(SNR)评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离两位、3位或4位说话者的混合语音时,该文方法与传统分离网络相比,SDR提高量均在1.87 dB以上,最高可达2.29 dB。由此可见,该文方法能考虑音频信号的相位信息,更好地利用视觉信息与音频信息的相关性,提取更为准确的音视频特性,获得更好的分离效果。  相似文献   

2.
海洋水声信道具有时变、空变的特征,被动式声纳接收到的目标信号复杂多变,传统水下目标识别方法难以满足当前任务要求。提出基于注意力机制改进的多特征融合水下目标识别框架,在典型声学特征基础上,通过引入对比学习无监督特征加强目标数据的特征表达,使用多维自注意力机制,分别在特征维度和时间维度高效完成深层次目标弱信息特征抽取,显著提升识别效果。通过对真实录制的水声数据集进行实验对比,证明了所提出方法的有效性。  相似文献   

3.
为解决传统网络质量KQI数据难以提取有效特征的问题,提出一种融合CNN和LSTM的网络质量KQI数据特征提取与预测方法。首先,分别采用CNN和LSTM获取KQI数据的特征表述和隐含层特征向量;然后引入Soft Attention Model来获得注意力分配概率分布;再将注意力分配概率分布与隐含层特征向量加权求和得到融合特征表达,从而得到数据的融合特征表达--空间维度和时间维度,并以多步预测的方法验证融合特征的有效性。研究表明,本文提出的算法能够有效预测、定位用户投诉问题,网优部门可根据实时的诊断结果,结合设备优化充分改善现有的网络质量,实现网络质量的主动干预,提升用户满意度。  相似文献   

4.
基于多模式匹配的网络视频流识别与分类算法   总被引:1,自引:0,他引:1  
快速发现网络中的视频流是进行网络视频监督及管理的前提与基础。本文通过分析网络视频流数据包的特征,提出了一种基于多模式匹配思想的网络视频流快速发现与分类算法,该算法利用不同视频流的特征建立匹配机,只需对网络数据包进行一次不完全扫描,就可以判断出数据包中是否含有视频流及类型。实验结果表明,与普通的协议解析方法相比,在满足准确性的前提下,所提算法具有更好的时间性能。  相似文献   

5.
提出一种利用协惯量分析构建的全参考音视频同步感知质量模型。通过对齐得到待测音频与视频的同步误差。将音视频内容分为纯净语音、无语音和有背景语音3类。将纯净语音类分为视频中有说话人和无说话人2个子类。分别对各类选取多维特征,利用协惯量分析从特征中获得音视频最相关的特征映射和相关程度。通过参考音视频得到相关程度曲线并得到同步误差到感知质量的映射关系。结果表明该模型评测结果与主观实验结果有较好相关性。  相似文献   

6.
本文从分析引起音视频不同步现象的因素以及目前音视频同步的优缺点入手,运用时间戳、缓存技术和丢包处理机制来提出改进音视频同步的方法。在发送端,同步发送出同时采集的音视频数据;在接收端,采用主从流同步控制的方法,在时间戳判断音视频数据的同步关系上最终实现音频播放的流畅性以及音视频媒体间的同步性。经实际测试可发现效果良好。  相似文献   

7.
林淑瑞  张晓辉  郭敏  张卫强  王贵锦 《信号处理》2021,37(10):1889-1898
近年来,情感计算逐渐成为人机交互发展突破的关键,而情感识别作为情感计算的重要部分,也受到了广泛的关注。本文实现了基于ResNet18的面部表情识别系统和基于HGFM架构的语音情感识别模型,通过调整参数,训练出了性能较好的模型。在此基础上,通过特征级融合和决策级融合这两种多模态融合策略,实现了包含视频和音频信号的多模态情感识别系统,展现了多模态情感识别系统性能的优越性。两种不同融合策略下的音视频情感识别模型相比视频模态和音频模态,在准确率上都有一定的提升,验证了多模态模型往往比最优的单模态模型的识别性能更好的结论。本文所实现的模型取得了较好的情感识别性能,融合后的音视频双模态模型的准确率达到了76.84%,与现有最优模型相比提升了3.50%,在与现有的音视频情感识别模型的比较中具有性能上的优势。   相似文献   

8.
为提升车用自组网传输音频、视频的服务质量,对基于IEEE802.11p的车用无线接入技术MAC机制进行改进,提出竞争窗口自适应EDCA机制。仿真实验表明,竞争窗口自适应EDCA机制有效地降低了车用自组网中音频、视频流的传输时延、时延抖动和丢包率,保证了车用自组网传输VoIP、视频会议、音视频流媒体等多媒体业务的服务质量。  相似文献   

9.
张天  靳聪  帖云  李小兵 《信号处理》2020,36(6):966-976
跨模态检索旨在通过以某一模态的数据为查询词,使人们能够得到与之相关的其他不同模态数据的检索结果的新型检索方法,这已成为多媒体和信息检索领域中一个有趣的研究问题。但是,目前大多数的研究成果集中于文本到图像、文本到视频以及歌词到音频等跨模态相关任务上,而关于如何为特定的视频通过跨模态检索得到合适的音乐这一跨模态的相关研究却很有限。此外,大多现有的关于视频和音频跨模态的研究依赖于元数据(例如关键字,标签或描述)。本文介绍了一种基于音频和视频这两种模态数据内容的跨模态检索的方法,该方法以新型的双流处理网络为框架,并通过神经网络学习两模态数据在公共子空间的特征表达,以计算音频和视频数据之间的相似度。本文所提出的方法的创新点主要在以下三个方面:1)在原有的提取各模态特征的模型基础上引入注意力机制,以此得到了视频和音频的特征选择模型,并筛选出相应的特征表达。2)使用了样本挖掘机制,剔除了无效样本,使得数据的训练更加高效。3)从计算模态间相似性和保持模态内结构不变两方面出发,设计了相应的损失函数进行模型的训练。且所提出的模型在VEGAS数据集和自建数据集上都取得了较高的准确度。   相似文献   

10.
目前多数的视听分离模型,大多是基于视频特征和音频特征简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,该文针对此问题提出了新的模型。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合稠密光流(Farneback)算法和U-Net网络,提出跨模态融合的光流-视听语音分离(Flow-AVSS)模型。该模型通过Farneback算法和轻量级网络ShuffleNet v2分别提取运动特征和唇部特征,然后将运动特征与唇部特征进行仿射变换,经过时间卷积模块(TCN)得到视觉特征。为充分利用到视觉信息,在进行特征融合时采用多头注意力机制,将视觉特征与音频特征进行跨模态融合,得到融合视听特征,最后融合视听特征经过U-Net分离网络得到分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及源失真比(SDR)评价指标,在AVspeech数据集进行实验测试。研究表明,该文所提方法与纯语音分离网络和仅采用特征拼接的视听分离网络相比,性能上分别提高了2.23 dB和1.68 dB。由此表明,采用跨模态注意力进行特征融合,能更加充分利用各个模态相关性,增加的唇部运动特征,能有效提高视频特征的鲁棒性,提高分离效果。  相似文献   

11.
Audio-visual integration in multimodal communication   总被引:7,自引:0,他引:7  
We review recent research that examines audio-visual integration in multimodal communication. The topics include bimodality in human speech, human and automated lip reading, facial animation, lip synchronization, joint audio-video coding, and bimodal speaker verification. We also study the enabling technologies for these research topics, including automatic facial-feature tracking and audio-to-visual mapping. Recent progress in audio-visual research shows that joint processing of audio and video provides advantages that are not available when the audio and video are processed independently  相似文献   

12.
This paper proposes an efficient video coding method using audio-visual focus of attention, which is based on the observation that sound-emitting regions in an audio-visual sequence draw viewers’ attention. First, an audio-visual source localization algorithm is presented, where the sound source is identified by using the correlation between the sound signal and the visual motion information. The localization result is then used to encode different regions in the scene with different quality in such a way that regions close to the source are encoded with higher quality than those far from the source. This is implemented in the framework of H.264/AVC by assigning different quantization parameters for different regions. Through experiments with both standard and high definition sequences, it is demonstrated that the proposed method can yield considerable coding gains over the constant quantization mode of H.264/AVC without noticeable degradation of perceived quality.  相似文献   

13.
归达伟 《现代电子技术》2010,33(20):36-38,42
针对数字网络视频监控系统的需求,设计一种基于MPEG-4网络视频服务器。使用基于MPG440的MPEG-4实时视频压缩卡压缩采集到的音视频数据,利用循环队列实现音视频数据的压缩,同时运用多线程技术以及传输机制解决网络数据的传输,从而有效克制了画面不清晰、音视频不同步、马赛克等现象,保证客户监看时音视频实时性和同步性。经过实验证明,该方案经济高效,可应用在多种需要音视频监控的场合。  相似文献   

14.
随着"三网融合"的推进,网络内容传播的渠道越来越多,同时呈爆炸式增长的视听节目具有数量多、源头多、传播快、更新快等特点,这些都给视听节目的监管提出了新的要求和挑战.本文分析了视听节目内容识别技术在视听节目监管中的重要作用,并着重介绍一种先进的视听节目内容识别技术--影视基因技术,论述了其在三网融合中的应用.  相似文献   

15.
近年来,情感识别成为了人机交互领域的研究热点问题,而多模态维度情感识别能够检测出细微情感变化,得到了越来越多的关注多模态维度情感识别中需要考虑如何进行不同模态情感信息的有效融合.针对特征层融合存在有效特征提取和模态同步的问题、决策层融合存在不同模态特征信息的关联问题,本文采用模型层融合策略,提出了基于多头注意力机制的多...  相似文献   

16.
全数字视频对讲系统音视频信号的采集、编解码等信号处理是分别进行的,信号在传输过程中将产生不同的延时,这就导致在视频通话过程中出现唇音不同步的现象.提出一种基于非介入式测量技术的全数字视频对讲系统的唇音同步测试方法,适用于对音视频同步性能要求较高的实时全数字视频对讲系统,且不受通信接口、传输协议、加密通信技术等限制.  相似文献   

17.
李怀畅  程春 《电声技术》2016,40(9):16-19
同步系统是录音棚录制系统的重要组成部分,随着环绕声技术的发展,录音同步系统的复杂性也随之增加.通过对电台环绕声录制系统中的同步系统进行描述,分析了音视频同步的基本原理及所采用的标准.另外,通过对电台多轨录音棚同步系统的结构、信号线缆及安装过程中的注意事项的描述,对电台同步系统进行了总结.  相似文献   

18.
In this paper, we present a novel method for synchronizing multiple (more than two) uncalibrated video sequences recording the same event by free-moving full-perspective cameras. Unlike previous synchronization methods, our method takes advantage of tri-view geometry constraints instead of the commonly used two-view one for their better performance in measuring geometric alignment when video frames are synchronized. In particular, the tri-ocular geometric constraint of point/line features, which is evaluated by tri-focal transfer, is enforced when building the timeline maps for sequences to be synchronized. A hierarchical approach is used to reduce the computational complexity. To achieve subframe synchronization accuracy, the Levenberg-Marquardt method-based optimization is performed. The experimental results on several synthetic and real video datasets demonstrate the effectiveness and robustness of our method over previous methods in synchronizing full-perspective videos.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号