首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
张天  靳聪  帖云  李小兵 《信号处理》2020,36(6):966-976
跨模态检索旨在通过以某一模态的数据为查询词,使人们能够得到与之相关的其他不同模态数据的检索结果的新型检索方法,这已成为多媒体和信息检索领域中一个有趣的研究问题。但是,目前大多数的研究成果集中于文本到图像、文本到视频以及歌词到音频等跨模态相关任务上,而关于如何为特定的视频通过跨模态检索得到合适的音乐这一跨模态的相关研究却很有限。此外,大多现有的关于视频和音频跨模态的研究依赖于元数据(例如关键字,标签或描述)。本文介绍了一种基于音频和视频这两种模态数据内容的跨模态检索的方法,该方法以新型的双流处理网络为框架,并通过神经网络学习两模态数据在公共子空间的特征表达,以计算音频和视频数据之间的相似度。本文所提出的方法的创新点主要在以下三个方面:1)在原有的提取各模态特征的模型基础上引入注意力机制,以此得到了视频和音频的特征选择模型,并筛选出相应的特征表达。2)使用了样本挖掘机制,剔除了无效样本,使得数据的训练更加高效。3)从计算模态间相似性和保持模态内结构不变两方面出发,设计了相应的损失函数进行模型的训练。且所提出的模型在VEGAS数据集和自建数据集上都取得了较高的准确度。   相似文献   

2.
针对低信噪比条件下的扩频与常规调制信号分类精度低的问题,该文提出一种基于生成式对抗网络(GAN)、卷积神经网络(CNN)和长短期记忆(LSTM)网络的多模态注意力机制信号调制识别方法。首先生成待识别信号的时频图像(TFIs),并利用GAN实现TFIs降噪处理;然后将信号的同相正交数据(I/Q data)与TFIs作为模型输入,并搭建基于CNN的TFIs识别支路和基于LSTM的I/Q数据识别支路;最后,在模型中添加注意力机制,增强I/Q数据和TFIs中重要特征对分类结果的决定作用。实验结果表明,该文所提方法相较于单模态识别模型以及其它基线模型,整体分类精度有效提升2%~7%,并在低信噪比条件下具备更强的特征表达能力和鲁棒性。  相似文献   

3.
裹1了脚AV转换控刹K助】(i公坛翻N)引脚功能及,傲引脚功能工作电压!, 又V){一}弓i脚功能工作电压 (V)lTV左声道音频信号输人一4 .9}l2TV右声道音频信号输人4 .92左声道静嗓控制电压抽人o{l3外接Av右声道音频信号物入5 .03TV左声道音粼信号翰出3·6}14、1921、23本机均为接地端04TVIAv切换控制电压物人o!15右声道音频信号监视输出4 .25TV视颇物人识别检侧端LU』l6音频处理电路工作电薄输人8 .56TV视频信号抽人L 3.011 17Av视频信号输人2 .97、8视频接地端一。}!l8视频处理电路工作电簿输人8 .09TV视细信号物出3 .2」20视频信号监…  相似文献   

4.
针对目前石化危险品装车过程中海量监控视频图像人为处理效率低下、模糊图像识别率低等问题,提出一种基于生成式对抗网络(GAN)和卷积神经网络(CNN)与极限学习机(ELM)相结合的监控模糊图像智能修复及检测方法.首先,使用深度学习网络作为 目标检测框架,利用GAN网络中生成器与判别器间的零和博弈对模糊图像进行复原,得到清晰完整的作业图像;其次,利用CNN自适应学习图像特征的能力,对修复后的图像进行自主特征提取;最后,将提取的图像特征输入ELM分类器中进行目标识别与分类,判断作业过程是否存在违规行为.试验结果表明:所提方法图像修复速度快,视觉效果自然,且目标识别准确率高,具有很好的泛化能力.  相似文献   

5.
<正> DVD影碟机通过其后背上各种接口(信号输出端子)输出视频和音频信号,然而DVD影碟机又有些什么样的视频信号输出呢?本文就来谈谈这个问题。 AV(Audio and Video)音频和视频信号 在此我们只讨论AV信号中的V信号,也就是Video——视频信号,该信号中包含了亮度信号Y和色度信号C,并且色度信号C是调制在亮度信号Y上的,  相似文献   

6.
矩阵切换设备用于切换音频、视频和计算机信号。音频信号支持平衡和非平衡两种;视频信号支持复合视频、S—Video信号、RGB信号三种;计算机信号支持VGA(DB15)和RGBHV(BNC)两种。  相似文献   

7.
近年来,中国国际广播电台加快推进全媒体融合建设步伐,在传统音频直播的基础上,大力拓展网上视频直播业务,把现场自采视频或公共视频信号实时传回台里,供后方直播间使用,并通过网络编码设备进行PC端和移动端的实时网上直播.本文介绍基于H.264编码技术和4G网传输设备的功能和应用,以及一套完整的视频采集、传输、接收、网上直播系统的构建和使用心得.  相似文献   

8.
本文针对互联网和无线信道等不可靠网络的视频传输问题,提出一种基于H.264和双树小波变换的多描述视频编码解决方案.采用分层的多描述视频编码框架,实现H.264和双树小波编码的有机结合.基本层用H.264编码器对视频信号进行低码率编码后,复制到各个描述;增强层用三维双树小波变换对原视频和基本层重建视频的差值进行编码,将产生的四棵三维小波树经噪声整形后两两组合,编码送到不同描述.在解码端,若能够接收到两个描述,则通过中心解码器实现高质量的视频重建;若丢失一个描述,则通过边解码器解码仍可保证一定质量的视频重建.实验结果表明在相同码率下,本算法的视频中心解码和边解码质量优于现有的多描述视频编码算法.  相似文献   

9.
孙锐  谢瑞瑞  张磊  张旭东  高隽 《电子学报》2023,(10):2925-2935
面向构建24小时全时段视频监控系统的需要,基于可见光与近红外的跨模态行人重识别受到工业界与学术界的广泛关注.然而,目前大部分跨模态行人重识别任务都试图利用在ImageNet上预训练的模型来提前学习模态内共性特征,但ImageNet与跨模态行人数据模态差异较大,且预训练过程中将颜色信息作为判别特征之一,导致预训练中学习到的共性特征并不适用于无色彩红外图像的信息表示.本文提出了一种基于灾难性遗忘及组合叠加擦除的自监督跨模态行人重识别预训练方法,首先利用提出的灾难性遗忘评分来对预训练数据进行筛选,旨在减小预训练数据与后续任务数据存在的域间差距,进一步减少模型训练时间.其次,针对传统跨模态识别中的关键区分性特征提取,本文设计了一种强通道数据增强策略,通过对R、G、B三通道的通道级擦除与组合,生成了颜色迥异的多类型样本,有利于促使模型关注于纹理信息而非颜色信息.最后基于本文提出的跨模态数据筛选指标以及通道增强策略,构建了跨模态任务的自监督学习框架.实验结果表明,本文提出的预训练方法所训练的ResNet50网络在迁移到众多跨模态行人重识别方法时优于目前主流自监督预训练方法,其中在经典方法 AGW的...  相似文献   

10.
无线通信技术的发展使多媒体视频音频信号,在无线通信网络中的传输成为了研究的热点。本文在流媒体技术的基础之上介绍了视频信号在无线网络中的编码与传输,提出了视频信号在无线通信网络中的传输方案。  相似文献   

11.
胡斌 《电子世界》1999,(8):17-17
<正> 激光播放器材目前主要有:CD机(播放音频节目);LD机、VCD机、超级VCD机和DVD机(播放视频和音频节目)。家庭影院使用后四种播放器材。这四种播放器材的视频接口有射频输出、视频输出、S端子输出和组合视频输出四种方式。从信号传输和节目质量来看,组合视频输出方式最好,S端子输出次之,射频输出最差。本文简要介绍这四种视频信号输出方式。 1.射频信号输出方式 在一些老式彩色电视机上不设视频输入插口V IN,就只能用射频信号连接方式。如附图所示,影碟机中的视频信号V和音频信号A  相似文献   

12.
针对计算机视频线缆(VGA接口线缆,DVI接口线缆)传导发射泄漏信号侦测与重建的问题,在小波变换的基础上提出了基于空域相关滤波的视频泄漏信号去噪方法.首先设计实验系统采集两种典型视频线缆的泄漏信号;然后对泄漏信号进行小波分解,并用空域相关法提取红信号;最后通过边缘检测实现原始视频信号的重建,分析了不同信噪比对信号重建率的影响.实验结果表明,空域相关滤波法能够有效抑制噪声,提高微弱泄漏信号的重建质量,在处理传导泄漏信号中具有重要应用价值.  相似文献   

13.
阐述了音频、视频、数据在以太网平台上实现传输及复现的基本原理及方法,并对雷达信号、电视视频信号的采集压缩、网络传输、网络视频解压缩及综合显示、网络组播技术与实时多媒体信息传输技术进行了深入分析.  相似文献   

14.
李致金  吴文娟 《现代电子技术》2010,33(23):168-170,173
介绍了基于电压跟随的视频VGA信号分配的原理以及实际电路的设计,以实现视频信号本地的多路显示。视频信号在实现远程传输时,需对视频信号进行放大,增大信号的驱动能力。为此,介绍了基于EL4543差分放大的视频信号远程传输发送端电路及其工作原理;在远程接收端,通过EL9111差分接收和EL9115的模拟补偿,恢复视频信号。采用本设计的视频传输距离可达200m左右。  相似文献   

15.
为了实时记录飞机飞行及作业过程中的各种信息,提出了一种基于FPGA和DSP的机载音视频采集处理系统。FPGA作为协处理器,完成对高清视频信号和音频信号的采集、解码以及格式的转换。DSP作为主处理器,在Linux系统的开发环境下,以视频H.264编码算法和音频G.711编码算法为核心完成了对音视频信号的压缩和存储。该系统性能稳定,实用性强,能够满足飞机飞行6小时的5路视频和2路音频信号的采集、存储和回放,达到了设计要求,具有一定的参考价值。  相似文献   

16.
尽管数字电视的发展很快,但目前销售和使用的绝大多数电视系统,无论是通过无线电、卫星还是有线电视系统接收到的仍然是复合视频信号。因此,在采用基于NTSC或PAL 制式复合视频信号的电视和其它视频系统中,用来将调制在同一载波上的亮度和色度信号分离出来的Y/C 分离电路仍然非常关键。自从彩色电视出现以来,技术领域发生了巨大的进步;利用同样的复合视频信号,可以显示出更为清晰、鲜艳的图像。为满足高清晰电视和大屏幕显示的需求,技术人员继续寻求改善Y/C分离功能的新方法。其中最为重要的发展就是3D Y/C梳状滤波器。复合视频信号为理解这些发展,有必要回顾一 下复合视频信号的基本知识。传输的 彩色电视信号由调制在载波上的音频 和复合视频信号组成。窄带音频信号 与视频信号分得很开,因此彻底地解 调音频和视频信号没有任何困难。 对于包含三种成份的复合视频信 号,情况则有些复杂。复合视频信号第 一种成份是Y(亮度)信号。亮度信号包 含有关图像黑白内容的所有信息,包 括边缘位置以及亮度和对比度等级。 为承载这些细节,需要很宽的带宽,通 常从 DC至 5.5 MHz。复合视频...  相似文献   

17.
在多媒体系统设计和实现中,需对音频进行采集。但在对音频进行采集的同时也要对视频信号进行处理,因音频的数据量少,又要求连续采集,故在两者的协调性和保证数据完整性方面存在难度。就此提出一种基于通用型DSP芯片的前端音频信号的处理方案,利用视频的采集间隙,储存音频数据,以实现在视频和音频的采集不同步的情况下,利用最少的资源,实现其在保证数据采集完整性的同时不与视频采集冲突。  相似文献   

18.
目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(Conv-TasNet)和双路径递归神经网络(DPRNN),提出多头注意力机制时域视听语音分离(MHATD-AVSS)模型。通过音频编码器与视觉编码器获得音频特征与视频的唇部特征,并采用多头注意力机制将音频特征与视觉特征进行跨模态融合,得到融合视听特征,将其经DPRNN分离网络,获得不同说话者的分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及信噪比(SNR)评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离两位、3位或4位说话者的混合语音时,该文方法与传统分离网络相比,SDR提高量均在1.87 dB以上,最高可达2.29 dB。由此可见,该文方法能考虑音频信号的相位信息,更好地利用视觉信息与音频信息的相关性,提取更为准确的音视频特性,获得更好的分离效果。  相似文献   

19.
本文提出了一种基于改进CNN的转子碰摩故障信号识别方法。首先,针对传统CNN经常出现的梯度消失问题,提出了一种改进的CNN网络模型,它利用全连接层,把网络层的各层特征信息连接到一起,避免了边缘信息的损失,最大程度地保留了各层的信息特征。然后,利用该改进的CNN网络模型,将转子碰摩故障信号的声谱图与其差分特征相结合,构建适合CNN网络的多通道图像输入特征。最后,利用包含各层信息的融合特征输入网络的全连接层,对转子碰摩故障信号进行分类识别。实验结果表明,改进后的CNN识别算法,相对传统CNN、DNN等网络模型,其识别率均有提升。  相似文献   

20.
学术论文推荐旨在为用户提供个性化的论文资源,针对协同过滤方法面临数据高度稀疏和缺乏负样本的问题,提出了一种融合细粒度语义特征的学术论文对抗推荐模型——TAGAN(title and abstract GAN)。首先,基于具有语义特征的标题和摘要,使用卷积神经网络(CNN)提取标题的全局特征,并构建一个双层的长短期记忆(LSTM)网络分别对摘要的单词序列和语句序列建模,同时,引入注意力机制将标题和摘要进行语义上的关联。然后,将论文的语义特征融入基于生成对抗网络(GAN)的推荐框架中并进行训练,其生成模型会拟合用户的兴趣偏好,能有效替代负采样过程。最后,通过在公开数据集上的实验对比,TAGAN在各个指标上都优于基线模型,验证了TAGAN的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号