首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
倪宁  卢刚  卜佳俊 《计算机仿真》2006,23(8):184-187,195
目前场景检测的研究,主要是基于图像和视频。但音频同样具有丰富的场景信息,基于音频分析的计算量是比较少的,对自动或者半自动的场景检测,基于音频分析的方法也是更为让用户接受的。可以把基于音频分析的方法作为视频场景检测的辅助手段,以获得更为准确的场景检测和分割。该文提出了一个基于内容的音频分析系统,对视频序列实现基于音频分析的场景检测和分割。该系统能有效的解决许多诸如图像变化了,而实际场景并未变化的情形。且本系统整体运算复杂度较基于视频/图像的场景检测与分割系统要低。  相似文献   

2.
针对基于传统机器学习遥感图像场景分类无法快速有效提取图像特征造成分类结果不准确的问题,提出一种基于注意力残差网络的遥感图像场景分类的方法,以残差网络为基准模型,在通道和空间两个维度上建立注意力模块,实验过程中对参数进行合理有效的设置,调整网络层数优化模型,达到对UC Merced Land-Use数据集的有效分类.实验...  相似文献   

3.
4.
在复杂场景中准确检测出小的、模糊的和部分遮挡的人脸,仍是人脸检测算法存在的问题。为此,提出基于区域的全卷积网络R-FCN的人脸检测算法,来解决其中的小人脸检测问题。采用完全卷积残差网络ResNet作为主干网络,融合多种新技术,主要包括Squeeze-and-Excitation模块、残差注意力机制等,以提高最终的输出精度。在最具挑战性的人脸检测基准Widerface数据集上测试,结果表明该算法在复杂场景下具有出色的人脸检测效果,对部分遮挡,模糊、人脸姿态变化也具有一定鲁棒性。  相似文献   

5.
6.
传统的冯诺依曼架构在处理语音等复杂信息时能效较低,神经形态电路更适合于语音等复杂信息的智能处理。常用的音频场景识别方式中的长时特征和短时特征都有其不足之处,卷积神经网络可通过训练提取适合后续分类任务的特征,在特征提取方面有更大的优势。针对四层的卷积神经网络的特征提取及分析方法在语谱图上进行了音频场景识别的研究,并验证了音频场景识别在神经形态电路-类脑计算芯片上的可实现性。  相似文献   

7.
音频场景分析技术对机器自动感知环境特征具有重要的意义。考虑到Mel频率倒谱系数MFCC(Melfrequen-cycepstralcoefficient)在一定程度上可以模拟人耳的听觉感知特性,因此,提出用MFCC作为音频识别特征,通过隐马尔可夫模型进行音频场景分析的方法,该方法对7种典型场景的识别率在90%以上。  相似文献   

8.
广告检测是指从电视节目中自动地检测出广告序列。传统方法使用基于计算机视觉算法的技术框架对视频内容进行广告检测,无法在性能和效率上满足商业化需求。本算法仅利用广告音频信息完成广告检测工作。首先抽取广告库的原始音频信息,使用短时傅里叶变换将其转化为声谱图,再应用预筛选的滤波器集合进行二值化,得到局部特征描述子,组成广告音频库;其次在广告检测过程中,以同样方法提取其特征描述子,在广告音频库中检索得到检测结果。基于音频匹配的广告检测算法具有存储小、准确度高、实时性强等诸多优点。实验表明该算法可以显著提高广告检测系统的鲁棒性和性能,可应用于现实场景中。  相似文献   

9.
视频数据中的音频流包含了丰富的语义信息.在基于内容的视频检索中,对音频信息的分析是不可分割的一部分.本文主要讨论基于内容的音频场景分割,分析各种音频特征及提取方法,并在此基础上提出一种新的音频流分割方法,根据六种音频类型(语音、音乐、静音、环境音、纯语音、音乐背景下的语音和环境音背景下的语音)的音频特征对视频数据中的音频流分割音频场景.实验证明该方法是有效的,在保证一定的分割精度的同时,准确率和查全率都得到了较大的提高.  相似文献   

10.
图像语义分割是图像识别中的一个经典难题,是机器视觉研究的一个热点.但在实际应用中,会出现语义标签预测不准确、所分割对象与背景之间边缘信息损失问题,这已逐渐成为了图像理解的瓶颈.据此,提出了一种基于金字塔场景分析网络(PSPNet)的网络改进结构,在特征学习模块中将输入图在原残差网络(ResNet)的基础上通过在网络内部...  相似文献   

11.
杨磊  赵红东 《计算机应用》2020,40(11):3172-3177
针对传统卷积神经网络(CNN)模型存在大量冗余参数的问题,提出了两个基于SqueezeNet核心结构Fire模块的轻量级网络模型Fnet1和Fnet2。之后结合移动端分布式数据采集和处理的特点,在Fnet2模型基础上,依据Dempster-Shafer(D-S)证据理论将Fnet2与深度神经网络(DNN)融合,提出新的网络模型FnetDNN。首先,建立一个具有四层卷积层的神经网络Cent作为基准,以梅尔倒谱系数(MFCC)作为特征输入来对比分析Fnet1、Fnet2和Cent的网络结构特点、计算量、卷积核参数数量及识别准确率,结论是Fnet1仅使用Cnet参数数量的10.3%就可达到86.7%的分类准确率;然后,将MFCC与全局特征向量输入到FnetDNN模型中,使得该模型的识别准确率提高到了94.4%。实验结果表明,Fnet网络模型不仅可以压缩冗余参数,还可以与其他网络相融合,具备模型扩展能力。  相似文献   

12.
杨磊  赵红东 《计算机应用》2005,40(11):3172-3177
针对传统卷积神经网络(CNN)模型存在大量冗余参数的问题,提出了两个基于SqueezeNet核心结构Fire模块的轻量级网络模型Fnet1和Fnet2。之后结合移动端分布式数据采集和处理的特点,在Fnet2模型基础上,依据Dempster-Shafer(D-S)证据理论将Fnet2与深度神经网络(DNN)融合,提出新的网络模型FnetDNN。首先,建立一个具有四层卷积层的神经网络Cent作为基准,以梅尔倒谱系数(MFCC)作为特征输入来对比分析Fnet1、Fnet2和Cent的网络结构特点、计算量、卷积核参数数量及识别准确率,结论是Fnet1仅使用Cnet参数数量的10.3%就可达到86.7%的分类准确率;然后,将MFCC与全局特征向量输入到FnetDNN模型中,使得该模型的识别准确率提高到了94.4%。实验结果表明,Fnet网络模型不仅可以压缩冗余参数,还可以与其他网络相融合,具备模型扩展能力。  相似文献   

13.
针对现行异常声音识别算法复杂度高和特征识别率低的问题,将梅尔频率倒谱系数(MFCC)与短时能量混合特征应用到异常声音识别系统中。该混合特征使得高斯混合模型(GMM)分类器可获得比使用MFCC特征及其差分MFCC更好的分类性能。给出了系统实现的具体步骤,并通过仿真实验证明了该算法的有效性,分类器的平均识别率可达到90%以上,并且计算复杂度小。  相似文献   

14.
交通模式识别是用户行为识别中的一个重要分支,其目的是对用户所处的交通模式进行准确判断.针对现代智慧城市交通系统对在移动设备环境下精准感知用户交通模式的需求,提出了一种基于残差时域注意力神经网络的交通模式识别算法.首先,通过具有较强局部特征提取能力的残差网络提取传感器时序中的局部特征;然后,采用基于通道的注意力机制对不同...  相似文献   

15.
王天锐  鲍骞月  秦品乐 《计算机应用》2019,39(12):3515-3521
针对传统环境音分类模型对环境音特征提取不充分,以及卷积神经网络用于环境音分类时全连接层易造成过拟合现象的问题,提出了梅尔倒谱系数(MFCC)、深层卷积和Bagging算法相结合的环境音分类方法。首先,针对原始音频文件,利用预加重、加窗、离散傅里叶变换、梅尔滤波器转换、离散余弦映射等方法建立梅尔倒谱系数特征模型;然后,将特征模型输入卷积深度网络进行第二次特征提取;最后,借鉴强化学习思想,用Bagging集成算法集成线性判别分析器、支持向量机(SVM)、Softmax回归、XGBoost四个模型,以投票预测的形式对网络输出结果进行预测。实验结果表明,所提方法能够有效提高对环境音的特征提取能力和深层网络在环境音分类上的抗过拟合能力。  相似文献   

16.
针对普适交通模式的场景感知功耗高、场景复杂的问题,提出一种融合残差网络(ResNet)和带孔卷积的交通模式识别算法.首先,使用快速傅里叶变换(FFT)将一维传感器数据转换为二维频谱图像;然后,使用主成分分析(PCA)算法对频谱图像降采样;最后,使用ResNet挖掘交通模式的局部特征,使用带孔卷积挖掘交通模式的全局特征,...  相似文献   

17.
提出了一种基于小波包分解和多类支持向量机分类的音频隐秘检测算法,该算法首先对音频文件进行小波包分解,然后根据小波分解系数绝对值和绝对值线性预测的误差生成特征向量,并采用多类支持向量机进行模式分类。在不同嵌入率下对几种常见的隐秘软件生成的隐秘音频进行仿真试验,结果表明,该算法具有较强的通用性,对于隐密音频文件具有较高的识别率。  相似文献   

18.
为了有效地去除实际图像中的噪声,提出了一种基于真实场景图像下卷积神经网络去噪算法,通过构建新的无噪图像数据集,输入至卷积神经网络中进行训练,并结合模拟退火算法提高训练率,建立去噪网络模型,实现真实场景图像去噪.实验结果表明:含噪的灰度图像与相机拍摄图像均取得明显的平滑效果,算法信号-噪音功率比(PSNR)值较高,图像边缘和细节也得到了较好的保留.  相似文献   

19.
DCT域音频水印透明健壮算法   总被引:3,自引:0,他引:3       下载免费PDF全文
提出一种新的基于离散余弦变换的数字音频水印算法。把音频信号划分为包含相同采样点的若干帧,每帧划分为若干节。对指定帧的第一节、第二两节实施DCT变换,将二者DCT中、高频系数的绝对值之和进行比较,结合水印序列为“0”或“1”,采取不改变、缩小及增加中、高频DCT系数的方法,在DCT系数中嵌入水印。实验证明,该算法具有较强的健壮性,较好的透明性,提取水印属盲水印提取,能经受重采样、重新量化、添加噪声、低通滤波、音频格式转换等常见信号处理及攻击。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号