共查询到20条相似文献,搜索用时 957 毫秒
1.
为了去除自发性口语音频中静音和噪音段的干扰,提高语音识别率和解码识别效率,提出一种音频能量自适应阈值计算方法。针对实时自动口语评测应用,设计了能量阈值自适应系数,该方法将根据能量阈值自适应系数动态地给每个考生的个人单次所有考试音频计算匹配一个能量阈值,以避免阈值选择和硬门限判决造成的误检。在基于自适应能量阀值的音频切分后,加入了基频检测步骤,以判别切分后所得音频段是否为噪声,从而最终分离出纯净的口语音频部分。实验结果表明,该算法能有效准确地切分音频,且鲁棒性较强。 相似文献
2.
暴力镜头检测是近年来的研究热点之一。早期的暴力镜头检测主要依赖视频特征,由于音频信息具有良好的稳定性和在不同文化和人群之间的一致性,现在人们越来越多地关注音频信息的使用。为此研究使用音频特征对电影镜头中的暴力音频事件进行检测。为此提出了一种基于多尺度时长的特征提取方法。提取了除MFCC、LPC、能量等短时特征以外,还提取了能量均值方差、子带能量均值和方差、帧间差分等长时特征。暴力镜头中出现较多且具有代表性的音频事件有爆炸、尖叫、枪击三种。本文以电影的镜头为识别单位,使用支持向量机分类算法实现了一个检测系统。通过在15部好莱坞电影上的实验,表明本文基于多尺度时长的音频特征在暴力音频事件检测工作中,能够取得较好的结果。 相似文献
3.
语音/音乐区分是音频高效编码、音频检索、自动语音识别等音频处理和分析的重要步骤。本文提出一种新颖的语音/音乐分割与分类方法,首先根据相邻帧间的均方能量差异检测音频的变化点,实现分割;然后对音频段提取低带能量方差比、倒谱能量调制、熵调制等八维特征,用人工神经网络做分类。实验结果显示,本文算法和特征具有很高的分割准确率和分类正确率。 相似文献
4.
5.
为了有效抑制非平稳背景噪音对语音处理系统的严重干扰,提出了一种基于长短时能量均值的活动语音检测算法.该算法基于两个合理的假设,一个是基于语音隐含成分集的稀疏分解,不但能尽可能地保留含噪语音中的语音信息,还能在一定程度上消除非语音类噪音的干扰;另一个是对上述稀疏分解的语音进行重构,该重构信号中语音段的时域能量高于非语音段的时域能量.在上述两个假设的基础上,采用重构信号的时域能量作为音频特征,以当前帧为中心,并将与其相邻的特定数量帧的短时能量均值作为当前帧的得分值;以当前帧及其之前特定数量帧的长时能量均值作为判决阈值,进而提出了以当前帧的短时能量均值和长时能量均值大小作为判断条件的活动语音检测算法.实验结果显示,该算法能有效地区分低信噪比(平稳噪音和非平稳噪音)条件下的语音和非语音片段,并且其性能优于基于单Gaussian分布的似然比算法. 相似文献
6.
基于多模态的检测方法是过滤成人视频的有效手段,然而现有方法中缺乏准确的音频语义表示方法。因此本文提出融合音频单词与视觉特征的成人视频检测方法。先提出基于周期性的能量包络单元(简称EE)分割算法,将音频流准确地分割为EE的序列;再提出基于EE和BoW(Bag-of-Words)的音频语义表示方法,将EE的特征描述为音频单词的出现概率;采用复合加权方法融合音频单词与视觉特征的检测结果;还提出基于周期性的成人视频判别算法,与基于周期性的EE分割算法前后配合,以充分利用周期性进行检测。实验结果表明,与基于视觉特征的方法相比,本文方法显著提高了检测性能。当误检率为9.76%时,检出率可达94.44%。 相似文献
7.
提出了一种基于音频特征的自适应音频水印算法。该算法使用Logistic混沌序列对水印进行加密,通过对音频帧的过零率及短时能量的分析,选取适当的阈值,确定嵌入水印的帧,对选定的音频帧整合分段后进行小波变换,同时采用能量动态调整自适应确定嵌入强度的方法,计算每段音频的近似分量的平均能量,在所得音频帧中嵌入水印。通过实验可知,该算法具有较好的鲁棒性和不可感知性和实用性。 相似文献
8.
《电子制作.电脑维护与应用》2021,(7)
研究车辆信息检测的方法很多,针对常使用的车辆视频信号的检测受外界环境的影响大且价格昂贵,提出车辆音频信号的检测,利用语音信号处理的理论技术对车辆音频信号的时域特征,短时能量、短时自相关分析以及基于自相关函数的基音周期估计做了分析介绍,同时提取了4辆车的音频信号的短时能量图,对车辆基音周期的估计进行了详细的步骤和实验仿真研究。 相似文献
9.
10.
小波变分辨率频谱特征静音检测和短时自适应混音算法 总被引:1,自引:0,他引:1
静音检测算法使用两种语音感觉特征与变分辨率频谱的Mel频率倒谱系数组合成音频特征,采用多门限过零率对静音进行初判,并通过二分类支持向量机对组合语音特征进行分类;实时混音算法使用每一路音频的短时能量作为混音权重.测试表明,静音检测算法在不同信噪比下语音识别正确率高于G.729b静音检测算法;实时混音算法听觉测试优于传统的算法,并且混音计算延时低,满足网络实时传输的要求;两种算法同时应用于视频会议系统,视频会议服务器的运算量低于使用了G.729b静音检测算法的视频系统. 相似文献
11.
海量存储系统中,高效的元数据索引是减少查找元数据所需时间与空间开销的重要手段。针对现有元数据管理方法存在查找元数据所需时间与空间开销大和性能波动大等问题,设计了元数据分级索引算法。依据元数据的生命周期,将元数据分为活跃和非活跃两级;使用Bloom Fliter对均衡的活跃元数据分区生成摘要串,并使用B-树建立活跃元数据分区的索引;使用类似的方法对非活跃元数据分区,并为每个分区选择各自的哈希函数。从查找元数据所需时间与空间开销、适应能力两方面对元数据分级索引算法进行了分析,并与现有元数据管理算法进行了比较。最后实现了元数据分级索引算法的原型系统,使用真实数据集进行了测试与分析,结果表明,元数据分级索引算法能减少查找元数据所需的时间与空间开销,并具有很强的适应能力。 相似文献
12.
为了降低能耗,均衡网络开销,提出了一种高效节能的TSSM算法。该算法规定在网络初始化时进行簇的划分,以后各轮簇内的成员节点将不再发生改变,从而降低了多次生成簇的能量消耗;通过循环选举簇头节点来分散网络的开销;通过划分虚拟单元格以及规定非活动节点休眠,活动节点设定软、硬门限工作的方法,有效降低了网络冗余度;通过簇间多跳将距离网关较远节点的能耗分散到了网络中的其它簇头节点。仿真结果表明,TSSM算法更能有效利用网络资源,均衡节点能源的分配,在一定程度上延长了网络的生命周期。 相似文献
13.
Xinglei Zhu Beauregard G. Wyse L. 《IEEE transactions on audio, speech, and language processing》2007,15(5):1645-1653
An algorithm for estimating signals from short-time magnitude spectra is introduced offering a significant improvement in quality and efficiency over current methods. The key issue is how to invert a sequence of overlapping magnitude spectra (a ldquospectrogramrdquo) containing no phase information to generate a real-valued signal free of audible artifacts. Also important is that the algorithm performs in real-time, both structurally and computationally. In the context of spectrogram inversion, structurally real-time means that the audio signal at any given point in time only depends on transform frames at local or prior points in time. Computationally, real-time means that the algorithm is efficient enough to run in less time than the reconstructed audio takes to play on the available hardware. The spectrogram inversion algorithm is parameterized to allow tradeoffs between computational demands and the quality of the signal reconstruction. The algorithm is applied to audio time-scale and pitch modification and compared to classical algorithms for these tasks on a variety of signal types including both monophonic and polyphonic audio signals such as speech and music. 相似文献
14.
段丽娜 《自动化技术与应用》2014,33(9):77-79
详细介绍了一种基于ARM的音频频谱显示系统的实现,整个音频显示系统包括音频信号采集,音频信号处理,音频信号转换后的显示等功能。在设计中综合了声音采集、ARM技术及FFT算法,构建了一个实时采集的频谱显示系统,可以应用于各种需要对声音进行采集并分析的场合。其中硬件系统主要包括声音信号的采集与处理、最小系统、电源和显示模块;而软件系统则是将ADC转换的数据通过FFT算法后显示在LCM12864显示器上。经测试该系统具有较好的实时性和准确性。 相似文献
15.
首先对基于内容的多媒体检索的相关概念、特征进行介绍,提出一种基于压缩域特征的音频检索方法,该算法在压缩域上直接对音频信号进行分析,达到多媒体实时检索的目的,实验结果证明,该算法有较好的检索结果。 相似文献
16.
在音频质量客观评价(Perceptual Evaluation of Audio Quality,PEAQ)尤其是音频系统的在线评测时,参考信号与测试信号不可避免地存在系统延迟。计算参考与测试之间的延迟误差从而实现信号之间的时间同步将是影响音频质量客观评价结果的关键性问题。针对此问题,通过信号的包络求取、信号频域间的互相关及频域直方图等方法给出了一种实时高效的音频延迟算法。通过实际测量,该算法在广播音频质量在线监测系统中充分体现了实时、稳定和高效的特点。 相似文献
17.
18.
《Multimedia, IEEE Transactions on》2008,10(8):1541-1552
19.
This paper describes a general audio coding algorithm which has been recently standardized by AVS, China. The algorithm is based on a perceptual coding technique. The codec delivers near CD-quality audio at 128kb/s. This paper describes the coder structure in detail and discusses the reasons for specific design methods. A summary of the subjective test results are presented for the prototype codec. Comparison Mean Opinion Score (CMOS) test indicates that the quality of the AVS audio coder is comparable with MPEG Layer-3 audio coder. A reM-time decoder was used for the characterization test, which is based on a 16-bit fixed-point DSP. The performance of the DSP solution was demonstrated, including computational complexity and storage characteristics. 相似文献