首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 957 毫秒
1.
为了去除自发性口语音频中静音和噪音段的干扰,提高语音识别率和解码识别效率,提出一种音频能量自适应阈值计算方法。针对实时自动口语评测应用,设计了能量阈值自适应系数,该方法将根据能量阈值自适应系数动态地给每个考生的个人单次所有考试音频计算匹配一个能量阈值,以避免阈值选择和硬门限判决造成的误检。在基于自适应能量阀值的音频切分后,加入了基频检测步骤,以判别切分后所得音频段是否为噪声,从而最终分离出纯净的口语音频部分。实验结果表明,该算法能有效准确地切分音频,且鲁棒性较强。  相似文献   

2.
暴力镜头检测是近年来的研究热点之一。早期的暴力镜头检测主要依赖视频特征,由于音频信息具有良好的稳定性和在不同文化和人群之间的一致性,现在人们越来越多地关注音频信息的使用。为此研究使用音频特征对电影镜头中的暴力音频事件进行检测。为此提出了一种基于多尺度时长的特征提取方法。提取了除MFCC、LPC、能量等短时特征以外,还提取了能量均值方差、子带能量均值和方差、帧间差分等长时特征。暴力镜头中出现较多且具有代表性的音频事件有爆炸、尖叫、枪击三种。本文以电影的镜头为识别单位,使用支持向量机分类算法实现了一个检测系统。通过在15部好莱坞电影上的实验,表明本文基于多尺度时长的音频特征在暴力音频事件检测工作中,能够取得较好的结果。  相似文献   

3.
语音/音乐区分是音频高效编码、音频检索、自动语音识别等音频处理和分析的重要步骤。本文提出一种新颖的语音/音乐分割与分类方法,首先根据相邻帧间的均方能量差异检测音频的变化点,实现分割;然后对音频段提取低带能量方差比、倒谱能量调制、熵调制等八维特征,用人工神经网络做分类。实验结果显示,本文算法和特征具有很高的分割准确率和分类正确率。  相似文献   

4.
在视频监控系统优化设计的研究中,当前的智能视频监控采用图像处理的跟踪方法.由于摄像头的视角有限,系统存在目标不在视场范围内的监控盲区.为避免上述缺陷,通过声学相控阵给摄像头加上了听觉功能,使监控系统能够自动跟踪声源方位.系统采用麦克风线性阵列接收音频信号,通过端点检测实现有用音频信号的实时检测,通过频域波束形成实现对宽带音频信号的空间定位,最后采用能量值的谱搜索算法定位出声源的方位.前期的仿真和后期基于DSP的嵌入式系统平台实验均验证了改进方法的可行性和工程应用价值.  相似文献   

5.
为了有效抑制非平稳背景噪音对语音处理系统的严重干扰,提出了一种基于长短时能量均值的活动语音检测算法.该算法基于两个合理的假设,一个是基于语音隐含成分集的稀疏分解,不但能尽可能地保留含噪语音中的语音信息,还能在一定程度上消除非语音类噪音的干扰;另一个是对上述稀疏分解的语音进行重构,该重构信号中语音段的时域能量高于非语音段的时域能量.在上述两个假设的基础上,采用重构信号的时域能量作为音频特征,以当前帧为中心,并将与其相邻的特定数量帧的短时能量均值作为当前帧的得分值;以当前帧及其之前特定数量帧的长时能量均值作为判决阈值,进而提出了以当前帧的短时能量均值和长时能量均值大小作为判断条件的活动语音检测算法.实验结果显示,该算法能有效地区分低信噪比(平稳噪音和非平稳噪音)条件下的语音和非语音片段,并且其性能优于基于单Gaussian分布的似然比算法.  相似文献   

6.
基于多模态的检测方法是过滤成人视频的有效手段,然而现有方法中缺乏准确的音频语义表示方法。因此本文提出融合音频单词与视觉特征的成人视频检测方法。先提出基于周期性的能量包络单元(简称EE)分割算法,将音频流准确地分割为EE的序列;再提出基于EE和BoW(Bag-of-Words)的音频语义表示方法,将EE的特征描述为音频单词的出现概率;采用复合加权方法融合音频单词与视觉特征的检测结果;还提出基于周期性的成人视频判别算法,与基于周期性的EE分割算法前后配合,以充分利用周期性进行检测。实验结果表明,与基于视觉特征的方法相比,本文方法显著提高了检测性能。当误检率为9.76%时,检出率可达94.44%。  相似文献   

7.
提出了一种基于音频特征的自适应音频水印算法。该算法使用Logistic混沌序列对水印进行加密,通过对音频帧的过零率及短时能量的分析,选取适当的阈值,确定嵌入水印的帧,对选定的音频帧整合分段后进行小波变换,同时采用能量动态调整自适应确定嵌入强度的方法,计算每段音频的近似分量的平均能量,在所得音频帧中嵌入水印。通过实验可知,该算法具有较好的鲁棒性和不可感知性和实用性。  相似文献   

8.
研究车辆信息检测的方法很多,针对常使用的车辆视频信号的检测受外界环境的影响大且价格昂贵,提出车辆音频信号的检测,利用语音信号处理的理论技术对车辆音频信号的时域特征,短时能量、短时自相关分析以及基于自相关函数的基音周期估计做了分析介绍,同时提取了4辆车的音频信号的短时能量图,对车辆基音周期的估计进行了详细的步骤和实验仿真研究。  相似文献   

9.
对基于心理声学模型的音频水印算法的能量与相关检测可靠性的关系进行了分析研究。给出计算音频水印相关检测的检测阈值的方法,并描述了水印能量、检测阈值以及信噪比与检测误码率的关系。实验结果验证了水印检测错误率随着水印能量的增加而降低,随着信噪比的增大而增加。  相似文献   

10.
小波变分辨率频谱特征静音检测和短时自适应混音算法   总被引:1,自引:0,他引:1  
静音检测算法使用两种语音感觉特征与变分辨率频谱的Mel频率倒谱系数组合成音频特征,采用多门限过零率对静音进行初判,并通过二分类支持向量机对组合语音特征进行分类;实时混音算法使用每一路音频的短时能量作为混音权重.测试表明,静音检测算法在不同信噪比下语音识别正确率高于G.729b静音检测算法;实时混音算法听觉测试优于传统的算法,并且混音计算延时低,满足网络实时传输的要求;两种算法同时应用于视频会议系统,视频会议服务器的运算量低于使用了G.729b静音检测算法的视频系统.  相似文献   

11.
海量存储系统中,高效的元数据索引是减少查找元数据所需时间与空间开销的重要手段。针对现有元数据管理方法存在查找元数据所需时间与空间开销大和性能波动大等问题,设计了元数据分级索引算法。依据元数据的生命周期,将元数据分为活跃和非活跃两级;使用Bloom Fliter对均衡的活跃元数据分区生成摘要串,并使用B-树建立活跃元数据分区的索引;使用类似的方法对非活跃元数据分区,并为每个分区选择各自的哈希函数。从查找元数据所需时间与空间开销、适应能力两方面对元数据分级索引算法进行了分析,并与现有元数据管理算法进行了比较。最后实现了元数据分级索引算法的原型系统,使用真实数据集进行了测试与分析,结果表明,元数据分级索引算法能减少查找元数据所需的时间与空间开销,并具有很强的适应能力。  相似文献   

12.
为了降低能耗,均衡网络开销,提出了一种高效节能的TSSM算法。该算法规定在网络初始化时进行簇的划分,以后各轮簇内的成员节点将不再发生改变,从而降低了多次生成簇的能量消耗;通过循环选举簇头节点来分散网络的开销;通过划分虚拟单元格以及规定非活动节点休眠,活动节点设定软、硬门限工作的方法,有效降低了网络冗余度;通过簇间多跳将距离网关较远节点的能耗分散到了网络中的其它簇头节点。仿真结果表明,TSSM算法更能有效利用网络资源,均衡节点能源的分配,在一定程度上延长了网络的生命周期。  相似文献   

13.
An algorithm for estimating signals from short-time magnitude spectra is introduced offering a significant improvement in quality and efficiency over current methods. The key issue is how to invert a sequence of overlapping magnitude spectra (a ldquospectrogramrdquo) containing no phase information to generate a real-valued signal free of audible artifacts. Also important is that the algorithm performs in real-time, both structurally and computationally. In the context of spectrogram inversion, structurally real-time means that the audio signal at any given point in time only depends on transform frames at local or prior points in time. Computationally, real-time means that the algorithm is efficient enough to run in less time than the reconstructed audio takes to play on the available hardware. The spectrogram inversion algorithm is parameterized to allow tradeoffs between computational demands and the quality of the signal reconstruction. The algorithm is applied to audio time-scale and pitch modification and compared to classical algorithms for these tasks on a variety of signal types including both monophonic and polyphonic audio signals such as speech and music.  相似文献   

14.
详细介绍了一种基于ARM的音频频谱显示系统的实现,整个音频显示系统包括音频信号采集,音频信号处理,音频信号转换后的显示等功能。在设计中综合了声音采集、ARM技术及FFT算法,构建了一个实时采集的频谱显示系统,可以应用于各种需要对声音进行采集并分析的场合。其中硬件系统主要包括声音信号的采集与处理、最小系统、电源和显示模块;而软件系统则是将ADC转换的数据通过FFT算法后显示在LCM12864显示器上。经测试该系统具有较好的实时性和准确性。  相似文献   

15.
首先对基于内容的多媒体检索的相关概念、特征进行介绍,提出一种基于压缩域特征的音频检索方法,该算法在压缩域上直接对音频信号进行分析,达到多媒体实时检索的目的,实验结果证明,该算法有较好的检索结果。  相似文献   

16.
在音频质量客观评价(Perceptual Evaluation of Audio Quality,PEAQ)尤其是音频系统的在线评测时,参考信号与测试信号不可避免地存在系统延迟。计算参考与测试之间的延迟误差从而实现信号之间的时间同步将是影响音频质量客观评价结果的关键性问题。针对此问题,通过信号的包络求取、信号频域间的互相关及频域直方图等方法给出了一种实时高效的音频延迟算法。通过实际测量,该算法在广播音频质量在线监测系统中充分体现了实时、稳定和高效的特点。  相似文献   

17.
在前后向双核回声隐藏思想的基础上, 提出了一种基于回声隐藏的改进算法. 根据设定的水印的嵌入率来确定音频段的能量阈值,选择短时能量高于此阈值的音频段嵌入水印信息, 并且引入功率倒谱检测法来检测水印信息. 仿真结果表明改进后的算法具有不可感知性更高, 隐藏效果好并且显著降低了水印信息检测的误码率.  相似文献   

18.
Identifying the active speaker in a video of a distributed meeting can be very helpful for remote participants to understand the dynamics of the meeting. A straightforward application of such analysis is to stream a high resolution video of the speaker to the remote participants. In this paper, we present the challenges we met while designing a speaker detector for the Microsoft RoundTable distributed meeting device, and propose a novel boosting-based multimodal speaker detection (BMSD) algorithm. Instead of separately performing sound source localization (SSL) and multiperson detection (MPD) and subsequently fusing their individual results, the proposed algorithm fuses audio and visual information at feature level by using boosting to select features from a combined pool of both audio and visual features simultaneously. The result is a very accurate speaker detector with extremely high efficiency. In experiments that includes hundreds of real-world meetings, the proposed BMSD algorithm reduces the error rate of SSL-only approach by 24.6%, and the SSL and MPD fusion approach by 20.9%. To the best of our knowledge, this is the first real-time multimodal speaker detection algorithm that is deployed in commercial products.   相似文献   

19.
Introduction to AVS Audio   总被引:1,自引:0,他引:1       下载免费PDF全文
This paper describes a general audio coding algorithm which has been recently standardized by AVS, China. The algorithm is based on a perceptual coding technique. The codec delivers near CD-quality audio at 128kb/s. This paper describes the coder structure in detail and discusses the reasons for specific design methods. A summary of the subjective test results are presented for the prototype codec. Comparison Mean Opinion Score (CMOS) test indicates that the quality of the AVS audio coder is comparable with MPEG Layer-3 audio coder. A reM-time decoder was used for the characterization test, which is based on a 16-bit fixed-point DSP. The performance of the DSP solution was demonstrated, including computational complexity and storage characteristics.  相似文献   

20.
基于DSP的MP3编解码系统设计与实现   总被引:1,自引:0,他引:1  
潘亚涛  周宏  陈健 《计算机工程》2001,27(7):81-82,91
MP3编码标准压缩率高,压缩技术好,是被广为应用的音频压缩格式。介绍了一种基于定点DSP的MP3编解码系统的设计与实现,系统采用了高性能的DSP和灵活的模拟音频接口,通过对MP3的编解码算法和DSP编程的改进与优化,实现了实时编解码过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号