共查询到10条相似文献,搜索用时 15 毫秒
1.
2.
小波变分辨率频谱特征静音检测和短时自适应混音算法 总被引:1,自引:0,他引:1
静音检测算法使用两种语音感觉特征与变分辨率频谱的Mel频率倒谱系数组合成音频特征,采用多门限过零率对静音进行初判,并通过二分类支持向量机对组合语音特征进行分类;实时混音算法使用每一路音频的短时能量作为混音权重.测试表明,静音检测算法在不同信噪比下语音识别正确率高于G.729b静音检测算法;实时混音算法听觉测试优于传统的算法,并且混音计算延时低,满足网络实时传输的要求;两种算法同时应用于视频会议系统,视频会议服务器的运算量低于使用了G.729b静音检测算法的视频系统. 相似文献
3.
基于塔台管制模拟语音通讯系统,设计并实现了多路混音功能。发送端采用双线程多缓冲区机制保证数据的实时即时发送;在混音同步机制中引入了多个缓冲队列,为成功实现同步混音创造了良好条件;在最为重要的混音算法中做了一些改进,混音效率有明显提高。在该系统中使用了专门为声音解压缩研究设计的Speex语音解压缩库,其高性能的语音解压缩效率,在应用中得到了很好的体现。系统仿真实验结果表明该套多路混音实现方式切实可行,具有一定的有效性和优越性。 相似文献
4.
在多线接入电话终端项目中,对语音进行处理是一个非常重要的部分。语音的处理包括静噪,回声消除和混音几个部分。其中混音技术,关系到在电话终端的语音质量,在应用中尤为重要。在系统中,需要使用SEP4020对多路的语音进行混音合成。该文对混音算法及其在SEP4020上的应用做了讨论。 相似文献
5.
6.
针对多方会议的实际应用需求,同时兼顾PDA等小设备的个性特征,提出一种新颖而简单的快速实时自适应跨平台多方会议方案。该方案采用概率决策优先权的方式,即各客户端根据语音能量值和编码后帧长度计算其语音概率值,服务器由语音概率值决策出当前发言者的语音流,并使用叠加原理将选出的多路流进行混音,最后转发混音后的语音包。该方案弥补了PDA等小设备计算能力弱的缺陷,同时又降低了服务器进行混音操作的运算量。实验结果表明该方案具有算法复杂度低、听觉主观效果好、易在PDA以及手机等硬件设备上实现等特点,可广泛应用在多媒体多方会议跨平台系统的实现中。 相似文献
7.
多媒体会议中多点控制单元(multi-point controlling unit,简称MCU)在多点会议中提供音频、视频和数据等的集中处理能力,其中音频处理能力是最基本的,也是实时性要求最高的要素.针对多点多媒体会议的实际应用需求,归类并分析了多种自适应多点语音混合处理方案,提出了采用自动门限和通道压缩处理的高性能混音方案.该方案主要针对人耳听觉的特点,首先去除掉会议中人耳无法分辨的通道,提高混音信噪比;然后对剩下的通道进行语音能量压缩,在保证混音结果不溢出的同时使得输出的语音能量比较稳定,具有良好的听觉主观舒适感.同时,这套方案具有较低的算法复杂度,使用DSP等硬件较易实现,可以广泛应用在多媒体会议系统的实现中. 相似文献
8.
9.
给出了一个如何使用DirectSound技术实现音频流的捕获并实现网络上多路声音混合的方案.该方案通过DirectSound提供的缓冲机制实现了音频流的捕获,结合网络技术和辅助缓冲技术可实现网络上多路声音的混合,提高了音频处理的效率和通用性.阐述了DirectSound的相关技术,给出了系统的框架图及音频捕获与混音的实现方法,提出了环形缓冲区设计方案,最后给出了系统优化方案. 相似文献
10.
刘真旭 《计算机应用与软件》2010,27(6):43-45
由于噪音和多路的存在,声源定位总是很难达到一个很高的精度.针对这个问题提出了一个在智能教室环境下使用麦克风阵列对声源位置进行实时估计的算法,该算法分为三个阶段--去除噪音、延时估计和空间定位,即首先通过一个滤波器来对语音信号中噪音进行预处理,然后通过一个改进的GCC-PHAT算法来对多路语音信号的时延进行估计,最后通过构建几何关系来估计声源的位置.实验结果表明,在有一定噪音的自然教室环境下,算法的平均定位精度能够控制在5cm以内,具有很强的应用性. 相似文献