共查询到20条相似文献,搜索用时 0 毫秒
1.
针对广播电视新闻节目中的音频信息的特点,利用说话人检测技术,提出了目标语音的检测和定位算法,可以快速挖掘和定位特定发言人或主持人的相关信息,效果良好。 相似文献
2.
The employment of a read-only memory store as a storage medium for limited speech vocabularies is described. The device, along with an electronics interface, is intended to serve as a remote speech output system driven by an ordinary teletype or key-punch without computer control. The use of such a stored vocabulary as a sensory aid for the blind is outlined. 相似文献
3.
4.
基于语音和音频信号的固有周期性特征,本文构建了一种适合语音和音频信号的统一分析/合成模型,并分别在24kbps和32kbps码率下,实现了对宽带语音和音频信号的高质量分层编码.首先,本文将具有时变周期的输入信号规整为具有固定周期的信号,并对规整后的周期信号构建规整矩阵;其次,对规整矩阵的行和列分别进行调制叠接变换(MLT)和离散余弦变换(DCT),完成规整矩阵的稀疏化;最后,利用分带量化和矢量哈夫曼编码完成稀疏矩阵元素的量化和编码.主客观测试结果表明,本文所提方法的语音、音频及其混合信号的编码质量均优于同等速率下的ITU-T G.722.1和AMR-WB编码器. 相似文献
5.
一种稳健的基于Visemic LDA的口形动态特征及听视觉语音识别 总被引:4,自引:0,他引:4
视觉特征提取是听视觉语音识别研究的热点问题。文章引入了一种稳健的基于Visemic LDA的口形动态特征,这种特征充分考虑了发音时口形轮廓的变化及视觉Viseme划分。文章同时提出了一利利用语音识别结果进行LDA训练数据自动标注的方法。这种方法免去了繁重的人工标注工作,避免了标注错误。实验表明,将'VisemicLDA视觉特征引入到听视觉语音识别中,可以大大地提高噪声条件下语音识别系统的识别率;将这种视觉特征与多数据流HMM结合之后,在信噪比为10dB的强噪声情况下,识别率仍可以达到80%以上。 相似文献
6.
7.
语音交互技术早在20世纪就被研究者视为追捧的对象。生活中方方面面都离不开交流。早期传统机器学习的方法已经无法满足多元化语音交流的需求。针对语音交互技术存在的分离质量低、结果不准确等问题,利用一种带有时序卷积因子的全卷积分离网络来分离语音,通过编码器混合片段语音,解码器重构语音波形,得到分离结果。实验结果表明,该模型计算量小,延迟相对较短,是解决语音分离相对较优的方法。 相似文献
8.
Kisun You Young-kyu Choi Jungwook Choi Wonyong Sung 《Journal of Signal Processing Systems》2011,63(1):95-105
We have developed a memory access reduced VLSI chip for 5,000 word speaker-independent continuous speech recognition. This
chip employs a context-dependent HMM (hidden Markov model) based speech recognition algorithm, and contains parallel and pipelined
hardware units for emission probability computation and Viterbi beam search. To maximize the performance, we adopted several
memory access reduction techniques such as sub-vector clustering and multi-block processing for the emission probability computation.
We also employed a custom DRAM controller for efficient access of consecutive data. Moreover, we analyzed the access pattern
of data to minimize the internal SRAM size while maintaining high performance. The experimental results show that the implemented
system performs speech recognition 2.4 and 1.8 times faster than real-time utilizing 32-bit DDR SDRAM and SDR SDRAM, respectively. 相似文献
9.
基于DSP的语音信号采集和扩展存储系统 总被引:1,自引:1,他引:0
在研究数字信号处理的基础上,实现基于16 bit数字信号处理器TMS320VC5402的语音信号采集和数字信号扩展存储系统,给出了系统硬件设计和软件流程图.语音处理算法采用上下限可调的带通滤波器实现带外噪声消除,应用预加重技术改善了高频段特性,系统存储器大小可根据用户需要灵活选择. 相似文献
10.
在利用深度学习方式进行语音分离的领域,常用卷积神经网络(RNN)循环神经网络进行语音分离,但是该网络模型在分离过程中存在梯度下降问题,分离结果不理想。针对该问题,该文利用长短时记忆网络(LSTM)进行信号分离探索,弥补了RNN网络的不足。多路人声信号分离较为复杂,现阶段所使用的分离方式多是基于频谱映射方式,没有有效利用语音信号空间信息。针对此问题,该文结合波束形成算法和LSTM网络提出了一种波束形成LSTM算法,在TIMIT语音库中随机选取3个说话人的声音文件,利用超指向波束形成算法得到3个不同方向上的波束,提取每一波束中频谱幅度特征,并构建神经网络预测掩蔽值,得到待分离语音信号频谱并重构时域信号,进而实现语音分离。该算法充分利用了语音信号空间特征和信号频域特征。通过实验验证了不同方向语音分离效果,在60°方向该算法与IBM-LSTM网络相比,客观语音质量评估(PESQ)提高了0.59,短时客观可懂(STOI)指标提高了0.06,信噪比(SNR)提高了1.13 dB,另外两个方向上,实验结果同样证明了该算法较IBM-LSTM算法和RNN算法具有更好的分离性能。 相似文献
11.
12.
13.
DSP在语音处理中的应用 总被引:1,自引:0,他引:1
TMS320VC5509是TI推出的一款高性能的DSP,内部集成了大量的SRAM,并且通过EMIF接口可以外扩SDRAM,为完成复杂的语音算法提供了可能。同时也提供了像IIC、McBSP、USB1.1、MMC卡的遗用接口。TLV320AIC23B是一款高性能的立体声音频Codec芯片。本文介绍如何实现C5509与TLV320AIC23B之间的无缝连接,并给出应用实例。 相似文献
14.
本文介绍了如何利用TMS320VC5510的多通道缓冲串行口(McBSP)和TLV320DAC23接口之间的连接实现音频播放。 相似文献
15.
16.
The ambient noise level in which most of us live is continuously increasing. Homes have automatic dishwashers and air conditioners; the highways and the sky are more crowded with noisy vehicles. Have you ever tried to listen to a symphony on your car FM radio? 相似文献
17.
Closed-form expressions are presented for the harmonic and intermodulation performance of SI audio memory cells excited by large amplitude multisinusoidal current signals. Effects of the threshold-voltage mismatch, the output conductance and the clock-injection are taken into consideration. The results show that under certain conditions, the second-harmonic components resulting from these three sources may be out of phase and thus cancellation, resulting in minimum distortion, may result. 相似文献
18.
用ISP实现对ISD25120语音芯片的录放音控制 总被引:3,自引:1,他引:2
介绍了语音芯片ISD(Information Storage Device)的内部结构、特点和ISP器件的编程设计方法;以ISP技术为手段,使用在系统编程器件M4-32/32实现了对单片ISD25120语音芯片的录、放音控制。 相似文献
19.
面向紧急通道的实时应用是实时CORBA系统的一类应用,目前实时CORBA规范不能完全支持这一应用需求,通过改进实时CORBA系统RTORBUS,使其支持面向紧急通道的应用,改进的RTORBUS系统支持紧急通道的切换,并提供动态调整机制以提高紧急通道的切换效率,避免了由切换导致优先级上升超过系统限制所造成的优先级倒置,仿真实验结果表明,改进后的RTORBUS系统能够达到预期的设计要求. 相似文献
20.