期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种噪音环境下的基于特征口形的音频视频混合连续语音识别系统 总被引：1，自引：0，他引：1

谢磊 I.Cravyse 蒋冬梅赵荣椿 H.Sahli Werner Verhelst J Cornelis Ignace Lemahieu 《计算机工程与应用》2003,39(16):3-5,35

文章抓住人类语音感知多模型的特点,尝试建立一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种基于特征口形的提取方法。识别实验证明,这种视频特征提取方法比传统DCT、DWT方法能够带来更高的识别率;基于特征口形的音频-视频混合连续语音识别系统具有很好的抗噪性。相似文献

2.

DirectShow技术在音频格式转换及音视频分离方面的应用 总被引：3，自引：0，他引：3

徐燃潘接林《计算机应用》2005,25(Z1):387-390

目前语音识别系统的输入都是线性PCM格式的音频文件,然而在实际应用中,需要识别各种格式音频文件以及视频流中的音频,在开始识别前,需要进行音频格式转换并从视频流中进行音频提取.因此,音频格式的转换和从视频中分离出音频信号已成为语音识别系统一种必需的预处理过程.文中介绍了一种将Microsoft的DirectShow技术应用于Windows平台的多种压缩音频格式转换为Windows PCM WAV格式以及从多媒体视频中分离音频信号的方法,并分析了常见音频压缩编码格式经转换后对语音识别系统性能的影响.这对于语音识别技术在实际中的应用有着重要的意义. 相似文献

3.

基于动态贝叶斯网络的音视频连续语音识别和音素切分

吕国云蒋冬梅蒋晓悦赵荣椿侯云舒孙阿利 H. Sahli W. Verhelst 《计算机应用》2007,27(7):1670-1673

构造了两个单流单音素的动态贝叶斯网络（DBN）模型，以实现基于音频和视频特征的连续语音识别，并在描述词和对应音素具体关系的基础上，实现对音素的时间切分。实验结果表明，在基于音频特征的识别率方面：在低信噪比（0~15dB）时，DBN模型的识别率比HMM模型平均高12.79%；而纯净语音下，基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别，DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系，为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。相似文献

4.

基于词网模型的连续语音识别系统MYASR的设计与开发

顾亚丽余兵陈奇川《信息与电脑》2011,(12)

基于词网模型的连续语音识别系统在各方面得到了广泛应用,如语音拨号、语音指令、语音菜单、语音导航及语音电话簿等。本文在研究语音识别理论的基础上,设计并开发了基于词网模型的连续语音识别系统—MYASR。MYASR提供了丰富的功能模块,包括前端处理、特征提取、模型训练、词网构建、识别等,使开发一个基于词网模型的连续语音识别应用系统更加方便,同时也是语音识别研究的实验平台。MYASR所采用的XML描述文件,使系统具有良好的可读性和可扩展性。通过在TIMIT语料库上单音子连续语音识别的实验显示,MYASR具有很高的识别性能和实时性能。相似文献

5.

基于内容的音频检索综述 总被引：14，自引：0，他引：14

朱爱红李连《微机发展》2003,13(12):58-60,64

传统的基于文本的音频检索技术存在主观性和不完整性等缺点，而且不支持实时音频检索。为此，基于内容的音频检索技术应运而生。文中根据音频检索的研究现状，综述基于内容的音频检索方法，讨论了一些音频检索技术研究中的关键技术：音频特征提取、音频分类、语音识别技术等。最后展望了音频检索技术的发展前景。相似文献

6.

基于连续隐马尔科夫模型的英语翻译机器人语音识别系统

赵力瑾高攀《自动化与仪器仪表》2022,(6):191-194+200

语音识别系统在音频质量较差时,经常出现识别错误的情况,为提高识别精度,基于连续隐马尔科夫模型设计英语翻译机器人语音识别系统。在硬件中,设计音频信号接收器和机器人音频识别模块主处理器。在软件中,对音频信号量化并预加重处理,计算帧移距离与每帧长度之间的比值,获取模拟信号转换频率与基本单位量化指标;基于连续隐马尔可夫模型构建语音文本解编码器,计算窗函数的宽度,在网格中获取马尔科夫链概率路径,比较不同概率路径的复杂度;设计英语翻译机器人语音识别算法,得到英语翻译机器人的语音识别结果。由实验数据可知：该系统在三种不同音频质量下的语音识别准确率均在75%以上,较其他系统更稳定,在同等音频质量下,准确率更高,可见连续隐马尔可夫模型的语音识别系统优于其他系统。相似文献

7.

抗噪声语音识别及语音增强算法的应用 总被引：1，自引：0，他引：1

汤玲戴斌《计算机仿真》2006,23(9):80-82,143

提高语音识别系统的鲁棒性是语音识别技术一个重要的研究课题。语音识别系统往往由于训练环境下的数据和识别环境下的数据不匹配造成系统的识别性能下降,为了让语音识别系统在含噪的环境下获得令人满意的工作性能,该文根据人耳听觉特性提出了一种鲁棒语音特征提取方法。在MFCC特征提取之前先对含噪语音特征进行掩蔽特性处理,同时结合语音增强方法对特征进行处理,最后得到鲁棒语音特征。通过4种不同试验结果分析表明,将这种方法用于抗噪声分析可以提高系统的抗噪声能力;同时这种特征的处理方法对不同噪声在不同信噪比有很好的适应性。相似文献

8.

基于耳蜗基底膜特性的语音特征提取方法及在智能轮椅上的应用

罗元陈君张毅童开国《计算机应用研究》2012,29(10):3765-3768

从人耳听觉特性出发,对能模拟耳蜗基底膜滤波特性的伽马通滤波器组进行了研究、修正,并以修正的滤波器组为基础,提出了一种基于耳蜗基底膜特性的GT-ERBCC(equivalent rectangular bandwidth cepstrum coeffi-cient based on GammaTone filters)语音特征提取方法。该方法能准确地表征出语音信号的特征,降低语音识别系统的难度,并将该方法应用于智能轮椅人机交互实验中。结果表明,基于耳蜗基底膜特性的特征提取方法能有效提高语音识别系统的识别率。相似文献

9.

低速率语音压缩编码对语音识别系统的影响

程强崔慧娟唐昆《计算机应用研究》2003,20(9):22-25,28

通过窄带信道将语音信号传输到远端的识别系统，从而实现远距离的人机对话，具有重要的现实意义。在2．4kbps的速率下，语音编码算法依然可以合成出可懂度非常高的语音，但是这样的语音信号与原始语音相比还是有巨大的损失。低速率语音编码算法对于语音识别产生的影响是巨大的，因此必须想办法减轻这种损失对于识别的损害。在此选择了三种不同的低速率语音编码器，分别使用LPC(Linear Pledictive Coding，线性预测)算法、MELP(Mixed Excitation Linear Prediction，混合激励线性预测)算法和IMBE(Improved Multiband Excitation，增强多带激励)算法，都在2．4kbps的速率下工作，将其对语音识别系统的影响进行了比较。对于特定人连续语音识别系统和非特定人连接词识别系统，在使用不同的特征矢量时，不同编码器产生的识别效果有比较大的差异。实验结果表明，语音编码器和语音识别系统的结构有很重要的联系，尽量采用相近的结构有助于获得良好的识别结果。另外，改变提取语音识别特征参数的方式也会有利于提高语音识别系统的性能。相似文献

10.

双模态车载语音控制仿真系统的设计与实现

严乐贫奉小慧《计算机与现代化》2010,(8):211-215

针对音、视频双模态语音识别能有效地提高噪声环境下的识别率的特性,本文设计了车载语音控制指令识别实验系统。该系统模拟车载环境,把说话时的视频信息融入到语音识别系统中,系统分为模型训练、离线识别和在线识别3部分。在线识别全程采用语音作为人机交互手段,并具备用户自适应的功能。离线识别部分将系统产生的数据分层次进行统计,非常适合进行双模态语音识别算法研究。相似文献

11.

基于声学模型共享的零资源韩语语音识别

王皓宇 JEON Eunah 张卫强李科黄宇凯《数据采集与处理》2023,38(1):93-100

精准的语音识别系统通常使用大量的有标注语音数据训练得到,但现有的开源大规模数据集只包含一些广泛使用的语言,诸多小语种则面临着训练数据不足的问题。声学模型共享方法给出了这个问题的一种解决方法,它利用不同语种间的相似性,可以实现不需要小语种语音数据的语音识别。本文将声学模型共享方法扩展到韩语语音识别上,利用汉语声学模型构建韩语和汉语之间的音素映射关系。在不使用任何韩语语音数据的情况下构建的语音识别系统在Zeroth测试集上的字错误率达到了27.33%。同时本文还测试了不同映射方式之间的差异,结果表明这种共享模型的音素映射应当采用将目标语言词汇映射为源语言音素的方式。相似文献

12.

Speech recognition for mobile devices

Alexander Schmitt Dmitry Zaykovskiy Wolfgang Minker 《International Journal of Speech Technology》2008,11(2):63-72

This article presents an overview of different approaches for providing automatic speech recognition (ASR) technology to mobile users. Three principal system architectures with respect to the employment of a wireless communication link are analyzed: Embedded Speech Recognition Systems, Network Speech Recognition (NSR) and Distributed Speech Recognition (DSR). An overview of the solutions having been standardized so far as well as a critical analysis of the latest developments in the field of speech recognition in mobile environments is given. Open issues, pros and cons of the different methodologies and techniques are highlighted. Special emphasis is placed on the constraints and limitations ASR applications are confronted with under different architectures. 相似文献

13.

言语信息处理的进展 总被引：1，自引：0，他引：1

蔡莲红贾珈郑方《中文信息学报》2011,25(6):137-142

该文介绍了言语信息处理的进展,特别提到汉语言语处理的现状。言语信息处理涉及到言语识别、说话人识别、言语合成、言语知觉计算等。带口音和随意发音的言语识别有力的支持了语言学习与口语水平测评等应用;跨信道、环境噪音、多说话人、短语音、时变语音等因素存在的情况下提高识别正确率,是说话人识别的研究热点;言语合成主要关注多语言合成、情感言语合成、可视言语合成等;言语知觉计算开展了言语测听、噪声抑制算法、助听器频响补偿方法、语音信号增强算法等研究。将言语处理技术与语言、网络有效结合,促进了更加和谐的人机言语交互。相似文献

14.

Interactive Speech Translation in the Diplomat Project

Robert Frederking Alexander Rudnicky Christopher Hogan Kevin Lenzo 《Machine Translation》2000,15(1-2):27-42

The Diplomat rapid-deployment speech-translation systemis intended to allow naï ve users to communicate across a languagebarrier, without strong domain restrictions, despite the error-pronenature of current speech and translation technologies. In addition,it should be deployable for new languages an order of magnitude morequickly than traditional technologies. Achieving this ambitious setof goals depends in large part on allowing the users to correct recognition and translation errors interactively. We present the Multi-Engine Machine Translation (MEMT) architecture, describing how it is well suited for such an application. We then discuss ourapproaches to rapid-deployment speech recognition and synthesis.Finally we describe our incorporation of interactive error correctionthroughout the system design. We have already developed workingbidirectional Croatian English and Spanish English systems, and have Haitian Creole English and Korean English versions under development. 相似文献

15.

基于语音识别技术的智能控制系统设计

王富中黄文浩《自动化与仪表》2006,21(4):8-10

语音识别技术近些年来发展非常迅速，并且在许多方面已经有了很好的应用。以语音识别技术在对话娃娃中的应用为例，阐述如何利用语音识别技术来设计智能控制系统，并详细介绍了系统的结构和原理。该系统具有很好的扩展性，稍微做些改动，就可以设计出各种各样的语音控制系统。相似文献

16.

连续语音识别和语音翻译

林道发杨家沅《计算机应用与软件》1994,11(2):15-19,25

本文介绍了在连续语音识别和语音机器翻译方面所进行的工作。我们已在中等词汇量范围、限定说话主题的条件下，实现了特定人的连续话句的识别。并实现了一个英汉语音翻译实验演示系统。相似文献

17.

计算机语言识别技术应用的探究

侯亚君《电脑开发与应用》2014,(3):235-238

在科技高速发展的今天,计算机从多方面帮助人们拓宽视野,丰富知识,增加接触新事物的途径。因此,计算机在生活和工作中占有的地位越来越重要,它已经成为工作和学习中不可或缺的一部分。如今,为了国家实力的不断增强,各个国家都在计算机技术方面进行了大量的投入。为了计算机技术能够更好地造福人类,应该大力推动计算机语言识别技术的发展,让计算机能够更好地造福人类,造福社会。相似文献

18.

电视剧语音识别中的半监督自动语音分割算法

龙艳花茅红伟叶宏《数据采集与处理》2019,34(2):281-287

针对具有大段连续文本标注、但无时间标签的电视剧语音提出了一种半监督自动语音分割算法。首先采用原始的标注文本构建一个有偏的语言模型,然后将该语言模型以一种半监督的方式用于电视剧语音识别中,最后利用自动语音识别的解码结果对传统的基于距离度量、模型分类以及基于音素识别的语音分割算法进行改进。在英国科幻电视剧“神秘博士”数据集合上的实验结果表明,提出的半监督自动语音分割算法能够取得明显优于传统语音分割算法的性能,不仅有效解决了电视剧语音识别中大段连续音频的自动分割问题,还能对相应的大段连续文本标注进行分段,保证分割后各语音段时间标签及其对应文本的准确性。相似文献

19.

基于文音相似度的语音查询系统的设计与开发

李红莲宋占岭《计算机工程与应用》2006,42(26):221-223

随着语音识别研究的深入,提高通用识别引擎的精度变得越来越困难。但对具体的语音识别任务,结合相应的背景,采取相应的措施,有可能达到很理想的识别精度。在已知语音输入为某有限集元素之一的情形,利用文本在发音上的相似度可以大大提高识别的精度。本文首先介绍了文音相似度的概念,然后给出了利用文音相似度设计开发语音查询系统的过程和例子。相似文献