期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

薛同泽陈书旺《微计算机信息》2008,24(14):88-90

该智能门卫系统采用语音识别技术.在陵阳单片机SPCE061A上实现.硬件部分主要由SPCE061A单片机、电源与门控电路、外扩存储器SPR4096、音频输入与输出电路等组成.主要技术是该单片机在语音识别中的应用和对门控电路的设计.该系统软件部分由语音训练模块、语音识别模块、语音数据处理模块、语音播报模块和密码输入与确认模块组成,通过对系统的初始化和识别训练实现了语音数据的采集、特征提取、特定语音识别和语音播放等功能.根据语音识别算法原理,对语音信号的预处理、特征提取、模式匹配做了分析.该系统实验结果表明,系统性能稳定,识别效果好,可用于家庭或小型办公场所的门锁控制. 相似文献

2.

基于多任务训练的用户登入语音识别模型仿真

江官星付悦《计算机仿真》2022,(9):190-194

传统用户登入语音识别模型的泛化性能较差,导致语音识别精度不理想。为解决上述问题,构建基于多任务训练的用户登入语音识别模型。利用循环神经网络(Recurrent Neural Network, RNN)的数据处理能力,将多任务学习(Multi-task learning, MTL)应用在循环神经网络中,采用共享隐层学习的方式并行训练多个任务,获取更多共享特征,完成多任务学习,提高循环神经网络泛化性能,构建基于MTL-RNN的语音识别模型,将用户登入连贯语音信息作为模型输入,结合多任务学习结构,通过用户身份、情感和性别的分类输出,实现用户登入语音识别。实验结果表明,上述模型具备较高语音识别准确率,语音识别非加权平均召回率较高,说明引入多任务学习可增强上述模型的语音识别的泛化能力,优化识别精度。相似文献

3.

试制智能服务机器人（下）

林峰蔡宇博周浪马学品《电子制作．电脑维护与应用》2005,(11):31-33

三、语音识别设计与实现做为我们机器人的核心部分，语音识别系统是我们研究开发的重中之重，为此我们收集了大量已有的语音识别系统的信息，并对用于语音识别技术的信号处理、模式识别、语音特征提取、声学模型与模式匹配（识别算法）进行了深入的学习和研究。我们语音识别系统的实现过程见图12。相似文献

4.

基于神经网络的语音识别技术研究 总被引：5，自引：0，他引：5

孙宁孙劲光孙宇《计算机与数字工程》2006,34(3):58-61

对BP神经网络在特定人语音识别技术中的应用进行了探索性的研究，进而对非特定人语音识别做了一定的实验和研究。通过对比分析了传统的语音识别方法——模板匹配法和人工神经网络语音识别方法的优缺点。神经网络可以得到较高的识别准确度，但是训练速度慢是它的弱点，因此，针对经典的BP算法训练速度慢的缺点，对BP网络加以改进，提高网络训练速度，通过改进使神经网络用于语音识别的各种优越性充分发挥。相似文献

5.

临近最优主动学习的藏语语音识别方法研究

下载免费PDF全文

赵悦李要嫱徐晓娜吴立成《计算机工程与应用》2018,54(22):156-159

语音识别模型需要大量带标注语音语料进行训练,作为少数民族语言的藏语,由于语音标注专家十分匮乏,人工标注语音语料是一件非常费时费力的工作。然而,主动学习方法可以根据语音识别的目标从大量未标注的语音数据中挑选一些具有价值的样本交给用户进行标注,以便利用少量高质量的训练样本构建与大数据量训练方式一样精准的识别模型。研究了基于主动学习的藏语拉萨话语音语料选择方法,提出了一种临近最优的批量样本选择目标函数,并验证了其具有submodular函数性质。通过实验验证,该方法能够使用较少的训练数据保证语音识别模型的精度,从而减少了人工标注语料的工作量。相似文献

6.

关于维吾尔语口语语料的三音子选取方法研究

徐宝龙努尔麦麦提·尤鲁瓦斯吾守尔·斯拉木《中文信息学报》2015,29(2):118-124

在大词汇量连续语音识别应用中,优质的语音训练语料是所有识别工作的基础和前提, 能否挑选出覆盖更多语音现象的语料是提高语音识别性能的关键。该文在多种维吾尔文口语化传播平台中采集了大量口语句子语料,并考虑协同发音的影响和常用词的适用性,根据评估函数对语料筛选。经过筛选后的语料包含的三音子更加均衡和高效,囊括的语音现象更加全面,为训练准确而牢靠的语音模型打下了稳固的根基。相似文献

7.

基于听觉感知和概率神经网络的语音识别模型

下载免费PDF全文

张晓俊陶智顾济华赵鹤鸣施晓敏《计算机工程与应用》2007,43(19):30-31

提出了一种基于Bark子波变换和概率神经网络（PNN）的语音识别模型。利用符合人耳听觉特性的Bark滤波器组进行信号重构并提取语音特征,然后利用训练好的概率神经网络进行识别。通过训练大量语音样本来构成语音识别库,并建立综合识别系统。实验结果表明该方法与传统的LPCC/DTW和MFCC/DWT方法相比,识别率分别提高了14.9%和10.1%,达到了96.9%的识别率。相似文献

8.

BP神经网络应用于孤立词语发音识别的研究 总被引：2，自引：1，他引：1

姜占才孙燕《计算机应用与软件》2008,25(10)

介绍了BP神经网络的学习规则和用于语音识别的基本原理,建立了一个用于常用孤立词语音识别的BP神经网络,选择声道反射系数为语音识别的特征值,建立了网络的训练样本集,对网络进行了训练;用MATLAB进行了识别仿真,表明能较好地实现孤立词语音识别. 相似文献

9.

基于LM算法的神经网络语音识别 总被引：2，自引：0，他引：2

葛玲贾志成夏克文王霞《计算机工程与设计》2006,27(14):2534-2536,2539

由于语音识别中朵用标准BP算法存在的训练速度慢、容易陷入局部极小等问题，提出一种基于稳定、快速的Levenberg-Marquardt算法的神经网络语音识别方法，主要包括语音信号预处理、特征提取、网络结构优化设计、网络学习训练和语音识别等过程。其中网络隐含层节点数的选取采用黄金分割优选法。试验仿真表明，LM算法明显提高了网络训练速度，减少了训练时间，其效果优越于标准BP算法。相似文献

10.

几种开源英语识别工具包的对比分析

刘琼?覮《计算技术与自动化》2018,(4):123-127

对开源英语语音识别工具包在可用性和识别准确性方面进行了对比评价。所对比的语音工具包为HTK语音工具包、CMU Sphinx系列语音处理系统和Kaldi语音工具包。通过对比分析发现,Kaldi语音工具包提供了最先进和全面的声学模型训练技术支持,具有最出色的识别正确率结果;CMU Sphinx系列语音工具包在提供较为全面的声学模型训练基础上,具有最好的识别效率;而HTK语音识别工具包所提供的训练技术支持最少,并且需要自行开发训练脚本,因此使用难度最大。相似文献

11.

基于HTK 的特定词语音识别系统 总被引：1，自引：1，他引：0

曾妮费洪晓姜振飞《计算机系统应用》2011,20(3):157-160

语音识别技术经过半个世纪的发展,目前已日趋成熟,其在语音拨号系统、数字遥控、工业控制等领域都有了广泛的应用。由于目前常用的声学模型和语言模型的局限性,计算机只能识别一些词汇或一些句子。语音识别系统在语种改变时,往往会出现错误的识别结果。针对上述问题,结合隐马尔可夫模型原理,在HTK语音处理工具箱的基础上构建了中英文特定词语音识别系统。该系统通过代码控制整个构建过程,使其在更换新的训练数据和词典后能快速生成对应的识别模型。相似文献

12.

An SR approach to multiway rendezvous

Michael Coffin Ronald A. Olsson 《Computer Languages, Systems and Structures》1989,14(4):255-262

This paper presents a new approach to programming multiway rendezvous problems in the SR language. The approach uses SR's concurrent invocation statement and rendezvous mechanism to coordinate the interacting processes. This approach is compared with one that suggested an extension to SR's rendezvous mechanism. The two approaches result in differing program structure. The new approach is shown to lead to simpler and cleaner interfaces between the main process and the worker processes, and uses only existing language mechanisms. The results are of importance to both programmers and designers of concurrent program languages. 相似文献

13.

基于多语言语音数据选择的资源稀缺蒙语语音识别研究

张爱英《计算机科学》2018,45(9):308-313

利用多语言信息可以提高资源稀缺语言识别系统的性能。但是,在利用多语言信息提高资源稀缺目标语言识别系统的性能时,并不是所有语言的语音数据对资源稀缺目标语言语音识别系统的性能提高都有帮助。文中提出利用长短时记忆递归神经网络语言辨识方法选择多语言数据以提高资源稀缺目标语言识别系统的性能;选出更加有效的多语言数据用于训练多语言深度神经网络和深度Bottleneck神经网络。通过跨语言迁移学习获得的深度神经网络和通过深度Bottleneck神经网络获得的Bottleneck特征都对提高资源稀缺目标语言语音识别系统的性能有很大的帮助。与基线系统相比,在插值的Web语言模型解码条件下,所提系统的错误率分别有10.5%和11.4%的绝对减少。相似文献

14.

重庆方言语音识别系统的设计与实现

张策韦鹏程陆晓燕石熙《计算机测量与控制》2018,26(1)

语音识别赋予了计算机能够识别出语音内容的功能,是人机交互技术领域的重要研究内容。随着计算机技术的发展,语音识别已经得到了成熟的发展。但是关于方言的语音识别还有很大的发展空间。中国是一个幅员辽阔、人口众多的国家,因此方言种类繁多,其中有3000多万人交流使用的重庆方言就是其中之一。采集了重庆方言的部分词语的文本文件和对应的语音文件建立语料库,根据重庆方言的发音特点,选取重庆方言的声韵母作为声学建模基元,选取隐马尔可夫模型(Hidden Markov Model, HMM)为声学模型设计了一个基于HMM的重庆方言语音识别系统。在训练过程利用语料库中训练集语料对声学模型进行训练,形成HMM模型库;在识别过程利用语料库中的测试集语料进行识别测试。实验结果表明,该系统能够实现重庆方言的语音识别,并且识别的正确率为100%。相似文献

15.

基于实例推理的人机对话系统的设计与实现

姚琳梁春霞张德干《计算机应用》2007,27(3):765-768

为了给英语学习者建立一个虚拟的环境，使其通过与机器进行对话练习，达到学习的目的，本文采用基于实例推理的方法，结合人机对话、语音识别和语音合成技术，研究了一个辅助英语学习的人机对话系统的设计与实现。文章重点阐述了系统的语音功能、对话管理和实例库访问。实验表明，系统很好地满足了用户提高英语听力和口语水平的需求。相似文献

16.

火车票查询系统中语音识别的研究及实现 总被引：5，自引：0，他引：5

吴萍胡瑞敏艾浩军《计算机工程与应用》2003,39(33):227-229

文章首先介绍了火车票查询系统中语音识别的框架结构,并详细描述了采用微软SPEECHSDK技术实现车次、车站语音识别的详细流程,最后从识别率、鲁棒性方面对该识别系统进行测试和分析,实验表明,该语音识别系统是稳定的和实用的。相似文献

17.

Untethered gesture acquisition and recognition for virtual world manipulation

David Demirdjian Teresa Ko Trevor Darrell 《Virtual Reality》2005,8(4):222-230

Humans use a combination of gesture and speech to interact with objects and usually do so more naturally without holding a device or pointer. We present a system that incorporates user body-pose estimation, gesture recognition and speech recognition for interaction in virtual reality environments. We describe a vision-based method for tracking the pose of a user in real time and introduce a technique that provides parameterized gesture recognition. More precisely, we train a support vector classifier to model the boundary of the space of possible gestures, and train Hidden Markov Models (HMM) on specific gestures. Given a sequence, we can find the start and end of various gestures using a support vector classifier, and find gesture likelihoods and parameters with a HMM. A multimodal recognition process is performed using rank-order fusion to merge speech and vision hypotheses. Finally we describe the use of our multimodal framework in a virtual world application that allows users to interact using gestures and speech. 相似文献

18.

Mask estimation and imputation methods for missing data speech recognition in a multisource reverberant environment

Sami Keronen Heikki Kallasjoki Ulpu Remes Guy J. Brown Jort F. Gemmeke Kalle J. Palomäki 《Computer Speech and Language》2013,27(3):798-819

We present an automatic speech recognition system that uses a missing data approach to compensate for challenging environmental noise containing both additive and convolutive components. The unreliable and noise-corrupted (“missing”) components are identified using a Gaussian mixture model (GMM) classifier based on a diverse range of acoustic features. To perform speech recognition using the partially observed data, the missing components are substituted with clean speech estimates computed using both sparse imputation and cluster-based GMM imputation. Compared to two reference mask estimation techniques based on interaural level and time difference-pairs, the proposed missing data approach significantly improved the keyword accuracy rates in all signal-to-noise ratio conditions when evaluated on the CHiME reverberant multisource environment corpus. Of the imputation methods, cluster-based imputation was found to outperform sparse imputation. The highest keyword accuracy was achieved when the system was trained on imputed data, which made it more robust to possible imputation errors. 相似文献

19.

“Verba Volant Scripta Manent” a false axiom within virtual environments. A semi-automatic tool for retrieval of semantics understanding for speech-enabled VR applications

《Computers & Graphics》2006,30(4):619-628

Traditional interaction with virtual environments (VE) via widgets or menus forces users to rigidly sequential interactions. Previous research has proved that the adoption of speech recognition (SR) allows more flexible and natural forms of interaction resembling the human-to-human communication pattern. This feature though requires programmers to compile some human supplied knowledge in the form grammars. These are then used at runtime to process spoken utterances into complete commands. Further speech recognition (SR) must be hard-coded into the application.This paper presents a completely automatic process to build a body of knowledge from the information embedded within the application source code. The programmer in fact embeds, throughout the coding process, a vast amount of semantic information. This research work exploits this semantic richness and it provides a self-configurable system, which automatically adapts its understanding of human commands according to the content and to the semantic information defined within the application's source code. 相似文献

20.

基于连续隐马尔柯夫模型的模式识别技术及其应用

刘伯高《计算技术与自动化》2015,(1):126-130

对利用基因算法训练连续隐马尔柯夫模型的语音识别的具体算法进行系统的研究;然后基于该语音识别技术对深圳市司法局社区矫正声纹识别系统进行详细设计。该系统上线后的运行结果表明,利用基因算法训练连续隐马尔柯夫模型的语音识别算法的识别速度较快同时具有较高的识别率。基于模式识别技术的司法社区矫正声纹识别系统建设在我国司法系统目前尚处于起步阶段,推广和建设司法社区矫正声纹识别系统具有重要的现实意义。相似文献