期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李指南《自动化与仪器仪表》2023,(9):224-228

针对当前翻译理念的改变,研究试图在生态翻译视角下,构建一种新的智能语音识别模型,并将其用于翻译机器人的人机交互系统中。首先构建了DNN-HMM生态语音识别模型,其次使用N-Gram模型优化英文连续文本的翻译,最后分别采用seq2Seq网络和GPT-2神经网络实现两种不同类型的人机交互。结果显示,DNN-HMM模型的平均识别错误率远远低于GMM-HMM模型,仅为3.2%。在多轮人机交互中,DNN-HMM模型的精确率在0.77～0.89之间、召回率在0.78～0.86之间、F1值在0.78～0.85之间,三项检测指标均优于GMM-HMM模型。测试DNN-HMM模型的交互响应时间,93%的单轮交互和94%的多轮交互响应时间均在1 s以内。结合上述指标可以说明此次所构建的语音识别模型能够很好地完成翻译机器人人机交互任务。相似文献

2.

语音识别在轮机模拟器中的应用

冯涛何治斌张永成《计算机应用与软件》2023,(3):33-37+44

针对传统轮机模拟器的操作者身兼多职、人机交互复杂的问题，将语音识别技术应用于轮机模拟器。收集并制作轮机领域的语料库，提取语音信号的MFCC特征，基于Kaldi平台完成声学模型建立，使用SRILM工具建立语言模型并对比多元语言模型性能差异，针对语料稀疏问题使用Kneser-Ney平滑算法进行处理，建立用于操作轮机模拟器的语音交互系统。通过测试表明，能够实现使用语音操作轮机模拟器。相似文献

3.

基于语音识别的英语智能对话机器人人机交互系统设计

房小绵《自动化与仪器仪表》2023,(4):225-228+232

为进一步提升当前英语服务型机器人的人机交互效果，以语音识别为基本方法，提出一种英语智能对话人机交互系统。通过对交互系统的特征参数提取方法以及语音识别模型进行优化，同时结合对应的模块设计，一定程度上提升了交互系统的性能。仿真结果表明，与其他特征参数提取算法相比，本研究的LPMFCC特征参数提取算法的具有更高的识别率，达到了88.5%;与改进前的HMM模型相比，本研究提出的改进HMM模型能够更快完成训练且训练误差更低，仅需4次训练即可完成训练。以上结果表明了本研究提出的英语智能对话人机交互系统能够取得具有良好的性能，能够取得较好的人机交互效果，对于实际的设计具有一定的参考价值。相似文献

4.

自闭症干预中无监督自编码的语音情感识别

葛磊强彦赵涓涓《软件学报》2016,27(S2):130-136

语音情感识别是人机交互中重要的研究内容,儿童自闭症干预治疗中的语音情感识别系统有助于自闭症儿童的康复,但是由于目前语音信号中的情感特征多而杂,特征提取本身就是一项具有挑战性的工作,这样不利于整个系统的识别性能.针对这一问题,提出了一种语音情感特征提取算法,利用无监督自编码网络自动学习语音信号中的情感特征,通过构建一个3层的自编码网络提取语音情感特征,把多层编码网络学习完的高层特征作为极限学习机分类器的输入进行分类,其识别率为84.14%,比传统的基于提取人为定义特征的识别方法有所提高. 相似文献

5.

基于DSP的智能语音控制系统设计

郑微李正周田蕾《传感器与微系统》2012,31(2):134-136

利用语音命令实现与智能设备的交互已经成为现代控制理论研究的热门话题之一。介绍了一种基于数字信号处理器(DSP)、语音采集模块、无线收发模块、片上外设等资源实现的语音命令控制处理系统。该系统首先通过语音采集模块采集到语音控制信号;然后通过DSP和相应的片上外设实现对语音命令的识别;最后将识别的语音命令传递给无线收发模块以实现对于智能设备的控制。整个系统的设计应用领域广泛,可以为人机交互提供一种切实可行的参考方案。相似文献

6.

融合多特征的语音情感识别方法

王怡王黎明柴玉梅《小型微型计算机系统》2022,(6):1232-1239

语音情感识别已经成为下一代人机交互技术的重要组成部分,从语音信号中提取与情感相关的特征是语音情感识别的重要挑战.针对单一特征在情感识别中准确度不高的问题,该文提出了特征级-决策级融合的方法融合声学特征和语义特征进行情感识别.首先提取声学特征,包括：1)低层次手工特征集,包括基于谱相关、音质、能量、基频等相关特征,以及基于低层次特征的高级统计特征;2)DNN提取的谱相关特征的深度特征;3)CNN提取的基于Filter＿bank特征的深度特征.并且使用基于Listen-Attend-Spell(LAS)模型的语音识别模块提取语义特征.然后将声学特征中的3类特征与语义特征进行特征级融合,在确定融合特征的先后顺序时引入了构造哈夫曼树的方法.最后得到融合后特征和原始4类特征各自的情感识别结果,在结果之上进行决策级融合,使用此方法在IEMOCAP数据集中分类准确度可达76.2%. 相似文献

7.

基于深度强化学习的对话机器人人机交互系统优化设计

任芳《自动化与仪器仪表》2024,(3):184-188

为了提高对话机器人人机交互的准确率,提出一种基于协作递归网络的语音增强方法对语音分析模块进行优化。方法首先基于广义最小绝对偏差方法构建语音信号的AR参数估计模型,并采用深度递归Q网络对模型进行求解;再根据所求参数,通过卡尔曼滤波器递归网络依次还原语音信号数据。实验证明,在语音增强测试中,采用所提方法进行语音消噪,相较于改进谱减法、YW估计自适应卡尔曼滤波法和MG自适应卡尔曼滤波法等常用语音增强方法,可以更好地还原语音信号,尤其是在短视语音的消噪上,减小了语音失真,大幅提高了语音的信噪比。在人机交互测试中,基于所提语音增强方法优化的人机交互系统,对话识别准确率达到了93.33%,相较于未优化的系统,提高了16.66%,性能优越性明显,更满足对话机器人人机交互需求。相似文献

8.

基于注意力机制的语音情感识别非线性特征融合方法的研究

周伟东周后盘夏鹏飞《计算机应用与软件》2023,(1):216-221+272

为了解决语音情感识别中时空特征动态依赖问题，提出一种基于注意力机制的非线性时空特征融合模型。模型利用基于注意力机制的长短时记忆网络提取语音信号中的时间特征，利用时间卷积网络提取语音信号中的空间特征，利用注意力机制将时空特征进行非线性的融合，并将非线性融合后的高级特征输入给全连接层进行语音情感识别。实验在IEMOCAP数据集中进行评估，实验结果表明，该方法可以同时考虑时空特征的内在关联，相对于使用线性融合的方法，利用注意力机制进行非线性特征融合的网络可以有效地提高语音情感识别准确率。相似文献

9.

基于 Agent的语音交互界面模型与应用

易定《微型电脑应用》2006,22(3):39-42

Agent为解决人机交互界面的智能性提供一条新途径;语音技术为人机真正对话提供可行的技术手段。本文用Agent这一抽象概念指导人机语音交互智能用户界面的研究,提出一种基于Agent的语音交互界面理想模型。该模型包括语音识别/合成引擎、学习部件、知识库、执行部件,文章试图探讨支持语音交互功能的知识库描述、定义与学习。基于该模型的“语音秘书系统”成功地实现了说话者独立的语音交互,系统的可靠运行说明该模型是有效的、合理的。相似文献

10.

智能家居语音控制系统的设计

汪晟磊宋星杨彦青《自动化与仪器仪表》2023,(4):117-122+128

针对传统智能家居系统在智能终端控制中存在智能化和人性化水平低的问题,提出设计一个基于语音识别的智能家居控制系统。该系统主要由智能终端、主控中心和控制节点组成。对主控中心和控制节点的软硬件方案进行设计后,即可采用系统中的图像采集模块采集家居数据;然后通过改进信号子空间与维纳滤波的两级降噪方法进行语音信号增强;之后选用24维梅尔倒谱系数对语音特征进行提取;最后采用隐马尔可夫模型HMM算法进行模板训练和模式匹配,最终实现智能家居语音自动控制。实验结果表明,在800个测试样本中,共有789个样本被正确识别,平均识别率为98.6%。且在5种不同的信噪比下,语音识别率均保持在94%及以上,最高可达97.4%。由此说明本系统具备较好的抗噪能力,提出的语音识别算法对满足系统语音自动化和智能化需求,在实际产品应用中具有重要意义。相似文献

11.

基于ASGRU-CNN时空双通道的语音情感识别

高鹏淇黄鹤鸣《计算机仿真》2024,(4):180-186

语音情感识别是实现人机交互的关键,如何提升语音情感识别的准确率以及更有效地提取具有情感代表性的特征是语音情感识别所面临的问题之一。针对以上问题,构建了一种包含空间特征提取模块和时序特征提取模块的双通道时空语音情感识别模型ASGRU-CNN。模型总体框架由两条并行分支组成：第一分支为空间特征提取模块,由三维卷积、二维卷积及池化操作共同构成级联结构;第二分支为时序特征提取模块,由切片循环神经网络内嵌门控循环单元及注意力机制构成。模型以韵律特征及谱特征的融合特征作为输入特征,经过双分支处理后,进入全连接层进行语音情感分类。在CASIA与EMO-DB数据库上进行相关实验,并通过数据扩充增加训练样本,与其它语音情感识别模型实验结果相比,所提出的模型具有较好的鲁棒性和泛化性。相似文献

12.

基于GMM的说话人识别技术研究

下载免费PDF全文

曹洁潘鹏《计算机工程与应用》2011,47(11):114-117

为了探讨高斯混合模型在说话人识别中的作用,设计了一个基于GMM的说话人识别系统。整个系统由音频信号预处理,语音活动检测,说话人模型建立以及音频信号识别4个模块组成。前三个模块构成了系统的模型训练部分,最后一个模块构成了系统的语音识别部分。包含在第二个模块中的由GMM模型搭建的语音活动检测器是研究的创新之处。利用增强的多方互动会议语料库中的视听会议对系统中的部分可调参数以及系统的识别错误率进行了测试。仿真结果表明,在语音活动检测器和若干滤波算法的帮助下,系统对包含重叠语音的音频信号的识别准确率可以达到83.02%。相似文献

13.

基于决策树的多特征语音情感识别 总被引：1，自引：1，他引：0

石瑛胡学钢方磊《计算机技术与发展》2009,19(1)

数据挖掘技术是近年来计算机领域的重要方向.文中的研究目的就是通过深入分析各种语音情感特征,找出某种特征对语音情感识别的贡献程度,并在数据挖掘技术中寻找适合的模型将有效特征加以利用. 分析和研究了多位科学家在进行语音情感分析过程中采用的方法和技术,通过总结和创新建立了语音情感语料库,并成功地提取了相关的语音信号的特征.后研究了基音频率、振幅能量和共振峰等目前常用的情感特征在语音情感识别中的作用,把数据挖掘中常用的决策树分类方法和语音信号的多个特征相结合,建立了语音情感识别模型,对语音情感数据进行了大量的实验,取得了较为满意的识别结果. 相似文献

14.

Space OS服务秘书语音交互功能设计与实现

宁正华刘金刚《微计算机信息》2010,(10)

随着三维操作系统的发展与应用,人机交互方式需要有新的发展,而语音技术作为最自然和最便捷的人机交互方式之一自然得到越来越多的重视。怎样在三维操作系统中进行便捷的人机交互是三维操作系统发展和应用必须解决的一大难题,语音识别功能采用声韵母作为识别基元,使用HTK训练声学模型,语音合成功能采用简单但强大的eSpeak开源软件,语音交互策略使用简单的识别结果确认,采用ATK实现与Space OS的集成。实验结果表明,系统能很好地应用到Space OS中,以语音的方式较好地完成常用的计算机操作。相似文献

15.

语音识别控制在音频、视频系统中的应用

吴智量陈智昌陈烘华黄镜洪《微计算机信息》2004,20(7):113-114

本系统采用RSC-164单片机作为语音识别芯片．结合时间规整(DTW)技术和结合模块匹配法．对语音频谱信号建立隐含马可夫模型，能识别操作者预先录制的语音命令．命令识别后输出特征信号．通过89C51单片机对输出信号的检测．用位操作的形式实现对音频、视频系统进行语音控制。本系统可以扩展到对其他系统或机器上应用控制。相似文献

16.

智能机器狗的语音控制模型研究

下载免费PDF全文

闵华松刘冬王田苗《计算机工程》2012,38(1):188-191

阐述语音人机交互手段的必要性及意义,提出一种基于语音控制的机器狗系统解决方案。该系统利用HTK和Julius构建大词汇量连续的语音识别平台,采用语音识别技术提取语音命令用于机器狗控制,并结合有限状态机的控制理论设计机器狗控制系统模型。测试结果表明,该系统能较好地识别用户语音命令,控制系统模型能有效完成机器狗在不同状态下的控制任务。相似文献

17.

用于拟人机器人的嵌入式语音交互系统研究 总被引：3，自引：0，他引：3

陈斌郭大勇施克仁《机器人》2003,25(5):452-455

本文介绍了一种用于拟人机器人的嵌入式语音交互系统．系统采用高质量的语音采集模块及语音输出模块，以高性能数字信号处理器（DSP）TMS320VC5402为硬件核心．HMM语音识别引擎以LPC倒谱及其差分分量作为语音特征表达，改进的Baum Welch重估算法完成了多观察值序列下的语音模板训练．同时进行了语音特征不同表达形式对识别结果影响的对比实验．系统外围控制程序完成识别结果提示以及与上位机的通讯．系统在词汇量为200的非特定人、孤立词识别上取得了很好的效果．相似文献

18.

基于神经网络的语音情感识别 总被引：4，自引：1，他引：3

下载免费PDF全文

石瑛胡学钢《计算机工程与应用》2008,44(24):191-193

研究目的就是通过深入分析各种语音情感特征,找出其中对情感识别有较大贡献的特征,并寻找适合的模型将有效特征加以利用。分析和研究了多位科学家在进行语音情感分析过程中采用的方法和技术,通过总结和创新建立了语音情感语料库,并成功地提取了相关的语音信号的特征。研究了基音频率、振幅能量和共振峰等目前常用的情感特征在语音情感识别中的作用,重点研究了MFCC和?驻MFCC,实验发现特征筛选后系统的识别效果有着一定程度的提高。将处理后的频谱特征参数同原有的BP人工神经网络模型有效地结合起来,形成完整的语音情感识别系统,取得了较为满意的识别结果。相似文献

19.

融合图像显著性的声波动方程情感识别模型

贾宁郑纯军《数据采集与处理》2021,36(5):1062-1072

语音情感识别（Speech emotion recognition, SER）是计算机理解人类情感的关键之处,也是人机交互的重要组成部分。当情感语音信号在不同的介质传播时,使用深度学习模型获得的识别精度不高,识别模型的迁移能力不强。为此,设计了一种融合图像显著性和门控循环的声波动方程情感识别（Image saliency gated recurrent acoustic wave equation emotion recognition, ISGR-AWEER）模型,该模型由图像显著性提取和基于门控循环的声波动模型构成。前者模拟注意力机制,用于提取语音中情感表达的有效区域,后者设计了一个声波动情感识别模型,该模型模拟循环神经网络的流程,可以有效提升跨介质下语音情感识别的精度,同时可快速地实现跨介质下的模型迁移。通过实验,在交互情感二元动作捕捉（Interactive emotional dyadic motion capture, IEMOCAP）情感语料库和自建多介质情感语音语料库上验证了当前模型的有效性,与传统的循环神经网络相比,情感识别精度获得了25%的改善,并且具有较强的跨媒介迁移能力。相似文献

20.

基于语音识别技术的在线语言交互学习系统的设计与实现

范雪扬《自动化与仪器仪表》2023,(7):187-190+195

当前中外语学习口语环境的不足问题已导致学生在语言应用过程中出现了许多困难。研究针对该问题提出了一种基于语音识别技术的在线语音交互学习系统。从语音输入质量入手，在预处理步骤上进行语言信号时域特征的变换，针对计算量和存储空间性能对动态时间规整算法进行改进，并基于改进算法构建在线韩语交互学习系统。实验结果表明，优化算法与混合模式方案，在不同的噪音与信嗓比背景下，混合模型的音频识别错误率均低于30%,在40 dB的条件下识别错误率低于16%。融入优化算法的教学系统在40 dB的条件下错误率低于13%。说明HMM与DBN混合模型更适用于韩语语言识别教学系统，此次设计的基于语音识别的语言交互学习系统具有一定应用价值。相似文献