首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
面向自然交互的多通道人机对话系统   总被引:1,自引:0,他引:1  
人们在对话过程中,除了使用口语交互外,还会很自然地利用表情、姿态等多模态信息辅助交流。重点分析并阐述了如何将这些多模态交互方式有效地融合到人机对话模型中,并实现一个面向自然交互的多模态人机对话系统。首先根据不同通道(如情感、头姿)对语音交互的影响,将它们主要分为信息互补、信息融合和信息独立3种模式,并针对3种模式分别采用不同的方式实现输入信息的多模态融合。信息融合后的对话管理,采用有限自动机、填槽法和混合主导方式的对话管理策略。针对对话中的情感处理,提出一种情感状态预测网络来记录用户的情感变化,并根据话语的轮转的不同对话上下文对用户情绪变化进行及时反馈,该对话模型能比较灵活地处理用户在对话过程中呈现的多模态信息。信息输出方面,针对人机对话中较为常用的数字虚拟人的行为控制,提出了一种简化的多模态协同置标语言,实现了虚拟人的包括情感、姿态与语音的同步表达,提高了虚拟人的表现力。最后基于以上关键技术,实现了一个面向城市路况信息查询的多模态自然人机对话系统。多个用户的体验表明,相对于传统的语音人机对话模型,多通道自然人机对话系统能有效提高用户交互的自然度。  相似文献   

2.
多通道自然人机对话系统要求计算机能够对用户的语句产生智能应答,传统的人机对话系统由于知识库的限制以及用户话语的随意性,当对话内容超出知识库范围时,系统将无法应答或产生与用户期望不符的回答,这在一定程度上影响了人机对话系统用户的体验感.为了解决该问题,提出了一种融合多模态历史交互信息和面向数据的句法分析(data-oriented parsing,简称DOP)模型的最优答句生成方法:首先从大规模句法树库中提取上下文无关文法的语法规则,然后结合对话过程中用户呈现的表情、姿态等多模态历史交互信息,融合DOP模型对上下文无关文法生成的汉语句子进行过滤,最终生成一个符合语法规则且符合语义的答句返回给用户,让计算机在无法获得知识库支撑时,根据交互历史信息生成应对当前对话的语句,有效地提升了多通道自然人机交互系统用户的体验感.该方法应用于交通信息查询以及咖啡厅的多主题多模态人机自由对话系统.用户的体验表明,该方法能够有效提高用户交互的自然度和体验感.  相似文献   

3.
为探究多模态交互方式在智能车载助手设计中应用的可能性及其流程与方法,提升用户驾驶过程中的情感体验,文章以当下互联网与物联网技术的智慧交通趋势和多模态交互方式为背景,通过对多模态交互方式的元素进行分析和调研,总结用户驾驶过程中的行为需求,构建用户体验旅程图。并进一步探究多模态交互方式在智能车载助手中的设计应用触点,建立智能车载助手的多模态交互设计框架。该框架基于用户在驾驶过程中的行为痛点,充分采用多模态交互方式,将面部识别、视觉呈现、语音交互、触控交互、手势交互等多元的表征方式进行了有效的组合,在保证多模态交互平衡的条件下充分调动用户视听触嗅等多感官属性协调作用,使智能车载助手在与人交互的过程中更加趋于真实自然,为智能车载助手未来的用户体验设计创新提供了新的思路。  相似文献   

4.
智能交互体验将人与计算机高度融合,为人们提供高品质的生活体验,被越来越广泛地应用于商业综合体、展示体验厅、旅游、智能家居、金融服务等领域。时至今日多模态交互技术已经取得了长足的进步,现阶段关于多模态交互的研究主要集中于识别/检测以及传感技术等方面。但是多模态交互过程中用户的自身体验未得到充分重视,本研究对多模态交互技术进行整理,选取手势、语音为主要交互方式,通过问卷调查、实地调研等方式,探究用户对多模态交互方式接受度的影响因素。  相似文献   

5.
目的 现代社会存在心理问题的人日趋增多,及时调节其负面情绪对社会和谐稳定具有重要现实意义。传统的情绪调节方法需要花费大量人力,为此提出一种面向情绪调节的多模态人机交互方法,识别用户情绪,采用文本对话和体感交互实现对用户情绪的调节。方法 综合运用了表情识别、文本对话和手势来实现对用户情绪的识别,构建了具有情绪表现力的智能体。用户的表情识别采用支持向量机方法,文本对话采用基于规则和融入情绪因素的Seq2Seq模型实现。设计了聊天、过生日和互动游戏(打篮球)等交互剧情,采用手势和肢体动作来辅助交互。为了更好地体现情绪调节的作用,在互动游戏中设计了强化学习算法,可根据用户的情绪反馈来自动调整游戏难度,最终让用户情绪调整到积极状态。结果 通过实验发现,采用单模态交互很难感知到用户的背景信息,因此对用户的情绪识别可能出现误判。而采用多模态的人机交互方式,可以通过文本对话了解用户的背景信息,从而对用户情绪的识别更为合理。在多模态的人机交互剧情中,用户能以更自然的方式实现情景互动,智能体在多模态交互中更能发挥情绪调节作用。结论 本文提出一种基于多模态人机交互的情绪调节方法,该方法不需要昂贵的硬件设备,便于推广普及,为消极情绪的调节提供了一种可计算方案。  相似文献   

6.
崔崧  何量  刘允才 《计算机工程》2003,29(11):119-122
主要研究了语音使能的多模态输入Web应用的系统架构和运行机制。该系统在传统Web交互模式的基础上引入了分布式语音识别功能模块,使手持移动设备的用户可以同时使用语音和其他传统输入方式获得无线因特网的信息服务。  相似文献   

7.
本论文基于凌阳16位单片机SPCE061A和外扩存储器SPR模组,采用语音识别技术,设计完成了一款能够执行语音指令并进行简单语音对话的交互式智能语音处理系统.系统设计包括硬件和软件两个方面:硬件部分基于凌阳SPCE061A精简开发板,以SPR模组作为语音资源的外部存储器;软件方面主要包括语音资源库的建立和系统的程序设计.该系统能够实现唱歌、背诵唐诗、简单特定对话和才艺表演等交互功能,还可按要求实现内部资源的更新,具有较大的灵活性和软硬件可扩展性.  相似文献   

8.
客服系统作为一个信息交互站,能够生成很多的语音交互信息,因为要受市场技术及应用水平的限制,该语音信息难以充分的发挥作用.本文将着重研究现阶段客服系统在客户服务及运营管理领域所依赖的技术,提出充分使用语音信息这一解决措施,在此基础上详细论述完善智能语音处理技术的重要性,同时联系现阶段市场的现状,概述智能语音技术的使用状况.  相似文献   

9.
情感对话系统的成功取决于语言理解、情感感知和表达能力,同时面部表情和个性等也能提供帮助。然而,尽管这些信息对于多轮情感对话至关重要,但是现有系统既未能够充分利用多模态信息的优势,又忽略了上下文相关性的重要性。为了解决这个问题,提出了一种基于双层解码的多轮情感对话生成模型(MEDG-DD)。该模型利用异构的图神经网络编码器将历史对话、面部表情、情感流和说话者信息进行融合,以获得更加全面的对话上下文。然后,使用基于注意力机制的双层解码器,以生成与对话上下文相关的富含情感的言辞。实验结果表明,该模型能够有效地整合多模态信息,实现更为准确、自然且连贯的情感话语。与传统的ReCoSa模型相比,该模型在各项评估指标上均有显著的提升。  相似文献   

10.
语音是人类与智能手机或智能家电等现代智能设备进行通信的一种常用而有效的方式。随着计算机和网络技术的显著进步,语音识别系统得到了广泛的应用,它可以将用户发出的语音指令解释为智能设备上可以理解的数字指令或信号,实现用户与这些设备的远程交互功能。近年来,深度学习技术的进步推动了语音识别系统发展,使得语音识别系统的精度和可用性不断提高。然而深度学习技术自身还存在未解决的安全性问题,例如对抗样本。对抗样本是指在模型的预测阶段,通过对预测样本添加细微的扰动,使模型以高置信度给出一个错误的目标类别输出。目前对于对抗样本的攻击及防御研究主要集中在计算机视觉领域而忽略了语音识别系统模型的安全问题,当今最先进的语音识别系统由于采用深度学习技术也面临着对抗样本攻击带来的巨大安全威胁。针对语音识别系统模型同样面临对抗样本的风险,本文对语音识别系统的对抗样本攻击和防御提供了一个系统的综述。我们概述了不同类型语音对抗样本攻击的基本原理并对目前最先进的语音对抗样本生成方法进行了全面的比较和讨论。同时,为了构建更安全的语音识别系统,我们讨论了现有语音对抗样本的防御策略并展望了该领域未来的研究方向。  相似文献   

11.
语音不仅包含说话人所要表达的语义信息,也蕴含着说话人所要表达的情感信息.语音情感识别是人机情感交互的关键,对语音情感的有效识别能够提升语音可懂度,使各种智能设备最大限度理解用户意图,提高机器人性化水平,从而更好地为人类服务.采用文献研究法从语音情感语料库、语音情感特征提取、语音情感模型的构建以及语音情感识别的应用等方面对其研究现状和进展进行了综述;同时,对其未来发展趋势也进行了展望.旨在尽可能全面地对语音情感识别技术进行详细分析,为相关研究人员提供有价值的学术参考.  相似文献   

12.
现有的语音交互机器人多采用用户提问、机器人回答的单向交流方式,人机交互的智能性和灵活性较差.本文研究运用树莓派(Raspberry Pi)计算机和配套的语音板作为硬件载体,融合语音唤醒、语音识别、语音合成、自然语言处理等人工智能技术,调用科大讯飞开放云平台、在线图灵机器人,搭建一种基于云平台的智能语音交互机器人系统,并...  相似文献   

13.
当前,元宇宙、虚拟数字人和人工智能等新兴技术不断涌现,相互支撑,对人们的工作和生活方式带来众多方面的变革.文章探讨虚拟数字人相关技术,提出将虚拟数字人相关技术和智能对话技术用于电子政务系统中的技术架构设计.通过将虚拟数字人丰富、生动的以交互形式用于传统的电子政务系统,可为群众提供更有温度和人性化的政务服务.该设计方案不仅可以在电子政务系统中应用实施,亦可用于诸如办公自动化等类似系统中,为虚拟数字人的创新应用提供新的思路.  相似文献   

14.
文章采用语音命令控制和蒙层屏幕显示相结合的方式,提供一种有效监视儿童屏幕距离、观看屏幕时间的语音控制智能视频终端的交互方法。该设计提供语音控制智能视频终端的交互方案;提供屏幕交互方案,包括如何获取屏幕图像、如何获取背景色、如何识别可点击区域、蒙层页面的生成以及距离监控的实现等。整个系统设计智能化,提供自动识别屏幕背景色和寻找各按钮点击区域块的方法,将适用于各类智能视频终端,观看者只需要安装语音控制软件便可以对现有的视频终端进行语音控制,不需要各视频终端开发商进行二次开发。  相似文献   

15.
情绪分析一直是自然语言处理领域的研究热点,而多模态情绪分析是当前该领域的一个挑战。已有研究在上下文信息和不同模态时间序列信息交互方面存在不足,该文提出了一个新颖的多层LSTM融合模型(Multi-LSTMs Fusion Model,MLFN),通过分层LSTM分别设置单模态模内特征提取层、双模态和三模态模间融合层进行文本、语音和图像三个模态之间的深度融合,在考虑模态内部信息特征的同时深度捕获模态之间的交互信息。实验结果表明,基于多层LSTM多模态融合网路能够较好地融合多模态信息,大幅度提升多模态情绪识别的准确率。  相似文献   

16.
针对中国逐渐步入老龄化时代,传统交互方式的物联网系统操作繁杂、不够人性化的问题,提出了一种基于语音识别和物联网技术智能融合的新型物联网系统。首先,通过引入内置处理器的语音识别模块,不仅实现了传统语音识别,还实现了语音的云端传输,突破了主控芯片的计算能力和储存能力低的瓶颈;然后,利用物联网技术把复杂的算法置换到云端去执行,在语音识别方面有质的变化,结合云端分布式储存的特点,能够分门别类地建立用户的语音数据库,在用户习惯学习时提供大量的数据基础;最后,根据大量的数据基础,逐渐通过学习能力建立属于用户个人的语音识别库。通过实验对所提出的智能融合式物联网系统在语音识别的准确度、计算能力、语音交互的智能化程度等方面进行了有效性验证。实验结果表明,在语音识别精度方面随着距离增加至10 m以上,所提系统的准确度仍可达到70%以上,语音数据计算能力方面提高了31倍,同时在语音交互的智能化程度方面性能更优。该系统为老年人使用物联网交互提供了便利。  相似文献   

17.
为从语音中获取包括字面含义和说话人情绪状态在内的全面意图信息,提出了一种基于多模态信息融合的语音意图理解方法,并对其中的关键词抽取、命令解析、基于文本/韵律特征的情绪状态检测以及多模态信息融合等关键算法进行了设计.该方法从识别文本和语音信号中抽取不同模态的信息并进行融合,能够有效地从语音中获取丰富的意图信息,有助于建立自然的人机交互环境.  相似文献   

18.
《信息与电脑》2019,(17):110-112
目前,市面上搭载着语音交互系统的产品有很多,但是绝大部分的交互命令都局限于固定的关键词,在人工智能备受关注的今天,这样的设计显得尤为不人性化。针对上述问题,本设计开发了搭载有自然语言处理的智能语音交互系统,模仿了人类对话的方式与风格,设备能通过分析自然语言逻辑进入不同的功能场景,并根据自然语言解析后的语义完成相应的指令操作。该系统除了具有语音交互系统的基本功能外还实现了语音唤醒、闲聊对话、音乐播放和备忘提醒,能够满足使用者对于聊天对话的日常需求。  相似文献   

19.
在研究音频混音技术的基础上,结合基于嵌入式技术的数字语音教室的实际情况,提出了一种应用于数字语音教室的多路实时混音算法,并给出了在数字语音教室中利用多路混音算法实现多人实时音频交互的方法。  相似文献   

20.
本文介绍了一个基于SALT平台上的电子商务网站的设计及实现方案.该网站采用人机自然交互的全新语音技术,利用Agent技术引入的能说话的虚拟人物来引导用户购物.另外,该网站的热线服务还实现了智能无人值守,节约了网站的运营成本提升了电子商务企业的核心竞争力.利用这种技术还可使得某些生理缺陷的用户也能享受购物的快乐,这极大的改变了他们的生活.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号