期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

高廷丽陶建华杨明浩张大伟巢林林李昊车浩李雅刘斌《软件学报》2015,26(S2):177-188

多通道自然人机对话系统要求计算机能够对用户的语句产生智能应答,传统的人机对话系统由于知识库的限制以及用户话语的随意性,当对话内容超出知识库范围时,系统将无法应答或产生与用户期望不符的回答,这在一定程度上影响了人机对话系统用户的体验感.为了解决该问题,提出了一种融合多模态历史交互信息和面向数据的句法分析(data-oriented parsing,简称DOP)模型的最优答句生成方法:首先从大规模句法树库中提取上下文无关文法的语法规则,然后结合对话过程中用户呈现的表情、姿态等多模态历史交互信息,融合DOP模型对上下文无关文法生成的汉语句子进行过滤,最终生成一个符合语法规则且符合语义的答句返回给用户,让计算机在无法获得知识库支撑时,根据交互历史信息生成应对当前对话的语句,有效地提升了多通道自然人机交互系统用户的体验感.该方法应用于交通信息查询以及咖啡厅的多主题多模态人机自由对话系统.用户的体验表明,该方法能够有效提高用户交互的自然度和体验感. 相似文献

2.

面向自然交互的多通道人机对话系统 总被引：1，自引：0，他引：1

杨明浩陶建华李昊巢林林《计算机科学》2014,41(10):12-18,35

人们在对话过程中,除了使用口语交互外,还会很自然地利用表情、姿态等多模态信息辅助交流。重点分析并阐述了如何将这些多模态交互方式有效地融合到人机对话模型中,并实现一个面向自然交互的多模态人机对话系统。首先根据不同通道(如情感、头姿)对语音交互的影响,将它们主要分为信息互补、信息融合和信息独立3种模式,并针对3种模式分别采用不同的方式实现输入信息的多模态融合。信息融合后的对话管理,采用有限自动机、填槽法和混合主导方式的对话管理策略。针对对话中的情感处理,提出一种情感状态预测网络来记录用户的情感变化,并根据话语的轮转的不同对话上下文对用户情绪变化进行及时反馈,该对话模型能比较灵活地处理用户在对话过程中呈现的多模态信息。信息输出方面,针对人机对话中较为常用的数字虚拟人的行为控制,提出了一种简化的多模态协同置标语言,实现了虚拟人的包括情感、姿态与语音的同步表达,提高了虚拟人的表现力。最后基于以上关键技术,实现了一个面向城市路况信息查询的多模态自然人机对话系统。多个用户的体验表明,相对于传统的语音人机对话模型,多通道自然人机对话系统能有效提高用户交互的自然度。相似文献

3.

基于听说知识融合网络的多模态对话情绪识别

刘琴谢珺胡勇郝戍峰郝雅卉《控制与决策》2024,39(6):2031-2040

多模态对话情绪识别旨在根据多模态对话语境判别出目标话语所表达的情绪类别,是构建共情对话系统的基础任务.现有工作中大多数方法仅考虑多模态对话本身信息,忽略了对话中与倾听者和说话者相关的知识信息,从而限制了目标话语情绪特征的捕捉.为解决该问题,提出一种基于听说知识融合网络的多模态对话情绪识别模型(LSKFN),引入与倾听者和说话者相关的外部常识知识,实现多模态上下文信息和知识信息的有机融合.LSKFN包含多模态上下文感知、听说知识融合、情绪信息汇总和情绪决策4个阶段,分别用于提取多模态上下文特征、融入听说知识特征、消除冗余特征和预测情绪分布.在两个公开数据集上的实验结果表明,与其他基准模型相比,LSKFN能够为目标话语提取到更加丰富的情绪特征,并且获得较好的对话情绪识别效果. 相似文献

4.

面向学前教育对话机器人的多模态情感识别实现关键技术

许萌韩鹏《自动化与仪器仪表》2023,(9):137-141

为进一步提高学前教育对话机器人交互过程的准确性，结合多模态融合思想，提出一种基于面部表情情感和语音情感融合的识别技术。其中，为解决面部表情异常视频帧的问题，采用卷积神经网络对人脸进行检测，然后基于Gabor小波变换对人脸表情进行特征提取，最后通过残差网络对面部表情情感进行识别；为提高情感识别的准确性，协助学前教育机器人更好地理解儿童情感，在采用MFCC对连续语音特征进行提取后，通过残差网络对连续语音情感进行识别；利用多元线性回归算法对面部和语音情感识别结果进行融合。在AVEC2019数据集上的验证结果表明，表情情感识别和连续语音情感识别均具有较高识别精度；与传统的单一情感识别相比，多模态融合识别的一致性相关系数最高，达0.77。由此得出，将多模态情感识别的方法将有助于提高学前教育对话机器人交互过程中的情感识别水平，提高对话机器人的智能化。相似文献

5.

基于Android的多模态情感识别APP的设计与开发

张明嘉黄丁韫赵凯杨超宇蒋玉茹《现代计算机》2023,(5):99-103

在团队自建的中文多模态情感识别语料库的基础上，训练了多模态情感识别深度神经网络模型，能综合视频中图片、音频和文本三个模态信息进行情感识别。基于该情感识别模型，设计并开发了一款基于Android平台的移动应用程序，捕获视频中人物的话语文本、声音和面部表情，识别出人物的情感状态，以支撑后续共情聊天机器人的研发。相似文献

6.

基于对话结构的多轮对话生成模型

姜晓彤王中卿李寿山周国栋《软件学报》2022,33(11):4239-4250

目前,多轮对话生成研究大多使用基于RNN或Transformer的编码器-解码器架构.但这些序列模型都未能很好地考虑到对话结构对于下一轮对话生成的影响.针对此问题,在传统的编码器-解码器模型的基础上,使用图神经网络结构对对话结构信息进行建模,从而有效地刻画对话的上下文中的关联逻辑.针对对话设计了基于文本相似度的关联结构、基于话轮转换的关联结构和基于说话人的关联结构,利用图神经网络进行建模,从而实现对话上下文内的信息传递及迭代.基于DailyDialog数据集的实验结果表明,与其他基线模型相比,该模型在多个指标上有一定的提升.这说明使用图神经网络建立的模型能够有效地刻画对话中的多种关联结构,从而有利于神经网络生成高质量的对话回复. 相似文献

7.

基于视听觉感知系统的多模态情感识别

龙英潮丁美荣林桂锦刘鸿业曾碧卿《计算机系统应用》2021,30(12):218-225

情绪识别作为人机交互的热门领域,其技术已经被应用于医学、教育、安全驾驶、电子商务等领域.情绪主要由面部表情、声音、话语等进行表达,不同情绪表达时的面部肌肉、语气、语调等特征也不相同,使用单一模态特征确定的情绪的不准确性偏高,考虑到情绪表达主要通过视觉和听觉进行感知,本文提出了一种基于视听觉感知系统的多模态表情识别算法,分别从语音和图像模态出发,提取两种模态的情感特征,并设计多个分类器为单特征进行情绪分类实验,得到多个基于单特征的表情识别模型.在语音和图像的多模态实验中,提出了晚期融合策略进行特征融合,考虑到不同模型间的弱依赖性,采用加权投票法进行模型融合,得到基于多个单特征模型的融合表情识别模型.本文使用AFEW数据集进行实验,通过对比融合表情识别模型与单特征的表情识别模型的识别结果,验证了基于视听觉感知系统的多模态情感识别效果要优于基于单模态的识别效果. 相似文献

8.

基于HRED模型的中文多轮对话任务方法研究

王孟宇俞鼎耀严睿胡文鹏赵东岩《中文信息学报》1986,34(8):78-85

多轮对话任务是自然语言处理中最具有实用价值的技术之一,该任务要求系统在产生通顺回答语句的同时能够照顾到上下文信息。近年来,出现了一大批以HRED(hierarchical recurrent encoder-decoder)模型为基础的多轮对话模型,其运用多层级的循环神经网络来编码上下文信息,并在Movie-DiC等英文对话数据集上取得了不错的结果。在2018年京东举办的中文多轮对话大赛中,京东向参赛选手公布了一批高质量的真实客服对话语料。该文在此数据上进行实验,针对HRED模型的缺点以及在中文语料下的表现进行改进,提出基于注意力和跨步融合机制与HRED模型结合的方案,实验结果表明,该方案取得了较大的性能提升。相似文献

9.

多模态的情感分析技术综述

刘继明张培翔刘颖张伟东房杰《计算机科学与探索》2021,15(7):1165-1182

情感分析是指利用计算机自动分析确定人们所要表达的情感,其在人机交互和刑侦破案等领域都能发挥重大作用.深度学习和传统特征提取算法的进步为利用多种模态进行情感分析提供了条件.结合多种模态进行情感分析可以弥补单模态情感分析的不稳定性以及局限性等缺点,能够有效提高准确度.近年来,研究者多用面部表情信息、文本信息以及语音信息三种模态进行情感分析.主要从这三种模态对多模态情感分析技术进行综述:首先对多模态情感分析的基本概念以及研究现状进行简要介绍;其次总结了常用的多模态情感分析数据集;然后分别对现有的基于面部表情信息、文本信息和语音信息的单模态情感分析技术进行简要叙述;接下来详细介绍了模态融合技术,并依据不同的模态融合方式对多模态情感分析技术的现有成果进行重点描述;最后讨论了多模态情感分析存在的问题以及未来的发展方向. 相似文献

10.

基于一致性图卷积模型的多模态对话情绪识别

谭晓聪郭军军线岩团相艳《计算机应用研究》2023,40(10):3100-3106

多模态对话情绪识别是一项根据对话中话语的文本、语音、图像模态预测其情绪类别的任务。针对现有研究主要关注话语上下文的多模态特征提取和融合,而没有充分考虑每个说话人情绪特征利用的问题,提出一种基于一致性图卷积网络的多模态对话情绪识别模型。该模型首先构建了多模态特征学习和融合的图卷积网络,获得每条话语的上下文特征;在此基础上,以说话人在完整对话中的平均特征为一致性约束,使模型学习到更合理的话语特征,从而提高预测情绪类别的性能。在两个基准数据集IEMOCAP和MELD上与其他基线模型进行了比较,结果表明所提模型优于其他模型。此外,还通过消融实验验证了一致性约束和模型其他组成部分的有效性。相似文献

11.

SPDR: 基于片段预测的多轮对话改写

朱帅陈建文朱明《中文信息学报》2022,36(9):159-168

对话系统对上文信息使用不充分是当前制约多轮对话效果的主要因素,基于上文信息对用户当前输入进行改写是该问题的一种重要解决方法。改写任务的核心在于指代消解(pronoun resolution)和省略补全(ellipsisrecovery)。该文提出了一种基于BERT的指针网络(Span Prediction for Dialogue Rewrite,SPDR),该模型会预测用户当前轮次输入语句中所有token前面需要填充的内容,在上文中对应的片段(span)起始和结束的位置,来实现多轮对话改写;该文还提出了一种新的衡量改写结果的评价指标sEMr。相较于基于指针生成网络的模型,该模型在不损失效果的前提下推理速度提升接近100%,基于RoBERTa-wwm的SPDR模型在5项指标上均有明显提升。相似文献

12.

基于时序感知DAG的多模态对话情绪识别模型

沈旭东黄贤英邹世豪《计算机应用研究》2024,41(1)

针对现有对话情绪识别方法中对时序信息、话语者信息、多模态信息利用不充分的问题,提出了一个时序信息感知的多模态有向无环图模型（MTDAG）。其中所设计的时序感知单元能按照时间顺序优化话语权重设置,并收集历史情绪线索,实现基于近因效应下对时序信息和历史信息更有效的利用;设计的上下文和话语者信息融合模块,通过提取上下文语境和话语者自语境的深度联合信息实现对话语者信息的充分利用;通过设置DAG（directed acyclic graph）子图捕获多模态信息并约束交互方向的方式,在减少噪声引入的基础上充分利用多模态信息。在两个基准数据集IEMOCAP和MELD的大量实验表明该模型具有较好的情绪识别效果。相似文献

13.

基于知识增强的开放域多轮对话模型

徐凡徐健明马勇王明文周国栋《软件学报》2024,35(2):758-772

如何减轻安全回复和重复回复一直是开放域多轮对话模型的两大挑战性难题.然而,现有开放域对话模型往往忽略了对话目标的引导性作用,以及如何在对话历史和对话目标中引入和选择更精确的知识信息.鉴于此,提出基于知识增强的多轮对话模型.所提模型首先将对话历史中实词进行义原及领域词替换,达到消除歧义和丰富对话文本表示的效果.然后将经过知识增强后的对话历史、扩充的三元组世界知识、知识管理和知识拷贝加以集成,以融合知识、词汇、对话历史和对话目标多种信息,生成多样性回复.通过两个国际基准开放域汉语对话语料库上的实验结果及可视化验证所提模型同时在自动评测和人工评测上的有效性. 相似文献

14.

SCT-CVAE: 基于分离Context机制与CVAE的Transformer对话模型

苑浩王泳《中文信息学报》2021,35(9):123-131

现有多轮对话生成的Encoder-Decoder模型容易产生单一的响应,虽然使用条件自动编码器(CVAE)可以有效改善响应的多样性问题,但是基于CVAE的模型大多不能够捕捉上下文中较长的依赖。同时,现有的模型也无法显式处理上下文话语和源语句之间的差异。该文将Transformer与CVAE结合,通过Transformer捕捉对话中的长依赖,使潜在变量可以学习到更丰富的对话分布。通过分离上下文语句的编码实现上下文的信息流向源语句,并使用门控机制来控制上下文话语和源语句的信息融合,捕捉对话中对响应影响更大的信息。实验表明,该模型产生的响应多样性更高,质量更好。相似文献

15.

使用共指消解增强多轮任务型对话生成

张诗安熊德意《中文信息学报》2022,36(9):149-158

指代是一种重要的语言现象,运用指代可以避免复杂的词语在句子中重复出现,使语句简洁连贯。在多轮口语对话中,使用代词指代实体可以提高沟通的效率,然而,对话中频繁出现的代词给计算机语言理解增加了难度,进而影响了机器生成回复的质量。该文提出通过消解代词提高对话生成质量,先通过端到端的共指消解模型识别出多轮对话中蕴含的表述同一实体的所有代词和名词短语,即指代簇(coreference clusters);然后使用两种不同的方法,利用指代簇信息增强对话模型: ①使用指代簇信息恢复问句的完整语义,以降低机器语言理解的难度; ②使用图卷积神经网络将指代簇信息编码融入对话生成模型,以提高机器理解对话的能力。该文所提的两个方法在RiSAWOZ公开数据集上进行了验证,实验结果表明,两个方法均可以显著提升对话生成的性能。相似文献

16.

A Statistical Dialogue Analysis Model Based on Speech Acts for Dialogue Machine Translation

Jae-Won Lee Jungyun Seo Gil Chang Kim 《Machine Translation》1998,13(4):269-286

In some cases, to make a proper translation of an utterance in a dialogue, different pieces of contextual information are needed. Interpreting such utterances often requires dialogue analysis including speech acts and discourse analysis. In this paper, a statistical dialogue analysis model for Korean–English dialogue machine translation based on speech acts is proposed. The model uses syntactic patterns and n-grams of speech acts. The syntactic patterns include surface syntactic features which are related to the language-dependent expressions of speech acts. Speech-act n-grams are used to approximate the context of utterances. The key feature is the use of speech-act n-grams based on hierarchical recency. Experimental results with trigrams show that the proposed model achieves an accuracy of 66.87% for the top candidate and 82.35% for the top three candidates. It indicates that the proposed model based on hierarchical recency outperforms the model based on linear recency. 相似文献