首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
提出了一种由语音和文本共同驱动的卡通人脸动画方法.建立了卡通人脸音节-视位参数库,并对音节-视位参数进行非监督聚类分析,获得32个人脸视位基本类型,基于文本信息进行音节切分,获得准确的时长参数.结合视位的基本类型和语音时长参数,可以对输入的语音/文本进行连续动画拼接.对从影视作品中收集的100条具有娱乐效果的语音/文本进行的实验表明,本文提出的方法可以克服单独的语音驱动或文本驱动的不足,取得较好的卡通人脸动画效果.  相似文献   

2.
随着三维数字虚拟人的发展, 语音驱动三维人脸动画技术已经成为虚拟人交互的重要研究热点之一. 其关键技术在于语音-视觉映射模型的建立以及三维人脸动画的合成. 首先分析了音-视素匹配法和音-视觉参数映射两类方法的特点; 之后阐述了目前三维人脸模型的建立方法, 并依据三维人脸模型的表示方法不同, 分析了不同运动控制方法的优缺点; 然后阐述了语音驱动三维人脸动画的主观评价和客观评价方法; 最后总结了语音驱动三维人脸动画技术的未来发展方向.  相似文献   

3.
针对现有语音生成说话人脸视频方法忽略说话人头部运动的问题,提出基于关键点表示的语音驱动说话人脸视频生成方法.分别利用人脸的面部轮廓关键点和唇部关键点表示说话人的头部运动信息和唇部运动信息,通过并行多分支网络将输入语音转换到人脸关键点,通过连续的唇部关键点和头部关键点序列及模板图像最终生成面部人脸视频.定量和定性实验表明,文中方法能合成清晰、自然、带有头部动作的说话人脸视频,性能指标较优.  相似文献   

4.
陈莉明  田茂  颜佳 《计算机应用研究》2021,38(11):3500-3505
跨年龄人脸识别因其在现实生活中的广泛应用而成为人脸识别领域的热门话题.针对跨年龄人脸识别精度较低的问题,引入解纠缠表示学习,提出了一个基于生成对抗网络的解纠缠表示学习(IPDRL)网络来实现人脸图像的识别.该网络由编码器、生成器和鉴别器构成.编码器在对特征中的年龄变化进行解纠缠的同时,对人脸图像的身份信息进行编码,提取只利于身份鉴别的特征,实现身份特征和年龄特征的解纠缠;生成器根据输入的年龄特征生成对应的身份保持的年龄图像;鉴别器通过对抗学习和多任务学习实现年龄和身份的类分布预测.通过将解纠缠表示学习、对抗学习和多任务学习相结合的方法,很好地保留了人脸图像的身份信息,并使跨年龄人脸图像识别的精度得到了提高.  相似文献   

5.
针对物联网环境下数据量大且人脸表情识别率低的问题,提出基于边缘云框架的高效安全人脸表情识别方法.物联网设备通过多秘密共享技术获取用户信息,并分发到不同的边缘云.边缘云利用语谱图和局部二值模式的方法提取语音特征,采用差值中心对称局部二值模式获得图像特征,将特征送至核心云.基于栈式稀疏去噪自编码器融合语音和图像特征,实现人脸表情的识别,并在RML和eNTERFACE'05数据库上进行实验.实验结果表明,该方法的识别准确率明显高于对比方法,抵御网络攻击的能力较强.  相似文献   

6.
基于视听信息的自动年龄估计方法   总被引:1,自引:0,他引:1  
方尔庆  耿新 《软件学报》2011,22(7):1503-1523
年龄是人的重要属性.近年来,自动估计用户年龄逐渐成为一个涉及模式识别、计算机视觉、语音识别、人机交互、机器学习等领域的活跃课题.其在现实世界中也有很多的实际应用,如法医学、电子商务、安全控制等等.日常生活中,人们往往可以很容易地根据视听信息(这里主要指人脸和语音)来判断一个人的年龄,原因在于人脸和语音是人的年龄信息的重要载体.同样的,人机交互系统可以根据人脸图像以及语音来自动进行年龄估计.主要介绍了基于视听信息进行年龄估计的应用领域所遇到的挑战以及现有的解决方案.详细介绍了基于视听信息的年龄估计所用到的主要模型、算法及其性能与特点,并且分析了自动年龄估计未来可能的发展趋势.  相似文献   

7.
跨年龄人脸合成是指通过已知特定年龄的人脸图像合成其他年龄段的人脸图像,在动漫娱乐、公共安全、刑事侦查等领域有广泛的应用。针对跨年龄人脸合成图像容易产生器官变形扭曲、人脸局部特征保持效果不佳等问题,提出一种基于条件对抗自动编码器的合成方法。通过在解码器结构中引入通道关注和空间关注模块,分别从通道域和空间域提取重要信息,使模型在训练过程中忽略背景等无关信息,聚焦人脸图像变化的区域,有效解决合成图像器官扭曲变形等问题。此外,设计一种多尺度特征损失网络,从多个尺度更深层次地约束人脸图像的局部结构特征,从而保持人脸合成过程中局部特征结构的稳定性。在UTKFace跨年龄人脸数据集上的实验结果表明,与CAAE方法相比,该方法有效避免了人脸器官变形扭曲问题,能够更好地保持人脸局部结构特征,具有较佳的人脸合成效果和细节保持能力。  相似文献   

8.
基于机器学习的语音驱动人脸动画方法   总被引:19,自引:0,他引:19  
语音与唇动面部表情的同步是人脸动画的难点之一.综合利用聚类和机器学习的方法学习语音信号和唇动面部表情之间的同步关系,并应用于基于MEPG-4标准的语音驱动人脸动画系统中.在大规模音视频同步数据库的基础上,利用无监督聚类发现了能有效表征人脸运动的基本模式,采用神经网络学习训练,实现了从含韵律的语音特征到人脸运动基本模式的直接映射,不仅回避了语音识别鲁棒性不高的缺陷,同时学习的结果还可以直接驱动人脸网格.最后给出对语音驱动人脸动画系统定量和定性的两种分析评价方法.实验结果表明,基于机器学习的语音驱动人脸动画不仅能有效地解决语音视频同步的难题,增强动画的真实感和逼真性,同时基于MPEG-4的学习结果独立于人脸模型,还可用来驱动各种不同的人脸模型,包括真实视频、2D卡通人物以及3维虚拟人脸.  相似文献   

9.
在改进噪音环境下的语音识别率中,来自于说话人嘴部的可视化语音信息有着显著的作用.介绍了在视听语音识别(AVSR)中的重要组成部分之一:可视化信息的前端设计;描述了一种用于快速处理图像并能达到较高识别率的人脸嘴部检测的机器学习方法,此方法引入了旋转Harr-like特征在积分图像中的应用,在基于AdaBoost学习算法上通过使用单值分类作为基础特征分类器,以级联的方式合并强分类器,最后划分检测区域用于嘴部定位.将上述方法应用于AVSR系统中,基本上达到了对人脸嘴部实时准确的检测效果.  相似文献   

10.
为解决传统人脸属性分类训练效率低、模型参数量巨大等问题,本文提出了一种多网络学习框架.该框架包含两个子网络:人脸区域定位网络和属性分类网络,从而实现动态选择不同的人脸区域进行人脸属性预测.此外,本文提出了基于提示的模型压缩技术,在不明显降低准确率的前提下大大压缩网络参数.最后,通过仿真在CelebA人脸属性分类数据集上...  相似文献   

11.
随着不同模态的数据在互联网中的飞速增长,跨模态检索逐渐成为了当今的一个热点研究问题。哈希检索因其快速、有效的特点,成为了大规模数据跨模态检索的主要方法之一。在众多图像-文本的深度跨模态检索算法中,设计的准则多为尽量使得图像的深度特征与对应文本的深度特征相似。但是此类方法将图像中的背景信息融入到特征学习中,降低了检索性能。为了解决此问题,提出了一种基于对象特征的深度哈希(OFBDH)跨模态检索方法。此方法从特征映射中学习到优化的、有判别力的极大激活特征作为对象特征,并将其融入到图像与文本的跨模态网络学习中。实验结果表明,OFBDH能够在MIRFLICKR-25K、IAPR TC-12和NUS-WIDE三个数据集上获得良好的跨模态检索结果。  相似文献   

12.
针对现有跨模态检索方法不能充分挖掘模态之间的相似性信息的问题,提出一种基于语义融合和多重相似性学习(CFMSL)方法。首先,在特征提取过程中融合不同模态的语义信息,加强不同模态特征间的交互,使得模型能够充分挖掘模态间的关联信息。然后,利用生成器将单模态特征和融合模态特征映射到公共子空间中,通过最大化锚点与正例样本之间的相似性和最小化锚点与负例样本间的相似性得到具有判别性的特征进行模态对齐。最后,基于决策融合方式对相似性列表进行重排序,使得最终排序结果同时考虑单模态特征和融合模态特征,提高检索性能。通过在Pascal Sentences、Wikipedia、NUS-WIDE-10K这3个广泛使用的图文数据集上进行实验,实验结果表明CFMSL模型能够有效提高跨模态检索任务的性能。  相似文献   

13.
Wu  Xing  Ji  Sihui  Wang  Jianjia  Guo  Yike 《Applied Intelligence》2022,52(13):14839-14852

Human beings are capable of imagining a person’s voice according to his or her appearance because different people have different voice characteristics. Although researchers have made great progress in single-view speech synthesis, there are few studies on multi-view speech synthesis, especially the speech synthesis using face images. On the basis of implicit relationship between the speaker’s face image and his or her voice, we propose a multi-view speech synthesis method called SSFE (Speech Synthesis with Face Embeddings). The proposed SSFE consists of three parts: a voice encoder, a face encoder and an improved multi-speaker text-to-speech (TTS) engine. On the one hand, the proposed voice encoder generates the voice embeddings from the speaker’s speech and the proposed face encoder extracts the voice features from the speaker’s face as f-voice embeddings. On the other hand, the multi-speaker TTS engine would synthesize the speech with voice embeddings and f-voice embeddings. We have conducted extensive experiments to evaluate the proposed SSFE on the synthesized speech quality and face-voice matching degree, in which the Mean Opinion Score of the SSFE is more than 3.7 and the matching degree is about 1.7. The experimental results prove that the proposed SSFE method outperforms state-of-the-art methods on the synthesized speech in terms of speech quality and face-voice matching degree.

  相似文献   

14.
Cross-domain visual matching aims at finding visually similar images across a wide range of visual domains, and has shown a practical impact on a number of applications. Unfortunately, the state-of-the-art approach, which estimates the relative importance of the single feature dimensions still suffers from low matching accuracy and high time cost. To this end, this paper proposes a novel cross-domain visual matching framework leveraging multiple feature representations. To integrate the discriminative power of multiple features, we develop a data-driven, query specific feature fusion model, which estimates the relative importance of the individual feature dimensions as well as the weight vector among multiple features simultaneously. Moreover, to alleviate the computational burden of an exhaustive subimage search, we design a speedup scheme, which employs hyperplane hashing for rapidly collecting the hard-negatives. Extensive experiments carried out on various matching tasks demonstrate that the proposed approach outperforms the state-of-the-art in both accuracy and efficiency.  相似文献   

15.
Kang  Peipei  Lin  Zehang  Yang  Zhenguo  Fang  Xiaozhao  Bronstein  Alexander M.  Li  Qing  Liu  Wenyin 《Applied Intelligence》2022,52(1):33-54

Cross-modal retrieval aims to retrieve related items across different modalities, for example, using an image query to retrieve related text. The existing deep methods ignore both the intra-modal and inter-modal intra-class low-rank structures when fusing various modalities, which decreases the retrieval performance. In this paper, two deep models (denoted as ILCMR and Semi-ILCMR) based on intra-class low-rank regularization are proposed for supervised and semi-supervised cross-modal retrieval, respectively. Specifically, ILCMR integrates the image network and text network into a unified framework to learn a common feature space by imposing three regularization terms to fuse the cross-modal data. First, to align them in the label space, we utilize semantic consistency regularization to convert the data representations to probability distributions over the classes. Second, we introduce an intra-modal low-rank regularization, which encourages the intra-class samples that originate from the same space to be more relevant in the common feature space. Third, an inter-modal low-rank regularization is applied to reduce the cross-modal discrepancy. To enable the low-rank regularization to be optimized using automatic gradients during network back-propagation, we propose the rank-r approximation and specify the explicit gradients for theoretical completeness. In addition to the three regularization terms that rely on label information incorporated by ILCMR, we propose Semi-ILCMR in the semi-supervised regime, which introduces a low-rank constraint before projecting the general representations into the common feature space. Extensive experiments on four public cross-modal datasets demonstrate the superiority of ILCMR and Semi-ILCMR over other state-of-the-art methods.

  相似文献   

16.
多媒体数据持续呈现爆发式增长并显现出异源异构的特性,因此跨模态学习领域研究逐渐引起学术和工业界的关注。跨模态表征与生成是跨模态学习的两大核心基础问题。跨模态表征旨在利用多种模态之间的互补性剔除模态之间的冗余,从而获得更为有效的特征表示;跨模态生成则是基于模态之间的语义一致性,实现不同模态数据形式上的相互转换,有助于提高不同模态间的迁移能力。本文系统地分析了国际与国内近年来跨模态表征与生成领域的重要研究进展,包括传统跨模态表征学习、多模态大模型表示学习、图像到文本的跨模态转换和跨模态图像生成。其中,传统跨模态表征学习探讨了跨模态统一表征和跨模态协同表征,多模态大模型表示学习探讨了基于Transformer的模型研究,图像到文本的跨模态转换探讨了图像视频的语义描述、视频字幕语义分析和视觉问答等领域的发展,跨模态图像生成从不同模态信息的跨模态联合表示方法、图像的跨模态生成技术和基于预训练的特定域图像生成阐述了跨模态生成方面的进展。本文详细综述了上述各个子领域研究的挑战性,对比了国内外研究方面的进展情况,梳理了发展脉络和学术研究的前沿动态。最后,根据上述分析展望了跨模态表征与生成的发展趋势和突破口。  相似文献   

17.
目的 隐蔽通信是信息安全领域的一个重要研究方向,现有基于多媒体数据流构建隐蔽信道的方法,未考虑网络传输时波动产生的数据包丢失问题。本文提出一种基于跨数据模态信息检索技术的对网络异常具有鲁棒性的隐蔽通信方法,同时可以满足高隐蔽性和高安全性的要求。方法 提出了一个名为RoCC(robust covert communication)的通用隐蔽通信框架,它基于跨模态信息检索和可证明安全的隐写技术。所提方法将直接通信和间接通信两种形式相结合。直接通信通过VoIP(voice over internet protocol)网络通话服务进行,传递实时生成的音频流数据,接收方可以通过语音识别将其还原为文本;而间接通信则借助公共网络数据库进行载密数据的传输,接收方通过文本语义相似度匹配的方式来还原完整语义的载密文本数据,这有助于解决网络数据包丢失和语音识别误差导致的文本语义丢失的问题。结果 经实验测试,本文方法在协议上具有更好的通用性,相对Saenger方法在丢包率抵抗能力方面提高了5%,所用隐写算法满足可证安全性。同时,RoCC的数据传输率有73~136 bps(bit per second),能够满足实时通信需要。结论 RoCC隐蔽通信框架综合可证明安全隐写、生成式机器学习方法和跨模态检索方法的优势,与现有的方法比较,具有更加隐蔽和安全的优势,并且是当前对数据传输丢包异常最鲁棒的模型。  相似文献   

18.
李大伟  曾智勇 《计算机应用》2022,42(10):3200-3208
针对跨模态行人重识别图像间模态差异大的问题,大多数现有方法采用像素对齐、特征对齐来实现图像间的匹配。为进一步提高两种模态图像间的匹配的精度,设计了一个基于动态双注意力机制的多输入双流网络模型。首先,在每个批次的训练中通过增加同一行人在不同相机下的图片,让神经网络在有限的样本中学习到充分的特征信息;其次,利用齐次增强得到灰度图像作为中间桥梁,在保留了可见光图像结构信息的同时消除了颜色信息,而灰度图像的运用弱化了网络对颜色信息的依赖,从而加强了网络模型挖掘结构信息的能力;最后,提出了适用于3个模态间图像的加权六向三元组排序(WSDR)损失,所提损失充分利用了不同视角下的跨模态三元组关系,优化了多个模态特征间的相对距离,并提高了对模态变化的鲁棒性。实验结果表明,在SYSU-MM01数据集上,与动态双注意聚合(DDAG)学习模型相比,所提模型在评价指标Rank-1和平均精确率均值(mAP)上分别提升了4.66和3.41个百分点。  相似文献   

19.
近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,本文提出了一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN),该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,本文提出了一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出了一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法.  相似文献   

20.
目的 遥感图像配准是对多组图像进行匹配和叠加的过程。该技术在地物检测、航空图像分类和卫星图像融合等方面发挥着重要作用,主要有传统方法和基于深度学习的方法。其中,传统遥感图像配准算法在进行配准时会耗费大量人力,并且运行时间过长。而基于深度学习的遥感图像配准算法虽然减少了人工成本,提高了模型自适应学习的能力,但是算法的配准精度和运行时间仍有待提高。针对基于深度学习的配准算法存在的问题,本文提出了参数合成的空间变换网络对遥感图像进行双向一致性配准。方法 通过增加空间变换网络的深度、合成网络内部的参数对空间变换模型进行改进,并将改进后的模型作为特征提取部分的骨干网络,有效地提高网络的鲁棒性。同时,将单向配准方法改为双向配准方法,进行双向的特征匹配和特征回归,保证配准方向的一致性。然后将回归得到的双向参数加权合成,提高模型的可靠性和准确性。结果 将本文实验结果与两种经典的传统方法SIFT(scale-invariant feature transform)、SURF(speeded up robust features)对比,同时与近3年提出的CNNGeo(convolutional neural network architecture for geometric matching)、CNN-Registration(multi-temporal remote sensing image registration)和RMNet(robust matching network)3种最新的方法对比,配准结果表明本文方法不仅在定性的视觉效果上较为优异,而且在定量的评估指标上也有不错的效果。在Aerial Image Dataset数据集上,本文使用"关键点正确评估比例"与以上5种方法对比,精度分别提高了36.2%、75.9%、53.6%、29.9%和1.7%;配准时间分别降低了9.24 s、7.16 s、48.29 s、1.06 s和4.06 s。结论 本文所提出的配准方法适用于时间差异变化(多时相)、视角差异(多视角)与拍摄传感器不同(多模态)的3种类型的遥感图像配准应用。在这3种类型的配准应用下,本文算法具有较高的配准精度和配准效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号