首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 486 毫秒
1.
方言语音的转换对于实现个性化的汉语语音合成系统具有重要的意义。为了实现普通话到兰州方言的转换,论文利用《方言调查字表》建立了兰州方言的文本语料库,录制了普通话和兰州方言平行的语音语料库。利用五度字调模型建立了普通话和兰州方言的基频模型,利用统计方法建立了时长转换模型和停顿时长转换模型。在转换时,通过利用STRAIGHT算法修改普通话语音实现普通话到兰州方言的转换。对转换结果的MOS评测表明,转换后的单字平均MOS得分4.17,双字平均MOS得分为4.22,语句的平均MOS得分为3.55。  相似文献   

2.
吴磊  孙悦 《包装工程》2021,42(6):53-61
目的 为探索老龄智能陪伴机器人的表情设计特征,依据FACES国际表情数据库等,提取7种基本面部表情类型,得到老龄智能陪伴机器人表情样本21个.方法 首先,基于PAD情感模型,对老龄智能陪伴机器人表情样本进行实验评估.实验自变量为老龄智能陪伴机器人的表情风格和被试年龄,实验因变量为表情设计的识别率、满意度和PAD量表得分.然后,通过数据统计分析,得出老龄智能陪伴机器人的表情风格、被试年龄与PAD量表得分之间的影响机制,进而得到影响老年人对智能陪伴机器人表情交互的接受度和情感反应规律.最后,通过实际设计案例验证研究方法的可行性.结论 通过PAD情感模型测量数据统计分析,得到老龄智能陪伴机器人的表情交互设计特征和规律,为老龄智能陪伴机器人表情交互设计领域提供相关理论支持.  相似文献   

3.
目的 Facereader是由荷兰Noldus公司开发,一种能自动分析人脸表情的软件系统。该系统对于西方人脸表情的识别有效性在国外已经进行了验证,可达89%。本研究的主要目的是评估Facerader在判断中国人脸表情图片时的有效性。方法对人为表情图片,先进行标准化筛选(由评估者对图片进行两轮评估),再比较了Facereader与评估者在各表情类型的识别率和识别强度;对自发表情图片,比较了Facereader与标准图片在各表情类型的识别率和识别强度。结果在识别率方面,Facereader对人为表情图片识别率达71%,对自发表情图片识别率为42.5%,不同成分的表情识别率存在差异;在识别强度方面,Facereader与评估者(或标准强度)对各成分表情表现出一致的趋势。结论 Facereader对中国人脸图片的识别有效性尚可,但还有待进一步提高。  相似文献   

4.
针对复杂场景下手势分割准确性低,手势细粒度特征描述不充分和手势识别实时性差的问题,提出融合批量再标准化和YOLOv3的手势识别算法。首先,在复杂背景及不同光照条件下采集20种手势,运用数据增广策略进行样本扩充并建立标准手势库;然后通过K均值维度聚类获取训练集手势锚点框,负责对不同尺度手势进行检测;最后利用迁移学习和微调方法训练得到手势识别模型。为解决YOLOv3网络在手势训练阶段和预测阶段进行规范化处理时数据间可能存在较大偏差问题,采用批量再标准化方法提高手势识别准确性。手势识别过程具有快速、准确、非接触的优势,实验表明在正常实验环境下,手势平均识别率为97.6%,对于复杂背景下干扰较大的手势平均识别率达到89.2%以上,单次手势识别速度为0.04s。  相似文献   

5.
人脸表情识别是目前数字图像处理领域比较活跃的研究课题。本文提出一种采用遗传算法进化的支持向量机对人脸表情进行分类的新型算法。先提取静态人脸表情特征,然后采用遗传算法自动选择最优的支持向量机核函数,最后采用这种新型分类器进行了人脸表情的分类和识别。在Yale人脸表情库上进行了测试人不参与训练的仿真实验,并与最近邻分类器进行比较,提出的方法取得了更好的识别结果。  相似文献   

6.
希尔伯特边际谱在语音情感识别中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
谢珊  曾以成  蒋阳波 《声学技术》2009,28(2):148-152
利用希尔伯特.黄变换(Hilbert-Huang Transform,HHT)对情感语音进行处理,得到其边际谱,然后对比分析四种情感即高兴、生气、厌恶、无情感语音信号边际谱的特征,提出四个特征量:子带能量(SE)、子带能量的一阶差分(DSE)、子带能量倒谱系数(SECC)、子带能量倒谱系数的一阶差分(DSECC)用于情感识别。用它们作说话人无关,文本无关的语音情感识别,得到最高90%的识别率,比基于傅立叶变换的梅尔频率倒谱系数(MFCC)高22个百分点。实验结果表明,基于HHT边际谱的特征能够较好地反映语音信号中的情感信息。  相似文献   

7.
陈颖  肖仲喆 《声学技术》2018,37(4):380-387
建立了一个将离散情感标签与维度情感空间结合起来的汉语情感语音数据库。该数据库由16名母语为汉语的说话人对情感语音进行表演型录制。语音样本是根据中性、愉悦、高兴、沮丧、愤怒、哀伤,以及悲伤等七种离散的情感标签采集而得,每名说话人有336条语音样本。随后由三名标注人在维度空间上对每条语音样本进行标注。最后,根据标注所得的数据来研究这七种情感在维度空间的分布情况,并分析了情感在一致性、集中性和差异性方面的性能。除此以外,还计算了这七种情感的情感识别率。结果显示,三名标注人对该数据库标注的一致性都达到了80%以上,情感之间的可区分度较高,并且七种情感的情感识别率均高于基线水平。因此,该数据库具有较好的情感质量,能够为离散情感标签到维度情感空间的转化提供重要的研究依据。  相似文献   

8.
针对静态人脸表情识别方法的不足,提出了一种改进的基于运动特征的动态人脸表情识别方法.以表情视频序列为研究对象,提出了基于相位形式表示脸部运动特征,处理这些运动特征并组成时序特征序列,最后将其输入到改进的高斯混合隐马尔可夫模型进行训练和测试,分析识别6种基本的面部表情.基于改进的算法,实现了一个动态面部表情识别实验系统,实验结果表明该方法简化了计算,减少了矢量量化误差.  相似文献   

9.
将人脸表情变化作为一种生物识别特征用于身份识别.首次在三维人脸数据上进行了表情变化的身份信息提取,提出了将表情运动方向和运动距离两种新的特征用于身份识别.针对人类普遍存在的六种表情,采用三种不同的特征,以及五种不同的融合策略进行身份识别.在BU-3 DFE数据库上进行了系统的实验,分析比较了不同表情、不同特征以及不同的融合策略的识别性能.实验结果表明将表情变化作为一种生物识别特征是可接受的,并可作为其他生物识别特征的一种有益补充.  相似文献   

10.
支持向量机应用于语音情感识别的研究   总被引:3,自引:0,他引:3  
为了有效识别包含在语音信号中情感信息的类型,提出一种将支持向量机应用于语音情感识别的新方法。利用支持向量机把提取的韵律情感特征数据映射到高维空间,从而构建最优分类超平面实现对汉语普通话中生气、高兴、悲伤、惊奇4种主要情感类型的识别。计算机仿真实验结果表明,与已有的多种语音情感识别方法相比,支持向量机对情感识别取得的识别效果优于其他方法。  相似文献   

11.
黄程韦  金赟  赵艳  于寅骅  赵力 《声学技术》2010,29(4):396-399
针对实用语音情感研究的需要,设计并且建立了诱发语音情感数据库。根据刺激评估表,设计了一种基于计算机游戏的情感诱发方式,首次针对汉语音的实用语音情感进行了情感数据的采集和情感语音库的建立。对烦躁、紧张和喜悦等三种具有实际应用意义的语音情感进行了有效的诱发,录制了情感语音数据,并进行了数据的检验与听辩测试。结果显示,采用计算机游戏诱发情感的方法能够有效地采集自然度较高的实用语音情感数据,为实用语音情感的特征分析与识别提供了必要的研究基础。  相似文献   

12.
研究了基于自主研发的手部康复训练系统的康复手势识别方法。针对现有手势识别算法识别手势过于单一、不具备针对性的问题,通过对手部功能障碍患者的手部运动及控制力的分析,提出了一种新的基于虚拟试验箱的康复手势识别算法。该算法的核心是利用摄像头捕捉不同的康复手势,并通过辅助训练标志板来实现手和辅助康复器械定位。基于改进的形状上下文识别算法的处理器实现了康复手势识别功能,并进一步控制虚拟场景中的物体做出相应的反应。该算法可以完成推、拉、悬垂、托举、二指捏等典型康复手势的准确识别,并与现有的手势识别算法进行了准确的对比。实验结果表明,该算法在识别率上有一定的提高,并且在识别的手势上更具有针对性。  相似文献   

13.
Recognition of dynamic hand gestures in real-time is a difficult task because the system can never know when or from where the gesture starts and ends in a video stream. Many researchers have been working on vision-based gesture recognition due to its various applications. This paper proposes a deep learning architecture based on the combination of a 3D Convolutional Neural Network (3D-CNN) and a Long Short-Term Memory (LSTM) network. The proposed architecture extracts spatial-temporal information from video sequences input while avoiding extensive computation. The 3D-CNN is used for the extraction of spectral and spatial features which are then given to the LSTM network through which classification is carried out. The proposed model is a light-weight architecture with only 3.7 million training parameters. The model has been evaluated on 15 classes from the 20BN-jester dataset available publicly. The model was trained on 2000 video-clips per class which were separated into 80% training and 20% validation sets. An accuracy of 99% and 97% was achieved on training and testing data, respectively. We further show that the combination of 3D-CNN with LSTM gives superior results as compared to MobileNetv2 + LSTM.  相似文献   

14.
By recognizing sensory information, through touch, vision, or voice sensory modalities, a robot can interact with people in a more intelligent manner. In human–robot interaction (HRI), emotion recognition has been a popular research topic in recent years. This paper proposes a method for emotion recognition, using a speech signal to recognize several basic human emotional states, for application in an entertainment robot. The proposed method uses voice signal processing and classification. Firstly, end-point detection and frame setting are accomplished in the pre-processing stage. Then, the statistical features of the energy contour are computed. Fisher’s linear discriminant analysis (FLDA) is used to enhance the recognition rate. In the final stage, a support vector machine (SVM) is used to complete the emotional state classification. In order to determine the effectiveness of emotional HRI, an embedded system was constructed and integrated with a self-built entertainment robot. The experimental results for the entertainment robot show that the robot interacts with a person in a responsive manner. The average recognition rate for five emotional states is 73.8% using the database constructed in the authors’ lab.  相似文献   

15.
简述线性预测倒谱系数(LPCC)、Teager能量算子(TEO)、梅尔频率倒谱系数(MFCC)和过零峰值幅度(ZCPA)特征提取方法,并将这四种方法应用于情感识别。设计两种实验,第一种是使用TYUT和Berlin语料库的单语言实验,这种实验证明,以上四种特征在单一的语料库单一语言条件下均能够有效地表征语音的情感特征,其中MFCC特征对情感的识别率最高。第二种实验是混合语料库的单一语言实验。之前大多数关于情感特征的研究都是基于某一种语料库中某种特定语言的,但在实际中,说话人的背景环境总是多种多样。因此,对特征的混合语料库研究是有现实意义的。第二种实验证明这四种特征都是语料库依赖性的,其中 ZCPA特征的识别率下降最少。  相似文献   

16.
金赟  赵艳  黄程韦  赵力 《声学技术》2010,29(1):63-68
为了研究耳语音情感识别,制定了耳语音情感数据库的制作流程和制作规范,设计并建立了一个包含4000个单词、5000条语句和600个段落的耳语音情感数据库。利用模糊数学中的隶属度函数和层次分析法对语句的有效性进行了检验,得到一个满足研究要求的耳语音情感数据库。利用库中的语料进行初步的耳语音情感识别,得知正常音语音情感识别所用的音长、能量等参数,在耳语音中仍然可以使用;而正常音的其它涉及基音的一些参数,不适用于耳语音,需要进行改进或者提取新的特征参数。  相似文献   

17.
As a key link in human-computer interaction, emotion recognition can enable robots to correctly perceive user emotions and provide dynamic and adjustable services according to the emotional needs of different users, which is the key to improve the cognitive level of robot service. Emotion recognition based on facial expression and electrocardiogram has numerous industrial applications. First, three-dimensional convolutional neural network deep learning architecture is utilized to extract the spa...  相似文献   

18.
Sign language fills the communication gap for people with hearing and speaking ailments. It includes both visual modalities, manual gestures consisting of movements of hands, and non-manual gestures incorporating body movements including head, facial expressions, eyes, shoulder shrugging, etc. Previously both gestures have been detected; identifying separately may have better accuracy, but much communicational information is lost. A proper sign language mechanism is needed to detect manual and non-manual gestures to convey the appropriate detailed message to others. Our novel proposed system contributes as Sign Language Action Transformer Network (SLATN), localizing hand, body, and facial gestures in video sequences. Here we are expending a Transformer-style structural design as a “base network” to extract features from a spatiotemporal domain. The model impulsively learns to track individual persons and their action context in multiple frames. Furthermore, a “head network” emphasizes hand movement and facial expression simultaneously, which is often crucial to understanding sign language, using its attention mechanism for creating tight bounding boxes around classified gestures. The model’s work is later compared with the traditional identification methods of activity recognition. It not only works faster but achieves better accuracy as well. The model achieves overall 82.66% testing accuracy with a very considerable performance of computation with 94.13 Giga-Floating Point Operations per Second (G-FLOPS). Another contribution is a newly created dataset of Pakistan Sign Language for Manual and Non-Manual (PkSLMNM) gestures.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号