首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
跨模态说话人标注旨在利用说话人的不同生物特征进行相互匹配和互标注,可广泛应用于各种人机交互场合。针对人脸和语音两种不同模态生物特征之间存在明显的“语义鸿沟”问题,该文提出一种结合有监督联合一致性自编码器的跨音视频说话人标注方法。首先分别利用卷积神经网络和深度信念网络分别对人脸图像和语音数据进行判别性特征提取,接着在联合自编码器模型的基础上,提出一种新的有监督跨模态神经网络模型,同时嵌入softmax回归模型以保证模态间和模态内样本的相似性,进而扩展为3种有监督一致性自编码器神经网络模型来挖掘音视频异构特征之间的潜在关系,从而有效实现人脸和语音的跨模态相互标注。实验结果表明,该文提出的网络模型能够有效的对说话人进行跨模态标注,效果显著,取得了对姿态变化和样本多样性的鲁棒性。  相似文献   

2.
本文依据主元分析原理从语音特征观察空间分离说话人语音特征子空间,对输入语音特征矢量与子空间的距离测度进行了定义,并对基于特征子空间的说话人识别性能进行了分析.说话人语音训练样本提取特征后在语音特征观察空间形成具有一定散度的分布,根据主元分析原理和分布散度提取主要散度本征向量作为基底构成说话人语音特征子空间,并通过测试语音特征矢量与子空间的距离测度进行模式匹配.实验结果表明,特征子空间方法对说话人识别是有效的,特别是在小于3秒的短时测试语音下能够得到较高的识别率.  相似文献   

3.
针对传统PCA算法的局限性,本文提出了一种基于个体子空间和分块特征提取的人脸识别方法。该方法不同于传统的PCA算法,它为每一个体人脸对象建立一个该个体对象所独有的人脸子空间,并且运用分块特征提取,加强了对样本局部特征信息的提取。在识别过程中,将待测人脸图像对不同个体人脸子空间进行投影后,再运用最近距离分类原则进行分类识别。该方法相对于传统的PCA算法能够更好地描述不同个体人脸之间的差异性,克服各类噪声。本文的实验结果表明,该方法的识别率相对于传统PCA特征脸算法具有一定的提高,能够较好地克服光照、表情和姿态变化的影响。  相似文献   

4.
张昕然  查诚  宋鹏  陶华伟  赵力 《信号处理》2016,32(9):1117-1125
在语音情感识别技术中,由于噪声环境、说话方式和说话人特质原因,会造成实验数据库特征不匹配的情况。从语音学上分析,该问题多存在于跨数据库情感识别实验。训练的声学模型和用于测试的语句样本之间的错位,会使语音情感识别性能剧烈下降。本文据此所研究的选择性注意声学模型能有效探测变化的情感特征。同时,利用时频原子对模型进行改进,使之能提取跨语音数据库中的显著性特征用于情感识别。实验结果表明,利用文章所提方法在跨库情感样本上进行特征提取,再通过典型的分类器,识别性能提高了9个百分点,从而验证了该方法对不同数据库具有更好的鲁棒性。   相似文献   

5.
基于可区分性加权的模糊核说话人识别   总被引:2,自引:1,他引:1       下载免费PDF全文
林琳  王树勋  陈建 《电子学报》2008,36(7):1446-1450
 针对训练和识别语音数据较少的情况,本文提出了一种新的说话人识别算法.通过核映射,在高维特征空间对说话人的语音特征进行模糊矢量量化.为了增加说话人之间的可区分性,提出了一种基于高维特征空间的码字矢量的权值分配方法,对具有较强区分性的码字矢量分配较大的权值,并将产生的权值和说话人的码书一起形成说话人数据库.识别时,提出一种模糊核加权最近邻近分类器,在高维特征空间中对说话人进行匹配.实验表明,该算法在训练语音少于8s,识别语音为1s时,能够得到较好的识别结果.  相似文献   

6.
《现代电子技术》2019,(4):80-84
针对人脸人耳融合识别算法对图像光照变化、表情变化、拍摄角度变化等鲁棒性不强的问题,将核稀疏表示理论引入到人脸人耳融合识别中,提出基于核稀疏表示的人脸人耳融合识别算法。新算法采用的是能有效降低样本维度的PCA特征提取算法,人脸人耳的特征融合层级选用既能实现冗余信息有效压缩,又能最大程度利用不同模态生物特征可区分性的特征级融合。考虑到不同模态生物特征对最终识别的贡献可能有所不同,该算法采用加权串联融合法,同时测试样本在训练样本中稀疏表示系数的求解采用的是迭代速度比较快的正交匹配追踪算法。与其他识别算法相比,该算法具有非常好的识别性能,并且对人脸人耳图像变化具有很强的鲁棒性。  相似文献   

7.
张晓华  张宏 《信息技术》2008,32(2):91-93
提出了基于图像隶属度的主分量人脸识别算法.该算法首先用小波变换对人脸图像进行小波分解,形成低频小波子图,然后用主分量分析法构造特征脸子空间.计算训练样本和待测样本在人脸特征空间中的投影向量间的距离.引入图像隶属函数,作为识别分类器进行人脸识别.针对ORL人脸库的实验结果表明该方法具有良好的识别分离能力.  相似文献   

8.
本文首次使用了最大熵谱法估计的LPC反射系数矢量的长期平均作为说话人的语音特征矢量,利用所定义的特征矢量的平均自差异函数,平均互差异函数及平均互——自差异比函数分析了特征矢量用于非限定语音的说话人识别的有效性和说话人的可区分性;从模式识别分类的Bayes判决准则出发,导出了便于计算和程序实现的简化判决公式——欧几里德空间的加权和距离公式,并利用平均差异函数选择加权系数;提出了用序贯判别法对集外说话人的拒识方法;研制了相应的以微机为核心的实时响应的实验系统,响应速度为3秒。用此系统对20个说话人进行了非限定语音的说话人识别试验,误音率为10.67%,误拒率为5.67%,正确识别率95.41%。  相似文献   

9.
文本相关重点研究的说话人语音识别是语音识别研究中的一个重要分支。本论文介绍了一种采用特征空间轨迹匹配方式的基于数字语音的身份识别系统的设计方法。并针对"0"到"9"这十个数字,对不同说话人的语音特征的可区分性进行了探讨,提出了数字区分度算法,以便找出最能有效区分不同说话人的数字,进而在识别系统中提高识别效率。实验结果表明,本论文提出的数字区分度算法在小规模语音说话人集合中得到了验证。  相似文献   

10.
罗武骏  黄程韦  査诚  赵力 《信号处理》2013,29(10):1423-1432
本文研究了越南语语音情感识别问题,采集并建立了越南语情感数据库。母语为越南语的两名男性和两名女性说话人进行了越南语情感语音的表演和录制,通过多人听辨实验进行了数据的验证和评选,建立了一个初步的越南语语音情感数据库,为今后的跨语言研究提供数据基础。在所获得的情感数据上,提取了基本的语音特征,并构造了可用于情感识别的静态统计特征。采用高斯混合模型进行了建模与识别,识别结果显示,本文中的系统能够较好的识别越南语语音情感。在今后的工作中,可以进一步研究跨语言情感特征的分析与识别。   相似文献   

11.
Wang  Z.F. Han  Q. Li  Q. Niu  X.M. Busch  C. 《Electronics letters》2009,45(10):495-496
A novel multimodal biometric recognition algorithm based on a complex common vector (CCV) is proposed. The CCV generalises the common vector method for the complex field to perform feature fusion and classification. Theoretical analysis proves that the CCV could produce a unique common vector for every fusion feature in a given class. The iris and the face are used as two distinct biometric modals to test the algorithm. Experimental results show that the proposed algorithm achieves much better performance than other conventional multimodal biometric algorithms.  相似文献   

12.
为了更好地从戏剧视频提取关键情节,提出了一种基于音乐情感特征(MEF)融合人脸特征(HFF)的自动提取方法.首先,利用基于音频指纹技术的二级音乐情感识别方法进行音频识别,并利用人脸特征进行视频识别;然后,利用音频和视频识别得到的各元素获取关键情节值,从而提取关键情节;最后,提出了一种量化评估方法评估关键情节提取方法的一致性.在四个戏剧视频上的评估实验验证了该方法的有效性及可靠性,相比其他几种较新的提取模型,该方法提取效果更好.  相似文献   

13.
There have been several studies that jointly use audio, lip intensity, and lip geometry information for speaker identification and speech-reading applications. This paper proposes using explicit lip motion information, instead of or in addition to lip intensity and/or geometry information, for speaker identification and speech-reading within a unified feature selection and discrimination analysis framework, and addresses two important issues: 1) Is using explicit lip motion information useful, and, 2) if so, what are the best lip motion features for these two applications? The best lip motion features for speaker identification are considered to be those that result in the highest discrimination of individual speakers in a population, whereas for speech-reading, the best features are those providing the highest phoneme/word/phrase recognition rate. Several lip motion feature candidates have been considered including dense motion features within a bounding box about the lip, lip contour motion features, and combination of these with lip shape features. Furthermore, a novel two-stage, spatial, and temporal discrimination analysis is introduced to select the best lip motion features for speaker identification and speech-reading applications. Experimental results using an hidden-Markov-model-based recognition system indicate that using explicit lip motion information provides additional performance gains in both applications, and lip motion features prove more valuable in the case of speech-reading application.  相似文献   

14.
介绍D类音频放大器MAX9736MB在立体声MP3坞站(dockingstation)中的应用。MAX9736MB的2.1声道演示盒是一个完整的扬声器坞站。该系统设计采用两片MAX9736驱动由两个2英寸卫星扬声器和一个5英寸重低音扬声器构成的三声道扬声器系统。详细介绍该系统设计的硬件电路和扬声器。该系统设计具有有源均衡、电源监控以及重低音扬声器的动态均衡功能。用于便携式音频播放器。  相似文献   

15.
孙伟强 《电视技术》2014,38(7):213-216,207
针对传统的Fisher线性判别分析(FLDA)算法在处理单训练样本人脸识别时由于类内散布矩阵为零而不能进行特征提取的问题,提出了一种基于自适应通用学习框架改进FLDA的人脸识别算法。首先选取一个合适的通用训练样本集,计算其类内散布矩阵和样本平均向量;然后,利用双线性表示算法预测单训练样本的类内、类间散布矩阵,巧妙地解决了单训练样本类内散布矩阵为零的问题;最后,利用Fisher线性判别分析进行特征提取,同时借助于最近邻分类器完成人脸的识别。在Yale及FERET两大通用人脸数据库上的实验验证了所提算法的有效性及可靠性,实验结果表明,相比其他几种较为先进的单样本人脸识别算法,所提算法取得了更好的识别效果。  相似文献   

16.
矢量量化降低BP网规模的方法   总被引:1,自引:1,他引:0  
在用BP网进行语音和说话人识别过程中,BP网的输入节点数一般在几百个左右,使得网络的规模过大,训练速度过慢,为此本文在对语音特征进行了有效编码的基础上,充分考虑到BP网输入的自适应性多维码字间距离与一维码号间距离的不一致性,对量化码间中距离的不一致性,对量码字的码号进行有效的码号变换,用变换后的码号数据经归一化后作为BP网的输入,从而大大压缩了网络的规模。所进行的语音识别实验及与其它语音识别方法的  相似文献   

17.
Speech and language technologies for audio indexing and retrieval   总被引:6,自引:0,他引:6  
With the advent of essentially unlimited data storage capabilities and with the proliferation of the use of the Internet, it becomes reasonable to imagine a world in which it would be possible to access any of the stored information at will with a few keystrokes or voice commands. Since much of this data will be in the form of speech from various sources, it becomes important to develop the technologies necessary for indexing and browsing such audio data. This paper describes some of the requisite speech and language technologies that would be required and introduces an effort aimed at integrating these technologies into a system, called Rough `n' Ready, which indexes speech data, creates a structural summarization, and provides tools for browsing the stored data. The technologies highlighted in the paper include speaker-independent continuous speech recognition, speaker segmentation and identification, name spotting, topic classification, story segmentation, and information retrieval. The system automatically segments the continuous audio input stream by speaker, clusters audio segments from the same speaker, identifies speakers known to the system, and transcribes the spoken words. It also segments the input stream into stories, based on their topic content, and locates the names of persons, places, and organizations. These structural features are stored in a database and are used to construct highly selective search queries for retrieving specific content from large audio archives  相似文献   

18.
高畅  李海峰  马琳 《信号处理》2012,28(6):851-858
压缩感知理论依据信号的稀疏性质进行压缩测量,将信号的获取方式从对信号的采样上升为对信息的感知,是信号处理领域的一场革命。本文提出一种基于非确定基字典(Uncertainty Basis Dictionary, UBD)对语音信号进行稀疏表示的方法,将压缩感知理论应用于对语音信号稀疏表示的压缩,并提出了基于求解线性规划问题的方法重构语音信号的算法。通过语音识别、话者识别和情感识别实验,从面向内容分析的角度,研究这种基于压缩感知理论的信息感知方法是否保留了语音信号的主要内容。实验结果表明,语音识别、话者识别和情感识别的准确率,与目前这些领域研究方法得到的结果基本一致,说明基于压缩感知理论的信息感知方法能够很好地获取语音信号的语义、话者和情感方面的信息。   相似文献   

19.
A fused hidden Markov model with application to bimodal speech processing   总被引:2,自引:0,他引:2  
This paper presents a novel fused hidden Markov model (fused HMM) for integrating tightly coupled time series, such as audio and visual features of speech. In this model, the time series are first modeled by two conventional HMMs separately. The resulting HMMs are then fused together using a probabilistic fusion model, which is optimal according to the maximum entropy principle and a maximum mutual information criterion. Simulations and bimodal speaker verification experiments show that the proposed model can significantly reduce the recognition errors in noiseless or noisy environments.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号