共查询到17条相似文献,搜索用时 187 毫秒
1.
基于动态贝叶斯网络的音视频双模态说话人识别 总被引:6,自引:2,他引:4
动态贝叶斯网络在描述具有多个通道的复杂随机过程方面具有优异的性能.基于动态贝叶斯网络进行音视频双模态说话人识别的工作.分析了音视频联合建模的层级结构,利用动态贝叶斯网络对不同层级的音视频关联关系建立模型,并基于该模型进行音视频说话人识别的实验.通过对不同层级的建模过程及说话人识别实验的结果进行分析,结果表明,动态贝叶斯网络为描述音视频间的时序相关性和特征相关性提供了有效的建模方法,在不同语音信噪比的情况下均能提高说话人识别的性能. 相似文献
2.
针对单独的音频和视频信息跟踪的缺陷,提出了一种音视频信息融合的粒子滤波跟踪算法。采用闭环跟踪框架,分为底层跟踪、融合、重要性粒子滤波、跟踪输出和反馈五个环节。底层跟踪环节利用说话人脸部肤色信息进行均值漂移跟踪的同时,利用说话人声音信号到达麦克风阵列的时间延迟进行跟踪定位;融合环节对这两者得到的跟踪信息进行整合,得出基于音视频信息融合的重要性函数和融合似然模型;滤波环节利用重要性粒子滤波算法对融合的数据进行滤波处理;跟踪环节根据滤波结果对说话人进行跟踪;反馈环节将跟踪结果动态反馈给人脸肤色跟踪和声源定位跟踪模块。流程化的闭环处理过程保证了算法的实时性。最后,采用AMI会议语料库对该算法进行测试,结果表明该算法平均误跟率仅为9.32%,比使用单一音频或视频信息的跟踪算法稳定性好、准确性高。 相似文献
3.
针对室内说话人实时定位跟踪不准确的问题,提出了一种基于TMS320DM6437硬件平台的音视频融合定位跟踪方法。该方法利用Kalman滤波器和Mean-shift算法搜寻说话人最优位置进行视频定位跟踪。同时,采用到达时间差的音频方法进行目标位置估计。由Kalman信息整合中心进行音视频融合,以提高视听系统定位跟踪的稳定性。实验结果表明,与单模态定位跟踪系统相比,该方法对320×240的图像可实现平均20frame/s的跟踪速度,能提高目标定位跟踪准确度17%,改进效果明显且稳定。 相似文献
4.
5.
通过将动态贝叶斯网络模型应用到人体目标跟踪中,提出了一种多特征融合跟踪算法。该方法基于动态贝叶斯网络建立状态模型,分别针对形变、遮挡、有干扰三种情况提取运动中人体的颜色和梯度特征,利用粒子滤波方法对颜色特征和梯度特征进行融合。实验表明,提出的多特征跟踪算法能较好地解决复杂环境下的目标跟踪问题,相比传统的利用单一目标特征的跟踪算法具有更好的鲁棒性和准确性。 相似文献
6.
7.
引入一种基于贝叶斯切线形状模型(BTSM)的口形轮廓特征提取和基于线性判别分析(LDA)的视觉语音动态特征提取方法,该特征充分体现了口形特征变化的动态性,消除了直接口形轮廓几何特征的冗余.同时采用一种新颖的多流异步动态贝叶斯网络(MS-ADBN)模型来实现音视频的连续语音识别,该模型在词节点级别体现了音视频流的同步异步性.识别实验结果表明:采用LDA视觉语音动态特征的系统性能明显优于静态的口形轮廓几何特征,在语音信噪比为0~30 dB的测试环境下,融合LDA视觉特征的MS-ADBN模型比多流异步HMM的平均识别率提高4.92%,说明MS-ADBN模型更好地表达了音视频流之间的异步关系. 相似文献
8.
基于动态贝叶斯网络的听视觉融合情感识别 总被引:1,自引:0,他引:1
在多媒体领域的研究中,对听视觉情感识别,如何融合听视觉情感信息是关键问题.传统的融合方法采用状态同步多流隐马尔可夫模型(Syn_AVHMM),但忽略了音视频情感信息之间的异步关系,从而影响识别结果.为了对听视觉情感信息之间的关联和异步关系进行更准确的描述,提出了一种听视觉状态可以异步,加入异步程度可控的多流动态贝叶斯网络情感识别模型(Asy_DBN),并在 eNERFACE'05 听视觉情感数据库上进行了情感识别实验.实验结果表明,通过调整听视觉状态流之间的异步约束,Asy-DBN 模型可以得到最好的识别结果,六种情感的平均识别率比马尔可夫模型高出 9.88%,为实际应用提供了依据. 相似文献
9.
对WSNs中机动目标跟踪问题提出一种自适应多传感器协同跟踪策略.该策略能根据目标的移动位置,动态地唤醒无线传感器网络中部分传感器节点形成分簇,并选择合适的簇首和采样间隔进行目标跟踪.簇内节点通过协作感知以及测量信息融合,提高了跟踪精度,同时自适应可变采样间隔节约了通信能量和计算资源,满足了跟踪系统的实时性要求.提出了传感器网络能量均衡分配的指标,提高了网络的可靠性.由于模型的非线性和目标运动的机动性,采用IMM滤波器进行目标状态估计.仿真结果表明,与NSSS和DGSS相比,跟踪精度明显提高;与DCSS相比,在保证一定跟踪精度的同时,节约了能量消耗. 相似文献
10.
针对在动态环境中自主车辆对于动态障碍物信息很难具有先验知识的问题,研究了动态贝叶斯网络模型对机动目标运动状态进行贝叶斯预测的推理机理,提出了一种基于贝叶斯预测进行自主车辆避障路径规划控制方法;该规划方法在VORONOI图法基础上,融合了对自主车辆和周围环境之间的位置荚系的贝叶斯预测,一旦预定任务的动态环境发生重大变化,它可以产生机动目标沿某方向前进信息的预测先验知识,通过局部多次重规划生成避障路径,直至自主车辆完成既定任务;仿真实验证明了该规划控制方法可有效帮助自主车辆在不确定环境中实施避障策略. 相似文献
11.
Hospedales TM Vijayakumar S 《IEEE transactions on pattern analysis and machine intelligence》2008,30(12):2140-2157
We investigate a solution to the problem of multi-sensor scene understanding by formulating it in the framework of Bayesian model selection and structure inference. Humans robustly associate multimodal data as appropriate, but previous modelling work has focused largely on optimal fusion, leaving segregation unaccounted for and unexploited by machine perception systems. We illustrate a unifying, Bayesian solution to multi-sensor perception and tracking which accounts for both integration and segregation by explicit probabilistic reasoning about data association in a temporal context. Such explicit inference of multimodal data association is also of intrinsic interest for higher level understanding of multisensory data. We illustrate this using a probabilistic implementation of data association in a multi-party audio-visual scenario, where unsupervised learning and structure inference is used to automatically segment, associate and track individual subjects in audiovisual sequences. Indeed, the structure inference based framework introduced in this work provides the theoretical foundation needed to satisfactorily explain many confounding results in human psychophysics experiments involving multimodal cue integration and association. 相似文献
12.
This paper addresses the problem of real-time speaker segmentation and speaker tracking in audio content analysis in which
no prior knowledge of the number of speakers and the identities of speakers is available. Speaker segmentation is to detect
the speaker change boundaries in a speech stream. It is performed by a two-step algorithm, which includes potential change
detection and refinement. Speaker tracking is then performed based on the results of speaker segmentation by identifying the
speaker of each segment. In our approach, incremental speaker model updating and segmental clustering is proposed, which makes
the unsupervised speaker segmentation and tracking feasible in real-time processing. A Bayesian fusion method is also proposed
to fuse multiple audio features to obtain a more reliable result, and different noise levels are utilized to compensate for
background mismatch. Experiments show that the proposed algorithm can recall 89% of speaker change boundaries with 15% false
alarms, and 76% of speakers can be unsupervised identified with 20% false alarms. Compared with previous works, the algorithm
also has low computation complexity and can perform in 15% of real time with a very limited delay in analysis.
Published online: 12 January 2005
Part of the work presented in this paper was published in the 10th ACM International Conference on Multimedia, 1-6 December
2002 相似文献
13.
14.
为了提高说话人索引准确率,对说话人改变判决中常用的贝叶斯信息判决(BIC)进行改进和在说话人辨认中使用性别信息,提出了一种基于性别的说话人索引算法。首先使用惩罚距离公式对说话人改变进行检测,解决了在说话人改变判决中使用BIC需要不断调节惩罚因子的问题;其次在说话人改变检测的基础上,采用性别模型判断每个说话人的性别;最后把男性和女性说话人分别对待,使用说话人模型自举法对说话人进行辨认。实验结果表明:在说话人改变检测中,采用惩罚距离公式,和BIC相比不需要调整参数,和DISTBIC相比,在F1方面提高了2%;在说话人辨认方面,利用性别信息,说话人索引准确率(SIA)提高了20.93%,说话人数量准确率(SNA)方面提高了3%。 相似文献
15.
16.
针对移动Sink节点目标跟踪定位时间长,能耗大等问题,提出基于概率阈值通信感知的WSNs目标跟踪算法。采用离散数据传输方式,并定义目标信息传输概率阈值来确定是否将节点当前位置信息由传感器节点传输到Sink节点。若当前位置信息不传输到Sink节点中,则使用最近一次通报的目标位置信息进行目标定位。然后开启目标周围相关传感器节点来有效降低算法数据传输量,并保持足够的定位精度。仿真结果显示:该方法比预测跟踪算法降低数据传输量87%左右,比动态目标跟踪算法降低跟踪时间33.7%左右。 相似文献
17.
针对无线传感器网络动态分簇目标跟踪中的数据碰撞与簇首选择过程导致能耗过高问题,提出一种基于能量优化的无线传感器网络动态分簇方法。首先,构建时分竞选传输模型,主动避免动态簇内数据碰撞,降低节点能耗;然后,基于能量信息与跟踪质量,提出能量均衡的最远节点调度策略,优化簇头节点调度;最后,根据加权质心定位算法,完成目标跟踪任务。实验结果表明:在节点随机部署的环境下,所提方法对于非线性运动目标的平均跟踪精度为0.65 m,与多目标跟踪动态簇员选择方法(DCMS)相当,比分布式事件定位动态分簇目标跟踪算法(DELTA)提高了45.8%;能量消耗方面,与DCMS和DELTA相比,所提方法的动态跟踪簇能量消耗有效降低了61.1%,延长了网络寿命。 相似文献