期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于动态贝叶斯网络的音视频双模态说话人识别 总被引：6，自引：2，他引：4

吴志勇蔡莲红《计算机研究与发展》2006,43(3):470-475

动态贝叶斯网络在描述具有多个通道的复杂随机过程方面具有优异的性能．基于动态贝叶斯网络进行音视频双模态说话人识别的工作．分析了音视频联合建模的层级结构,利用动态贝叶斯网络对不同层级的音视频关联关系建立模型,并基于该模型进行音视频说话人识别的实验．通过对不同层级的建模过程及说话人识别实验的结果进行分析,结果表明,动态贝叶斯网络为描述音视频间的时序相关性和特征相关性提供了有效的建模方法,在不同语音信噪比的情况下均能提高说话人识别的性能．相似文献

2.

音视频信息融合的说话人跟踪算法研究

曹洁郑景润《计算机工程与应用》2012,48(13):118-124

针对单独的音频和视频信息跟踪的缺陷,提出了一种音视频信息融合的粒子滤波跟踪算法。采用闭环跟踪框架,分为底层跟踪、融合、重要性粒子滤波、跟踪输出和反馈五个环节。底层跟踪环节利用说话人脸部肤色信息进行均值漂移跟踪的同时,利用说话人声音信号到达麦克风阵列的时间延迟进行跟踪定位;融合环节对这两者得到的跟踪信息进行整合,得出基于音视频信息融合的重要性函数和融合似然模型;滤波环节利用重要性粒子滤波算法对融合的数据进行滤波处理;跟踪环节根据滤波结果对说话人进行跟踪;反馈环节将跟踪结果动态反馈给人脸肤色跟踪和声源定位跟踪模块。流程化的闭环处理过程保证了算法的实时性。最后,采用AMI会议语料库对该算法进行测试,结果表明该算法平均误跟率仅为9.32%,比使用单一音频或视频信息的跟踪算法稳定性好、准确性高。相似文献

3.

基于DSP的说话人定位跟踪系统的设计

曹洁何裔玺《计算机工程与应用》2013,49(1):163-166,190

针对室内说话人实时定位跟踪不准确的问题,提出了一种基于TMS320DM6437硬件平台的音视频融合定位跟踪方法。该方法利用Kalman滤波器和Mean-shift算法搜寻说话人最优位置进行视频定位跟踪。同时,采用到达时间差的音频方法进行目标位置估计。由Kalman信息整合中心进行音视频融合,以提高视听系统定位跟踪的稳定性。实验结果表明,与单模态定位跟踪系统相比,该方法对320×240的图像可实现平均20frame/s的跟踪速度,能提高目标定位跟踪准确度17%,改进效果明显且稳定。相似文献

4.

面向情境感知的不确定性数据融合策略

李向阳李玲娟陈建新徐小龙《微机发展》2012,(2):127-130

情境感知计算是对传感器感知的数据进行融合从而得到用户情境信息的过程。文中针对传感器数据存在的不确定性问题,在Context Toolkit模型的基础上提出了一种面向情境感知的数据融合策略,把数据融合分为底层融合和高层融合,在这两层上分别采用模糊逻辑和动态贝叶斯网络的数据融合方法。仿真实验结果表明,这种将模糊逻辑和动态贝叶斯网络相结合的策略能有效地处理情境感知过程中的不确定数据和信息,从而提高情境感知计算的容错性和准确度。相似文献

5.

基于动态贝叶斯网络的多特征目标跟踪

下载免费PDF全文

吴孟俊付钿刘建平牛玉刚《计算机工程与应用》2011,47(30):183-187

通过将动态贝叶斯网络模型应用到人体目标跟踪中,提出了一种多特征融合跟踪算法。该方法基于动态贝叶斯网络建立状态模型,分别针对形变、遮挡、有干扰三种情况提取运动中人体的颜色和梯度特征,利用粒子滤波方法对颜色特征和梯度特征进行融合。实验表明,提出的多特征跟踪算法能较好地解决复杂环境下的目标跟踪问题,相比传统的利用单一目标特征的跟踪算法具有更好的鲁棒性和准确性。相似文献

6.

采煤机视频压缩感知跟踪方法

孙继平邵子佩刘毅《工矿自动化》2018,(3):8-11

针对工作面光照强度低且不均匀、煤尘浓度大等问题,提出了一种采煤机视频压缩感知跟踪方法。该方法首先采用矩形滤波器对图像进行归一化处理,获取特征向量;然后依据压缩感知理论对目标样本和背景样本的Haar-like特征向量进行压缩处理,并基于压缩后的Haar-like特征向量建立目标模型并训练朴素贝叶斯分类器;最后采用朴素贝叶斯分类器识别目标图像和背景图像,实现采煤机动态跟踪。试验结果表明,该方法在采煤机移动、遮挡及环境照度不均匀、快速变化等情况下都能实现有效跟踪,平均跟踪帧速率达22帧/s。相似文献

7.

基于BTSM—LDA的口形动态特征及多流异步音视频语音识别

吕国云赵荣椿蒋冬梅 H.Sahli 樊养余 W.Verhelst 《数据采集与处理》2008,23(4)

引入一种基于贝叶斯切线形状模型(BTSM)的口形轮廓特征提取和基于线性判别分析(LDA)的视觉语音动态特征提取方法,该特征充分体现了口形特征变化的动态性,消除了直接口形轮廓几何特征的冗余.同时采用一种新颖的多流异步动态贝叶斯网络(MS-ADBN)模型来实现音视频的连续语音识别,该模型在词节点级别体现了音视频流的同步异步性.识别实验结果表明:采用LDA视觉语音动态特征的系统性能明显优于静态的口形轮廓几何特征,在语音信噪比为0～30 dB的测试环境下,融合LDA视觉特征的MS-ADBN模型比多流异步HMM的平均识别率提高4.92%,说明MS-ADBN模型更好地表达了音视频流之间的异步关系. 相似文献

8.

基于动态贝叶斯网络的听视觉融合情感识别 总被引：1，自引：0，他引：1

陈丹淇蒋冬梅 Ilse Ravyse Hichem Sahli 《计算机仿真》2011,28(3)

在多媒体领域的研究中,对听视觉情感识别,如何融合听视觉情感信息是关键问题.传统的融合方法采用状态同步多流隐马尔可夫模型(Syn_AVHMM),但忽略了音视频情感信息之间的异步关系,从而影响识别结果.为了对听视觉情感信息之间的关联和异步关系进行更准确的描述,提出了一种听视觉状态可以异步,加入异步程度可控的多流动态贝叶斯网络情感识别模型(Asy_DBN),并在 eNERFACE'05 听视觉情感数据库上进行了情感识别实验.实验结果表明,通过调整听视觉状态流之间的异步约束,Asy-DBN 模型可以得到最好的识别结果,六种情感的平均识别率比马尔可夫模型高出 9.88%,为实际应用提供了依据. 相似文献

9.

WSNs下一种自适应多传感器协同目标跟踪策略*

冯林方胥布工刘永桂《计算机应用研究》2010,27(11):4222-4225

对WSNs中机动目标跟踪问题提出一种自适应多传感器协同跟踪策略.该策略能根据目标的移动位置,动态地唤醒无线传感器网络中部分传感器节点形成分簇,并选择合适的簇首和采样间隔进行目标跟踪.簇内节点通过协作感知以及测量信息融合,提高了跟踪精度,同时自适应可变采样间隔节约了通信能量和计算资源,满足了跟踪系统的实时性要求.提出了传感器网络能量均衡分配的指标,提高了网络的可靠性.由于模型的非线性和目标运动的机动性,采用IMM滤波器进行目标状态估计.仿真结果表明,与NSSS和DGSS相比,跟踪精度明显提高;与DCSS相比,在保证一定跟踪精度的同时,节约了能量消耗. 相似文献

10.

基于贝叶斯预测的自主车辆避障方法研究

郭文强高晓光《计算机测量与控制》2010,18(7)

针对在动态环境中自主车辆对于动态障碍物信息很难具有先验知识的问题,研究了动态贝叶斯网络模型对机动目标运动状态进行贝叶斯预测的推理机理,提出了一种基于贝叶斯预测进行自主车辆避障路径规划控制方法;该规划方法在VORONOI图法基础上,融合了对自主车辆和周围环境之间的位置荚系的贝叶斯预测,一旦预定任务的动态环境发生重大变化,它可以产生机动目标沿某方向前进信息的预测先验知识,通过局部多次重规划生成避障路径,直至自主车辆完成既定任务;仿真实验证明了该规划控制方法可有效帮助自主车辆在不确定环境中实施避障策略. 相似文献

11.

Structure inference for Bayesian multisensory scene understanding

Hospedales TM Vijayakumar S 《IEEE transactions on pattern analysis and machine intelligence》2008,30(12):2140-2157

We investigate a solution to the problem of multi-sensor scene understanding by formulating it in the framework of Bayesian model selection and structure inference. Humans robustly associate multimodal data as appropriate, but previous modelling work has focused largely on optimal fusion, leaving segregation unaccounted for and unexploited by machine perception systems. We illustrate a unifying, Bayesian solution to multi-sensor perception and tracking which accounts for both integration and segregation by explicit probabilistic reasoning about data association in a temporal context. Such explicit inference of multimodal data association is also of intrinsic interest for higher level understanding of multisensory data. We illustrate this using a probabilistic implementation of data association in a multi-party audio-visual scenario, where unsupervised learning and structure inference is used to automatically segment, associate and track individual subjects in audiovisual sequences. Indeed, the structure inference based framework introduced in this work provides the theoretical foundation needed to satisfactorily explain many confounding results in human psychophysics experiments involving multimodal cue integration and association. 相似文献

12.

Unsupervised speaker segmentation and tracking in real-time audio content analysis 总被引：1，自引：0，他引：1

Lie Lu Hong-Jiang Zhang 《Multimedia Systems》2005,10(4):332-343

This paper addresses the problem of real-time speaker segmentation and speaker tracking in audio content analysis in which no prior knowledge of the number of speakers and the identities of speakers is available. Speaker segmentation is to detect the speaker change boundaries in a speech stream. It is performed by a two-step algorithm, which includes potential change detection and refinement. Speaker tracking is then performed based on the results of speaker segmentation by identifying the speaker of each segment. In our approach, incremental speaker model updating and segmental clustering is proposed, which makes the unsupervised speaker segmentation and tracking feasible in real-time processing. A Bayesian fusion method is also proposed to fuse multiple audio features to obtain a more reliable result, and different noise levels are utilized to compensate for background mismatch. Experiments show that the proposed algorithm can recall 89% of speaker change boundaries with 15% false alarms, and 76% of speakers can be unsupervised identified with 20% false alarms. Compared with previous works, the algorithm also has low computation complexity and can perform in 15% of real time with a very limited delay in analysis. Published online: 12 January 2005 Part of the work presented in this paper was published in the 10th ACM International Conference on Multimedia, 1-6 December 2002 相似文献

13.

基于复合动态模型和证据融合架构的移动物体检测与跟踪方法

程蔚吴海彬郑洪庆《计算机应用研究》2019,36(10)

针对现有方法中移动物体检测与跟踪的准确性精度较低的缺点,提出一种基于多传感器检测分类的移动物体描述和感知方法：建立了一个包含核心对象动态特征和分类描述的复合模型,在此基础上设计了一个基于证据框架的信息感知与融合方法,通过整合动态模型和不确定性特征来实现对移动物体的检测和跟踪。为了验证所提方法的有效性,在一辆安装有雷达、激光雷达和摄像头的演示车上进行了相关实验,在不同驾驶场景下针对行人、卡车和轿车三个移动物体进行了检测与跟踪,实验结果证明所提方法具有非常高的准确性。相似文献

14.

一种基于性别的说话人索引算法

杨继臣何俊李艳雄《计算机工程与科学》2012,34(6):79-82

为了提高说话人索引准确率,对说话人改变判决中常用的贝叶斯信息判决(BIC)进行改进和在说话人辨认中使用性别信息,提出了一种基于性别的说话人索引算法。首先使用惩罚距离公式对说话人改变进行检测,解决了在说话人改变判决中使用BIC需要不断调节惩罚因子的问题;其次在说话人改变检测的基础上,采用性别模型判断每个说话人的性别;最后把男性和女性说话人分别对待,使用说话人模型自举法对说话人进行辨认。实验结果表明:在说话人改变检测中,采用惩罚距离公式,和BIC相比不需要调整参数,和DISTBIC相比,在F1方面提高了2%;在说话人辨认方面,利用性别信息,说话人索引准确率(SIA)提高了20.93%,说话人数量准确率(SNA)方面提高了3%。相似文献

15.

基于贝叶斯网络的说话人识别研究

万洪杰杜利民邓浩江《计算机应用》2005,25(6):1334-1335,1338

基于贝叶斯网络基础理论,并针对与文本无关说话人识别任务,构造了一种用于说话人识别的贝叶斯网络结构,给出了该网络模型的构造和参数估计方法,提出了进行说话人识别时进行推理和分类预测的算法。通过与传统的混合高斯模型(GMM)的实验类比,该贝叶斯网络模型能够在同样的训练和测试数据情况下识别率平均相对提高30％。相似文献

16.

基于概率阈值通信感知的WSNs目标跟踪算法

沈才樑杜焕强《传感器与微系统》2015,(4):111-114

针对移动Sink节点目标跟踪定位时间长,能耗大等问题,提出基于概率阈值通信感知的WSNs目标跟踪算法。采用离散数据传输方式,并定义目标信息传输概率阈值来确定是否将节点当前位置信息由传感器节点传输到Sink节点。若当前位置信息不传输到Sink节点中,则使用最近一次通报的目标位置信息进行目标定位。然后开启目标周围相关传感器节点来有效降低算法数据传输量,并保持足够的定位精度。仿真结果显示：该方法比预测跟踪算法降低数据传输量87%左右,比动态目标跟踪算法降低跟踪时间33.7%左右。相似文献

17.

基于能量优化的无线传感器网络动态分簇目标跟踪

魏明东何小敏许亮《计算机应用》2017,37(6):1539-1544

针对无线传感器网络动态分簇目标跟踪中的数据碰撞与簇首选择过程导致能耗过高问题,提出一种基于能量优化的无线传感器网络动态分簇方法。首先,构建时分竞选传输模型,主动避免动态簇内数据碰撞,降低节点能耗;然后,基于能量信息与跟踪质量,提出能量均衡的最远节点调度策略,优化簇头节点调度;最后,根据加权质心定位算法,完成目标跟踪任务。实验结果表明：在节点随机部署的环境下,所提方法对于非线性运动目标的平均跟踪精度为0.65 m,与多目标跟踪动态簇员选择方法（DCMS）相当,比分布式事件定位动态分簇目标跟踪算法（DELTA）提高了45.8%;能量消耗方面,与DCMS和DELTA相比,所提方法的动态跟踪簇能量消耗有效降低了61.1%,延长了网络寿命。相似文献