排序方式: 共有5条查询结果,搜索用时 0 毫秒
1
1.
构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的识别率比HMM模型平均高12.79%;而纯净语音下,基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别,DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系,为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。 相似文献
2.
3.
图像变形是计算机动画中常用的方法之一,通过该项技术用户只需指定待处理图像上的某些变化特征就可以得到他们所期望的变形效果。本文在径向基插值算法的基础上,通过加入一次项和仿射可微条件,适当选择核函数,转化原优化问题为齐次线性问题,从而使该线性系统获得稳定的唯一解。此外,本文还给出在目标图像中建立径向基函数的算法,为采用反向重采样技术以获得光滑的变形效果提供了必要的支持。实验结果表明,本文算法可以实现多控制点准确插值下的平滑渐变变形效果。 相似文献
4.
提出一种基于不确定分解子空间约束光流的柔性目标点跟踪算法,通过不确定分解理论将多帧多点光流估计矩阵变换到各向同性的具有超球状方差分布的空间中,在此变换空间中引入SVD分解得到最小均方意义下的子空间光流逼近,有效地减轻了传统L-K算法的孔径问题、深度不连续点的估计问题及长序列视频的漂移问题。标准测试序列和消费类USB摄像头采集的测试序列的实验结果都证明算法能有效地跟踪长视频序列中具有2-D和1-D甚至基本没有纹理的具有退化结构的柔性目标点。结果还可应用于柔性目标理解并可以作为半稠密的点对应来解决SFM中的对应点求解问题。 相似文献
5.
为实现文本/语音驱动的说话人头部动画,提出基于贝叶斯切线形状模型的口形轮廓特征提取方法和基于动态贝叶斯网络(Dynamic Bayesian Network,DBN)模型的唇读系统。在描述词与它的组成视素关系的基础上,得到视素时间切分序列。为比较性能,音素DBN模型和HMM的音素识别结果被影射成视素序列。在评价准则上,提出绝对视素切分正确性和基于图像与嘴唇几何特征两种相对视素切分正确性的评价标准。实验表明,DBN模型识别性能优于HMM,而基于视素的DBN模型能为说话人头部动画提供最好的口形。 相似文献
1