首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
基于视频三音子的汉语双模态语料库的建立   总被引:2,自引:0,他引:2  
为实现可视语音合成和双模态语音识别,需要建立符合条件的双模态语料库。该文提出了一种汉语双模态语料库的建立方法。根据视频中唇部发音特征,对已有的三音子模型聚类,形成视频三音子。在视频三音子的基础上,利用评估函数对原始语料中的句子打分,并实现语料的自动选取。与其他双模态语料库相比,该文所建立的语料库在覆盖率、覆盖效率和高频词分布律有了较大改进,能够更加真实反映汉语中的双模态语言现象。  相似文献   

2.
藏语连续语音语料库设计与实现   总被引:1,自引:0,他引:1       下载免费PDF全文
以藏语夏河话为研究对象,建立了基于三音子的藏语连续语音语料库。首先收集了10万句藏语文本语料库,并根据夏河话的实际发音,进行了国际音标转写;然后总结了夏河话的三音子音联结构形式,并用藏语文本处理平台对其组合类型和在原始文本语料库中的频度进行了详细的统计分析;最后在语音库的语料设计中综合考虑了三音子以及类三音子的覆盖率和稀疏度,设计并完成了语料抽取算法,实现了语料自动选取。  相似文献   

3.
基于句子级的唇读语料库及其切分算法   总被引:1,自引:0,他引:1  
论文对适合唇读研究的连续音节双模态语料库及其语料切分算法的设计和研究工作进行了讨论。介绍了基于句子级的双模态语料库HITBi-CAVDatabaseII的设计和建立,形式化地讨论了该库的主要特点及基于语音能量的语料切分算法的可行性。该切分算法在基于能量的语音切分算法基础上,结合了双模态语料库的一些特征,实现了对语料的自动切分。  相似文献   

4.
大词汇量连续语音识别系统的性能很大程度上取决于语音库的质量,而语音库设计的中心环节就是语料选取。但是传统语料选取方法往往考虑因素单一,不利于语音识别系统有效利用语言信息。本语音库的语料选取方法综合考虑了多种因素:三音子覆盖率、三音子覆盖效率、三音子稀疏度、常用词分布等,并完全实现程序自动选取,充分利用了原始语料,使选取结果的信息量更加丰富。程序自动选取结果可以覆盖94.1%的三音子,75.4%的最常用词,覆盖效率和稀疏度也比传统方法有了较大改善。  相似文献   

5.
沈亚敏  赵晖  张权  唐朝京 《计算机工程》2011,37(5):256-257,260
为实现语音转换,建立符合要求的汉语语音转换语料库,提出一种基于半音节模型的语料自动选取算法。根据语音转换训练时需要语料数量较少的特征,选择半音节作为语料库的基本单位。在此基础上,从原始语料中自动选取语料,根据语音转换对说话人特征较敏感的情况,利用评估函数并根据半音节的出现次数对原始语料中的句子进行打分。实验结果表明,与传统算法相比,该算法在语音库自动选取615句汉语语料时,可以覆盖97.8%的带声调半音节,其覆盖效率、覆盖率和稀疏度有较大改进。  相似文献   

6.
基于数据驱动方法的汉语文本-可视语音合成   总被引:7,自引:0,他引:7  
王志明  蔡莲红  艾海舟 《软件学报》2005,16(6):1054-1063
计算机文本-可视语音合成系统(TTVS)可以增强语音的可懂度,并使人机交互界面变得更为友好.给出一个基于数据驱动方法(基于样本方法)的汉语文本-可视语音合成系统,通过将小段视频拼接生成新的可视语音.给出一种构造汉语声韵母视觉混淆树的有效方法,并提出了一个基于视觉混淆树和硬度因子的协同发音模型,模型可用于分析阶段的语料库选取和合成阶段的基元选取.对于拼接边界处两帧图像的明显差别,采用图像变形技术进行平滑并.结合已有的文本-语音合成系统(TTS),实现了一个中文文本视觉语音合成系统.  相似文献   

7.
基于三音子模型的语料自动选择算法   总被引:8,自引:0,他引:8  
吴华  徐波  黄泰翼 《软件学报》2000,11(2):271-276
在语音识别中,如何经济地挑选语音训练语料,使其覆盖尽可能多的语音现象是一个非常重要的问题.传统的语音训练语料采用手工挑选后再进行检验和补充的方法,此方法难以保证所选语料语音现象的覆盖率.该文提出了一种自动地从大规模语料库中挑选语料的搜索算法,此算法不但能使所选语料覆盖几乎所有语音现象,而且能保证训练语料中三音子和类三音子有足够的样本个数,使训练数据不过于稀疏,为训练正确而可靠的语音模型打下了坚实的基础.  相似文献   

8.
汉语语音视觉合成研究数据库CVSS1.0   总被引:1,自引:0,他引:1  
目前现有的双模态语音数据库多为外文,且绝大部分都是为语音识别或身份认证服务的。鉴于此,我们根据汉语语音的特点,建立了国内第一个较为完备的汉语语音视觉合成数据库CVSS1.0。它具有如下特点:包含136个单音节和265个连续发音语句的视频和音频数据,其语料规模超出目前同类数据库;语料是在汉语发音方式归类的基础上,依据汉字出现频度的高低选取,其中的独白语句涵盖了大部分的韵律结构,因此其反映的规律具有代表性;记录了脸部发音动作的三维运动信息;用绿点标出了部分MPEG4定义的脸部特征点,方便跟踪;可服务于多种视觉语音合成研究,有很高的通用性。  相似文献   

9.
粤语语音合成系统语料库设计研究   总被引:1,自引:1,他引:0  
介绍了语料库设计的原理和过程,并结合粤语语音合成系统语料库实现,提出了“语境矢量”的独特设计和“语境总量”的概念,给出了语境总量的计算方法。最后介绍了Greedy算法,并给出了文奉语料搜索的具体流程。  相似文献   

10.
基于语料库的语音合成是国内外应用广泛的语音合成方法.在这种合成方法中,单元选择是语音合成的关键.通过分析藏语言文字的属性特征,设计了藏语语音合成系统模型,提出以构件、组合构件、字、词及句单元相融合的藏语语音合成方法,有效地保留了语音合成中大单元的完整性和小单元的灵活性与鲁棒性.同时,给出语音合成的单元选择策略与算法.实验数据表明:该策略与算法是有效和合理的,所选择的单元在封闭语料和开放语料上的覆盖率均达到预期目标.  相似文献   

11.
Wireless visual sensor networks can provide valuable information for a variety of monitoring and control applications. Frequently, a set of targets must be covered by visual sensors, as such visual sensing redundancy is a desired condition specially when applications have availability requirements for multiple coverage perspectives. If visual sensors become rotatable, their sensing orientations can be adjusted to optimize coverage and redundancy, bringing different challenges as there may be different coverage optimization objectives. Actually, the specific issue of redundant coverage maximization is inherently a multi-objective problem, but usual approaches are not designed accordingly to compute visual sensing redundancy. This article proposes two different evolutionary algorithms that exploit the multi-objective nature of the redundant coverage maximization problem: a lexicographic ”a priori” algorithm and a NSGA-II ”a posteriori” algorithm. The performance of both algorithms are compared, using a previously proposed single-objective greedy-based algorithm as a reference. Numerical results outline the benefits of employing evolutionary algorithms for adjustments of sensors’ orientations, potentially benefiting deployment and management of wireless visual sensor networks for different monitoring scenarios.  相似文献   

12.
提出平均视距的概念来衡量路径可视覆盖的最优性,给出以最大平均视距为优化目标的最优可视覆盖路径问题的求解模型.通过预先计算并存储视域信息,采用基于视域融合的模拟退火算法实现了该问题的求解.  相似文献   

13.
向辉  彭力  闻继伟 《计算机工程》2012,38(16):113-116
针对视觉传感器网络目标覆盖过程中因覆盖冗余、节点剩余能量不均等原因导致网络寿命过短的问题,设计一种视觉传感器网络目标覆盖算法。该算法基于节点与目标的覆盖关联关系,利用关系矩阵及相关运算对覆盖频繁目标集进行挖掘,进而对工作节点进行动态选举,以此延长网络的生存时间。实验结果表明,该算法在保证网络覆盖质量的前提下能够高效地调度工作节点,均衡节点耗能,有效延长网络寿命。  相似文献   

14.
提出根据直方图特征去除视觉文档图像反渗噪声的方法.对于灰度直方图呈双峰特性的噪声图像,选取适当区域分别进行增强或归一化处理以达到去除反渗噪声的目的;而对于直方图呈单峰特性的含反渗噪声图像,建立了一种基于背景分离的新算法.实验结果表明,该方法可以有效去除视觉文档图像中的反渗噪声.  相似文献   

15.
结合模糊C均值聚类算法和人眼视觉特性,提出了一种新的自适应彩色图像水印算法。首先,将彩色图像经模糊聚类分析,选取出适合于水印嵌入的位置;然后,分别在R、G、B 3个通道中利用小波域的视觉掩蔽特性自适应地修改水印嵌入强度,提取时,不需要用到原始图像。实验结果证明,含水印的彩色图像没有出现任何可感知的视觉失真,同时,该算法对一定的图像处理操作具有较强的鲁棒性。  相似文献   

16.
基于边界曲线演化模型的生长骨架算法   总被引:1,自引:1,他引:1  
基于距离变换的骨架算法往往不能直接用于骨架识别,且骨架的连通性难以保证.本文提出一种新型的骨架算法,由一个初始骨架点开始逐点生长出各骨架分支,同时在骨架生长过程中用离散曲线演化模型消除造成信息冗余的骨架枝,保留视觉上重要的骨架枝,实现了骨架的多尺度控制,实验证明本算法复杂度低,得到的骨架连通性得到保证,能较好地表示图形中视觉重要成分,符合人类视觉习惯,可直接用于图形识别和形状度量.  相似文献   

17.
基于视觉掩蔽的半脆弱水印技术研究   总被引:8,自引:0,他引:8       下载免费PDF全文
以人眼视觉系统的掩蔽特性为基础,提出了一种基于分组量化的自适应半脆弱水印嵌入方案,该方案能够在不参考原始载体的情况下对数字图像同时进行版权保护和内容认证。仿真实验结果表明,所提出的半脆弱水印方案不仅具有较好的透明性,对JPEG压缩、叠加噪声、平滑滤波等常规图像处理操作具有较好的鲁棒性,而且能够对剪切、替换等恶意图像篡改做出报警并确定被篡改位置。同时常规图像处理下其误检率与漏检率均比较低。  相似文献   

18.
基于上下文感知(Context-Aware,CA)框架的相关滤波算法是新近提出的一种视觉跟踪算法,其不足是在处理快速运动、运动模糊、遮挡、比例变化等情形时同等对待上下文信息,降低了视觉跟踪的鲁棒性。针对上述问题,提出了基于加权全局上下文感知(Weighted Global Context-Aware,WGCA)框架的相关滤波视觉跟踪算法。重构了原始的优化问题;根据上下文不同区域与追踪目标运动相似度的大小,赋予上下文区域不同的权值,计算出权值矩阵;给出了单通道和多通道情形的原始域、对偶域的闭式解。通过在基准测试集OTB-100上进行实验,结果表明该框架显著提高了相关滤波器的鲁棒性,其跟踪速度与CA框架相当,但跟踪精度和成功率较后者分别提高了7%和14%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号