共查询到18条相似文献,搜索用时 109 毫秒
1.
2.
以藏语夏河话为研究对象,建立了基于三音子的藏语连续语音语料库。首先收集了10万句藏语文本语料库,并根据夏河话的实际发音,进行了国际音标转写;然后总结了夏河话的三音子音联结构形式,并用藏语文本处理平台对其组合类型和在原始文本语料库中的频度进行了详细的统计分析;最后在语音库的语料设计中综合考虑了三音子以及类三音子的覆盖率和稀疏度,设计并完成了语料抽取算法,实现了语料自动选取。 相似文献
3.
基于句子级的唇读语料库及其切分算法 总被引:1,自引:0,他引:1
论文对适合唇读研究的连续音节双模态语料库及其语料切分算法的设计和研究工作进行了讨论。介绍了基于句子级的双模态语料库HITBi-CAVDatabaseII的设计和建立,形式化地讨论了该库的主要特点及基于语音能量的语料切分算法的可行性。该切分算法在基于能量的语音切分算法基础上,结合了双模态语料库的一些特征,实现了对语料的自动切分。 相似文献
4.
大词汇量连续语音识别系统的性能很大程度上取决于语音库的质量,而语音库设计的中心环节就是语料选取。但是传统语料选取方法往往考虑因素单一,不利于语音识别系统有效利用语言信息。本语音库的语料选取方法综合考虑了多种因素:三音子覆盖率、三音子覆盖效率、三音子稀疏度、常用词分布等,并完全实现程序自动选取,充分利用了原始语料,使选取结果的信息量更加丰富。程序自动选取结果可以覆盖94.1%的三音子,75.4%的最常用词,覆盖效率和稀疏度也比传统方法有了较大改善。 相似文献
5.
为实现语音转换,建立符合要求的汉语语音转换语料库,提出一种基于半音节模型的语料自动选取算法。根据语音转换训练时需要语料数量较少的特征,选择半音节作为语料库的基本单位。在此基础上,从原始语料中自动选取语料,根据语音转换对说话人特征较敏感的情况,利用评估函数并根据半音节的出现次数对原始语料中的句子进行打分。实验结果表明,与传统算法相比,该算法在语音库自动选取615句汉语语料时,可以覆盖97.8%的带声调半音节,其覆盖效率、覆盖率和稀疏度有较大改进。 相似文献
6.
基于数据驱动方法的汉语文本-可视语音合成 总被引:7,自引:0,他引:7
计算机文本-可视语音合成系统(TTVS)可以增强语音的可懂度,并使人机交互界面变得更为友好.给出一个基于数据驱动方法(基于样本方法)的汉语文本-可视语音合成系统,通过将小段视频拼接生成新的可视语音.给出一种构造汉语声韵母视觉混淆树的有效方法,并提出了一个基于视觉混淆树和硬度因子的协同发音模型,模型可用于分析阶段的语料库选取和合成阶段的基元选取.对于拼接边界处两帧图像的明显差别,采用图像变形技术进行平滑并.结合已有的文本-语音合成系统(TTS),实现了一个中文文本视觉语音合成系统. 相似文献
7.
8.
汉语语音视觉合成研究数据库CVSS1.0 总被引:1,自引:0,他引:1
目前现有的双模态语音数据库多为外文,且绝大部分都是为语音识别或身份认证服务的。鉴于此,我们根据汉语语音的特点,建立了国内第一个较为完备的汉语语音视觉合成数据库CVSS1.0。它具有如下特点:包含136个单音节和265个连续发音语句的视频和音频数据,其语料规模超出目前同类数据库;语料是在汉语发音方式归类的基础上,依据汉字出现频度的高低选取,其中的独白语句涵盖了大部分的韵律结构,因此其反映的规律具有代表性;记录了脸部发音动作的三维运动信息;用绿点标出了部分MPEG4定义的脸部特征点,方便跟踪;可服务于多种视觉语音合成研究,有很高的通用性。 相似文献
9.
粤语语音合成系统语料库设计研究 总被引:1,自引:1,他引:0
介绍了语料库设计的原理和过程,并结合粤语语音合成系统语料库实现,提出了“语境矢量”的独特设计和“语境总量”的概念,给出了语境总量的计算方法。最后介绍了Greedy算法,并给出了文奉语料搜索的具体流程。 相似文献
10.
11.
Wireless visual sensor networks can provide valuable information for a variety of monitoring and control applications. Frequently, a set of targets must be covered by visual sensors, as such visual sensing redundancy is a desired condition specially when applications have availability requirements for multiple coverage perspectives. If visual sensors become rotatable, their sensing orientations can be adjusted to optimize coverage and redundancy, bringing different challenges as there may be different coverage optimization objectives. Actually, the specific issue of redundant coverage maximization is inherently a multi-objective problem, but usual approaches are not designed accordingly to compute visual sensing redundancy. This article proposes two different evolutionary algorithms that exploit the multi-objective nature of the redundant coverage maximization problem: a lexicographic ”a priori” algorithm and a NSGA-II ”a posteriori” algorithm. The performance of both algorithms are compared, using a previously proposed single-objective greedy-based algorithm as a reference. Numerical results outline the benefits of employing evolutionary algorithms for adjustments of sensors’ orientations, potentially benefiting deployment and management of wireless visual sensor networks for different monitoring scenarios. 相似文献
12.
提出平均视距的概念来衡量路径可视覆盖的最优性,给出以最大平均视距为优化目标的最优可视覆盖路径问题的求解模型.通过预先计算并存储视域信息,采用基于视域融合的模拟退火算法实现了该问题的求解. 相似文献
13.
14.
提出根据直方图特征去除视觉文档图像反渗噪声的方法.对于灰度直方图呈双峰特性的噪声图像,选取适当区域分别进行增强或归一化处理以达到去除反渗噪声的目的;而对于直方图呈单峰特性的含反渗噪声图像,建立了一种基于背景分离的新算法.实验结果表明,该方法可以有效去除视觉文档图像中的反渗噪声. 相似文献
15.
结合模糊C均值聚类算法和人眼视觉特性,提出了一种新的自适应彩色图像水印算法。首先,将彩色图像经模糊聚类分析,选取出适合于水印嵌入的位置;然后,分别在R、G、B 3个通道中利用小波域的视觉掩蔽特性自适应地修改水印嵌入强度,提取时,不需要用到原始图像。实验结果证明,含水印的彩色图像没有出现任何可感知的视觉失真,同时,该算法对一定的图像处理操作具有较强的鲁棒性。 相似文献
16.
17.
以人眼视觉系统的掩蔽特性为基础,提出了一种基于分组量化的自适应半脆弱水印嵌入方案,该方案能够在不参考原始载体的情况下对数字图像同时进行版权保护和内容认证。仿真实验结果表明,所提出的半脆弱水印方案不仅具有较好的透明性,对JPEG压缩、叠加噪声、平滑滤波等常规图像处理操作具有较好的鲁棒性,而且能够对剪切、替换等恶意图像篡改做出报警并确定被篡改位置。同时常规图像处理下其误检率与漏检率均比较低。 相似文献
18.
基于上下文感知(Context-Aware,CA)框架的相关滤波算法是新近提出的一种视觉跟踪算法,其不足是在处理快速运动、运动模糊、遮挡、比例变化等情形时同等对待上下文信息,降低了视觉跟踪的鲁棒性。针对上述问题,提出了基于加权全局上下文感知(Weighted Global Context-Aware,WGCA)框架的相关滤波视觉跟踪算法。重构了原始的优化问题;根据上下文不同区域与追踪目标运动相似度的大小,赋予上下文区域不同的权值,计算出权值矩阵;给出了单通道和多通道情形的原始域、对偶域的闭式解。通过在基准测试集OTB-100上进行实验,结果表明该框架显著提高了相关滤波器的鲁棒性,其跟踪速度与CA框架相当,但跟踪精度和成功率较后者分别提高了7%和14%。 相似文献