期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张杰张焱黄志同《数据采集与处理》1998,(3)

根据汉语语音的特点，提出了一种无端点检测的语音识别算法。在识别过程中，该算法无需确定语音信号起止点位置，而是从寂静段开始，直接按帧提取特征（帧长２０ｍｓ，帧间重叠５０％），特征向量由１５阶倒谱系数和帧平均能量组成。在动态时间规整（ＤＴＷ）和隐马尔可夫（ＨＭＭ）统一模型（ＤＨＵＭ）中，引进寂静段自环，并用ＤＨＵＭ实现了该算法。对９９个相似汉语单字的识别实验表明：无端点检测的识别器正识率为９４．９５％，正识率下降很少，但不作端点检测却降低了算法的复杂程度。该算法中，若特征向量采用一种听觉模型特征，识别器具有更好的鲁棒性，识别率会略有提高。相似文献

2.

语音识别中广义模型及其算法收敛性分析

张杰余志刚黄志同《计算机工程与应用》2000,36(2):60-62

语音识别中,动态时间规整（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ,简称ＤＴＷ）和隐马尔可夫模型（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ,简称ＨＭＭ）是最有效的两种识别算法,并且ＤＴＷ和ＨＭＭ在本质上是一致的~［１］。根据ＤＴＷ和ＨＭＭ的本质联系和各自所对应的声学模型,在前期工作中建立了一种广义声学模型 ~［２］［３］（ＧｅｎｅｒａｌＭｏｄｅｌ,简称ＧＭ）,并指出ＤＴＷ和ＨＭＭ只是ＧＭ的特例,且ＤＴＷ和ＨＭＭ都可以转化为ＧＭ。并在此基础上,首次将Ｆｉｓｈｅｒ算法~［４］引进ＧＭ的学习算法,确保了ＧＭ状态分割的收敛性,并且这种分割在最小离差意义上是全局精确最优的。最后,从大数定理的角度出发,对ＧＭ算法的收敛性进行了分析, 从理论上论证了该算法的依概率收敛性,并为实际应用中ＧＭ算法的有效性提供了理论依据。相似文献

3.

对步态空时数据的连续特征子空间分析 总被引：1，自引：0，他引：1

下载免费PDF全文

胡荣王宏远《中国图象图形学报》2011,16(4):625-633

提出一种基于空时特征提取的人体步态识别算法。连续的特征子空间学习依次提取出步态的时间与空间特征：第一次特征子空间学习对步态的频域数据进行主成分分析,步态数据被转化为周期特征矢量;第二次特征子空间学习对步态数据的周期特征矢量形式进行主成分分析加线性判别分析的联合分析,步态数据被进一步转化为步态特征矢量。步态特征矢量同时包含运动的周期特征以及人体的形态特征,具有很强的识别能力。在USF步态数据库上的实验结果显示,该算法识别率较其他同类算法有明显提升。相似文献

4.

语音识别中动态时间规整和隐马尔可夫统一模型 总被引：1，自引：0，他引：1

张焱张杰《数据采集与处理》1997,12(3):218-222

对于目前在语音识别中广泛使用的两种技术即动态时间规整（ＤＴＷ）技术和隐马尔可夫模型（ＨＭＭ）的本质联系，提出了二者的统一模型（ＤＨＵＭ，ＤＴＷａｎｄＨＭＭＵｎｉ－ｆｉｅｄＭｏｄｅｌ），并分别给出ＤＴＷ和ＨＭ向ＤＨＵＭ的转换关系。文中还提出了用ＤＨＵＭ解决更接近语音实际情况的高阶ＨＭＭ作语音识别时所面临的运算量过大的问题。中等词表的识别实验结果表明，建立在ＤＨＵＭ之上的识别器的识别性能不低于相似文献

5.

基于动态贝叶斯网络的音视频连续语音识别和音素切分

吕国云蒋冬梅蒋晓悦赵荣椿侯云舒孙阿利 H. Sahli W. Verhelst 《计算机应用》2007,27(7):1670-1673

构造了两个单流单音素的动态贝叶斯网络（DBN）模型，以实现基于音频和视频特征的连续语音识别，并在描述词和对应音素具体关系的基础上，实现对音素的时间切分。实验结果表明，在基于音频特征的识别率方面：在低信噪比（0~15dB）时，DBN模型的识别率比HMM模型平均高12.79%；而纯净语音下，基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别，DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系，为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。相似文献

6.

基于TMS320C6701EVM板的说话人识别系统

王波徐毅琼李弼程《微计算机信息》2006,22(29):55-56

本文在TMS320C6701EVM板的基础上实现一种快速的说话人识别系统。本文提出一种基于段级语音特征的说话人识别的快速算法,该算法在传统的GMM算法的基础上使用段级语音特征对测试语音进行数据量压缩,以减少计算时间。并基于车比雪夫和不等式提出了基于协方差模型的段级特征的失真测度描述。本文根据实验选择了段级特征语音段长度,实验表明该算法在不显著影响识别率的基础上有效地减少了算法延迟,提高了识别速度。相似文献

7.

基于组合特征的高效数字识别算法 总被引：3，自引：0，他引：3

孔月萍曾平李智杰郑海红徐培培《计算机应用研究》2006,23(10):172-173

针对监控屏幕中的数字字符提出了一种高效的识别算法。该算法利用字符图像的欧拉数、凹陷区、水平和垂直穿线等组合特征完成级联分类,无须对待识别字符进行规整、细化和轮廓提取处理,降低了算法复杂度,减少了因细化变形、轮廓断裂引起的误识和拒识。在以此算法为基础实现的监控信息自动采集与记录系统中,对5 000多个屏幕显示数字字符进行识别测试,平均每秒处理125个数字,正确识别率达到98.70%,误识率仅为1.30%。实验表明该算法在处理速度、识别精度、抗干扰性方面表现良好。相似文献

8.

改进证据理论的多生物特征融合方法

温苗利张洪才《计算机工程与应用》2013,49(18):176-179

多生物特征融合考虑了个体的多种生理或行为特征,因而能显著地改善系统的识别性能,成为生物特征识别技术未来发展趋势之一。利用训练样本的识别率和误识率,提出了基于证据理论的多生物特征融合识别方法;对各识别专家的识别率和误识率进行分析,提出了一种基于累积频率和证据理论（Cumulative Frequency based D-S,CFDS）的多生物特征融合方法;通过几个实验证明了改进的D-S算法的有效性,提高了合成结果的可靠性。相似文献

9.

基于多模板特征点融合的指纹识别 总被引：2，自引：0，他引：2

下载免费PDF全文

叶学义庄镇泉张云超水孝敏《中国图象图形学报》2005,10(2):170-174

低质量指纹图像通常会产生较多的伪特征点，或者当待识指纹图像与模板图像之间存在较大平移和旋转时，识别算法的性能会受到很大的影响。利用多匹配算法的融合技术可以提高系统的识别率，但是这种数据融合的方法既增大了计算量，同时又难以充分利用原始指纹图像的信息。针对上述问题，提出了一种评估特征点置信度的方法，并在匹配算法中根据特征点置信度来修正匹配分数；然后运用特征层数据融合技术，将一个指纹的多个模板的特征点融合成一个特征点的本征模板，再与待识指纹图像的特征点进行匹配。实验结果表明，该方法在不明显增加存储空间和在线计算量的同时，可以达到很好的识别性能。相似文献

10.

一种新的基于区域特征的快速步态识别方法 总被引：4，自引：0，他引：4

下载免费PDF全文

柴艳妹赵荣椿《中国图象图形学报》2006,11(9):1260-1265

步态是生物特征识别领域的一个新兴热点，它有以下3大优势：远距离识别、非侵犯性和难于隐藏。由于当前提出的大量步态特征提取算法要么过于复杂，要么识别率不高，难以满足自动步态识别的需要，因此，为了进行准确快速的步态识别，提出了一种新的基于区域特征的快速步态识别方法。该方法首先将检测出的2维人体侧影分为头部、躯干和腿部3个区域；然后分别提取每个区域的目标面积；最后将这些面积特征和人体的宽高比特征一起构成步态特征矢量用于训练和识别。此外，还改进了一种新的N—best分类器，该分类器在一定程度上提高了算法的识别率。实验结果表明，该新方法不仅简单快速，而且在UCSD和CMU数据集上分别得到了90％和98％左右的高识别率。相似文献

11.

基于声学模型共享的零资源韩语语音识别

王皓宇 JEON Eunah 张卫强李科黄宇凯《数据采集与处理》2023,38(1):93-100

精准的语音识别系统通常使用大量的有标注语音数据训练得到,但现有的开源大规模数据集只包含一些广泛使用的语言,诸多小语种则面临着训练数据不足的问题。声学模型共享方法给出了这个问题的一种解决方法,它利用不同语种间的相似性,可以实现不需要小语种语音数据的语音识别。本文将声学模型共享方法扩展到韩语语音识别上,利用汉语声学模型构建韩语和汉语之间的音素映射关系。在不使用任何韩语语音数据的情况下构建的语音识别系统在Zeroth测试集上的字错误率达到了27.33%。同时本文还测试了不同映射方式之间的差异,结果表明这种共享模型的音素映射应当采用将目标语言词汇映射为源语言音素的方式。相似文献

12.

Speech recognition for mobile devices

Alexander Schmitt Dmitry Zaykovskiy Wolfgang Minker 《International Journal of Speech Technology》2008,11(2):63-72

This article presents an overview of different approaches for providing automatic speech recognition (ASR) technology to mobile users. Three principal system architectures with respect to the employment of a wireless communication link are analyzed: Embedded Speech Recognition Systems, Network Speech Recognition (NSR) and Distributed Speech Recognition (DSR). An overview of the solutions having been standardized so far as well as a critical analysis of the latest developments in the field of speech recognition in mobile environments is given. Open issues, pros and cons of the different methodologies and techniques are highlighted. Special emphasis is placed on the constraints and limitations ASR applications are confronted with under different architectures. 相似文献

13.

双模态车载语音控制仿真系统的设计与实现

严乐贫奉小慧《计算机与现代化》2010,(8):211-215

针对音、视频双模态语音识别能有效地提高噪声环境下的识别率的特性,本文设计了车载语音控制指令识别实验系统。该系统模拟车载环境,把说话时的视频信息融入到语音识别系统中,系统分为模型训练、离线识别和在线识别3部分。在线识别全程采用语音作为人机交互手段,并具备用户自适应的功能。离线识别部分将系统产生的数据分层次进行统计,非常适合进行双模态语音识别算法研究。相似文献

14.

Interactive Speech Translation in the Diplomat Project

Robert Frederking Alexander Rudnicky Christopher Hogan Kevin Lenzo 《Machine Translation》2000,15(1-2):27-42

The Diplomat rapid-deployment speech-translation systemis intended to allow naï ve users to communicate across a languagebarrier, without strong domain restrictions, despite the error-pronenature of current speech and translation technologies. In addition,it should be deployable for new languages an order of magnitude morequickly than traditional technologies. Achieving this ambitious setof goals depends in large part on allowing the users to correct recognition and translation errors interactively. We present the Multi-Engine Machine Translation (MEMT) architecture, describing how it is well suited for such an application. We then discuss ourapproaches to rapid-deployment speech recognition and synthesis.Finally we describe our incorporation of interactive error correctionthroughout the system design. We have already developed workingbidirectional Croatian English and Spanish English systems, and have Haitian Creole English and Korean English versions under development. 相似文献

15.

言语信息处理的进展 总被引：1，自引：0，他引：1

蔡莲红贾珈郑方《中文信息学报》2011,25(6):137-142

该文介绍了言语信息处理的进展,特别提到汉语言语处理的现状。言语信息处理涉及到言语识别、说话人识别、言语合成、言语知觉计算等。带口音和随意发音的言语识别有力的支持了语言学习与口语水平测评等应用;跨信道、环境噪音、多说话人、短语音、时变语音等因素存在的情况下提高识别正确率,是说话人识别的研究热点;言语合成主要关注多语言合成、情感言语合成、可视言语合成等;言语知觉计算开展了言语测听、噪声抑制算法、助听器频响补偿方法、语音信号增强算法等研究。将言语处理技术与语言、网络有效结合,促进了更加和谐的人机言语交互。相似文献

16.

基于语音识别技术的智能控制系统设计

王富中黄文浩《自动化与仪表》2006,21(4):8-10

语音识别技术近些年来发展非常迅速，并且在许多方面已经有了很好的应用。以语音识别技术在对话娃娃中的应用为例，阐述如何利用语音识别技术来设计智能控制系统，并详细介绍了系统的结构和原理。该系统具有很好的扩展性，稍微做些改动，就可以设计出各种各样的语音控制系统。相似文献

17.

连续语音识别和语音翻译

林道发杨家沅《计算机应用与软件》1994,11(2):15-19,25

本文介绍了在连续语音识别和语音机器翻译方面所进行的工作。我们已在中等词汇量范围、限定说话主题的条件下，实现了特定人的连续话句的识别。并实现了一个英汉语音翻译实验演示系统。相似文献

18.

计算机语言识别技术应用的探究

侯亚君《电脑开发与应用》2014,(3):235-238

在科技高速发展的今天,计算机从多方面帮助人们拓宽视野,丰富知识,增加接触新事物的途径。因此,计算机在生活和工作中占有的地位越来越重要,它已经成为工作和学习中不可或缺的一部分。如今,为了国家实力的不断增强,各个国家都在计算机技术方面进行了大量的投入。为了计算机技术能够更好地造福人类,应该大力推动计算机语言识别技术的发展,让计算机能够更好地造福人类,造福社会。相似文献

19.

电视剧语音识别中的半监督自动语音分割算法

龙艳花茅红伟叶宏《数据采集与处理》2019,34(2):281-287

针对具有大段连续文本标注、但无时间标签的电视剧语音提出了一种半监督自动语音分割算法。首先采用原始的标注文本构建一个有偏的语言模型,然后将该语言模型以一种半监督的方式用于电视剧语音识别中,最后利用自动语音识别的解码结果对传统的基于距离度量、模型分类以及基于音素识别的语音分割算法进行改进。在英国科幻电视剧“神秘博士”数据集合上的实验结果表明,提出的半监督自动语音分割算法能够取得明显优于传统语音分割算法的性能,不仅有效解决了电视剧语音识别中大段连续音频的自动分割问题,还能对相应的大段连续文本标注进行分段,保证分割后各语音段时间标签及其对应文本的准确性。相似文献

20.

基于文音相似度的语音查询系统的设计与开发

李红莲宋占岭《计算机工程与应用》2006,42(26):221-223

随着语音识别研究的深入,提高通用识别引擎的精度变得越来越困难。但对具体的语音识别任务,结合相应的背景,采取相应的措施,有可能达到很理想的识别精度。在已知语音输入为某有限集元素之一的情形,利用文本在发音上的相似度可以大大提高识别的精度。本文首先介绍了文音相似度的概念,然后给出了利用文音相似度设计开发语音查询系统的过程和例子。相似文献