期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

语音识别中动态时间规整和隐马尔可夫统一模型 总被引：1，自引：0，他引：1

张焱张杰《数据采集与处理》1997,12(3):218-222

对于目前在语音识别中广泛使用的两种技术即动态时间规整（ＤＴＷ）技术和隐马尔可夫模型（ＨＭＭ）的本质联系，提出了二者的统一模型（ＤＨＵＭ，ＤＴＷａｎｄＨＭＭＵｎｉ－ｆｉｅｄＭｏｄｅｌ），并分别给出ＤＴＷ和ＨＭ向ＤＨＵＭ的转换关系。文中还提出了用ＤＨＵＭ解决更接近语音实际情况的高阶ＨＭＭ作语音识别时所面临的运算量过大的问题。中等词表的识别实验结果表明，建立在ＤＨＵＭ之上的识别器的识别性能不低于相似文献

2.

自适应帧长特征提取对语音识别系统性能的影响

贺前华陆以勤韦岗《计算机工程》2000,26(1):82-83,F003

提出一种自适应帧长语音特征分析方法,使语音编码更准确,达到提高语音识别性能无愧迁滤帧检测和过渡语音特征表示两方面。采用了两种特征表示方法。基于ＴＩＭＴＴ语音数据包和自定义的汉语语音数据的单词识别实验表明,这两种表示方面有相同的效果,都能在一定程度上提高知识系统的性能,但计算量稍有区别。基于ＴＩＭＩＴ数据的ＤＨＭＭ系统和ＣＨＭＭ系统的错误率分别下降了１１．２１％和９．５８％,基于自定义数据的ＤＨＭＭ相似文献

3.

HMM算法框架在银行语音服务中的实现 总被引：2，自引：0，他引：2

邵央冯哲李宗葛《计算机工程》2000,26(11):126-128

语音识别尤其是电话语音识别技术得到了广泛的应用。介绍了用Ｄｉａｌｏｇｉｃ卡采集电话语音,并且采用ＨＭＭ算法框架实现语音识别器,构建一个实用的银行语音服务系统。最后给出了该系统的测试结果。相似文献

4.

几种小训练样本集的数字语音识别模型的比较性研究 总被引：1，自引：0，他引：1

贺苏宁虞厥邦《计算机科学》2005,32(9):170-175

本文通过对小训练样本集的基于DTW结构的数字语音识别模型的比较性分析,指出其存在的三个一般性问题：（1）DTW逐帧匹配模式割裂了观测向量序列的内在联系;（2）压扩观测向量序列造成局部信息使用的不均匀;（3）计算复杂度高,识别率低.为了解决这些问题,我们提出了基于数字语音时频信息整体结构的单特征向量识别模型.这种模型完整地利用了观测向量序列的全部信息,结合置信度评估和自适应反馈学习之后可及时地吸收测试向量携带的新的环境特征信息,调整识别模型结构.该模型的错识率较之最好的基于DTW结构的混合域模型的错识率降低50%以上,计算复杂度则是固定帧长模型的13.12%. 相似文献

5.

基于字统计语言模型的汉语语音识别研究 总被引：1，自引：0，他引：1

吴应良韦岗李海洲《计算机应用研究》2000,17(5):6-8

隐马尔可夫模型（ＨＭＭ）由于较好地描述了语音的特性,在语音识别的研究中占主导地位,基于ＨＭＭ的识别算法也因取得了较好的识别效果而得到广泛应用．但其仅仅依靠语音信号的声学模型来进行识别处理,因此存在着不能利用语言的非声学知识进行识别的固有缺陷．该文提出的新方法将基于Ｎ元文法（Ｎ－ｇｒａｍ）的统计语言模型应用于汉语语音识别,推导了模型多数的估值公式,并给出了模型的训练和识别算法．初步实验表明：引入统计语言模型有利于降低识别难度和改善语音识别性能．相似文献

6.

基于动态时间规整和隐马尔可夫统一模型的无端点检测的汉语

张杰张焱《数据采集与处理》1998,13(3):220-223

根据治语语音的特点，提出了一种无端点检测的语音识别算法。相似文献

7.

基于定点DSP芯片实现的极低码率实时语音编解码器 总被引：2，自引：1，他引：1

吴芸徐超《电子技术应用》1997,(11)

基于定点高速数字信号处理芯片ＡＤＳＰ—２１８１实现的高质量的实时语音编解码器，具有两种可选择码率（５．３ｋｂｐｓ／６．３ｋｂｐｓ），符合国际通信协议ＩＴＵ—ＴＧ．７２３．１，并且支持寂静段检测和解码端柔和噪声插入。着重介绍该语音解码器的硬、软件设计及算法实现的关键技术。相似文献

8.

用于语音识别拒识的隐马尔可夫模型状态及状态驻留相关的声学置信量度 总被引：1，自引：0，他引：1

田斌田红心刘丹亭易克初《计算机研究与发展》1999,36(11):1398-1401

随着语音识别系统继续从实验室转向实际应用,语音拒识就变得愈来愈重要．为解决语音识别系统对识别候选的接受／拒识判决问题,文中提出了基于隐马尔可夫模型（ＨＭＭ）的语音识别系统中状态和状态驻留相关的声学置信量度准则．给定状态下特征矢量的平均观测先验概率和给定特征矢量状态的后验概率均比较容易设定统一的拒识门限,且不需专门的训练．而状态驻留分布相关法则是基于驻留分布概率和置信区间理论,不仅可设定一个拒识门限,同时可给出语音识别候选的状态驻留可信度．实验表明上述拒识准则能很好地拒识误识别候选和词表外语音（ＯＯＶ或非关键词）,从而在较低拒识率的情况下有效地提高系统的识别率相似文献

9.

基于HMM与SVM的语音活动检测

肖佳林赵聿晴王英《计算机工程》2014,(1):203-208

工程机械强噪音环境下的噪声源较多,导致电话语音通话无法进行,且强噪声造成无效数据占用带宽。为此,提出基于隐马尔科夫模型(HMM)和支持向量机(SVM)的语音活动检测算法。该算法将提取的美尔频率倒谱系数特征向量输入到HMM识别器中,并通过Viterbi算法得到N维最佳识别结果,将其转换为SVM特征向量输入到SVM分类器中进行分类判别,得到判决结果。实验结果表明,该算法在机械工作噪音的情况下,语音检测率较静态统计类算法平均提高9%,比小波支持向量机方法提高11%,在驾驶室噪音的情况下比小波SVM方法有较小幅度的提高,但其增长速度较快,且比传统的统计类算法提高9%。相似文献

10.

语音识别中广义模型及其算法收敛性分析

张杰余志刚黄志同《计算机工程与应用》2000,36(2):60-62

语音识别中,动态时间规整（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ,简称ＤＴＷ）和隐马尔可夫模型（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ,简称ＨＭＭ）是最有效的两种识别算法,并且ＤＴＷ和ＨＭＭ在本质上是一致的~［１］。根据ＤＴＷ和ＨＭＭ的本质联系和各自所对应的声学模型,在前期工作中建立了一种广义声学模型 ~［２］［３］（ＧｅｎｅｒａｌＭｏｄｅｌ,简称ＧＭ）,并指出ＤＴＷ和ＨＭＭ只是ＧＭ的特例,且ＤＴＷ和ＨＭＭ都可以转化为ＧＭ。并在此基础上,首次将Ｆｉｓｈｅｒ算法~［４］引进ＧＭ的学习算法,确保了ＧＭ状态分割的收敛性,并且这种分割在最小离差意义上是全局精确最优的。最后,从大数定理的角度出发,对ＧＭ算法的收敛性进行了分析, 从理论上论证了该算法的依概率收敛性,并为实际应用中ＧＭ算法的有效性提供了理论依据。相似文献

11.

有限状态矢量量化在语音端点检测中的应用

魏艳娜张景峰金永涛《计算机工程与应用》2012,48(17):161-164,169

语音端点检测在语音处理中占有非常重要的地位,传统的检测方法是基于短时能量和过量率的双门限比较法,但是在信噪比较低的情况下,利用短时能量和过量率很难得到准确的检测结果。另外,在双门限比较法中,判别门限的取值对整个端点的检测影响很大,而这个门限值往往是靠经验所得,具有不稳定性。因此,针对传统方法的不足,根据语音帧间相关性,提出了一种改进算法。让语音信号通过双门限比较,完成端点检测的一级粗判,在语音起止点的模糊帧段,取一定范围的信号矢量,让这些矢量经过处理后再通过有限状态矢量量化器(FSVQ),得到量化矢量,再对量化矢量进行二级细判,从而得到准确的语音起止点。将改进算法应用于汉语连续数字语音识别,平均识别时间由原来的0.871s缩短为0.719s,平均识别率由原来的81.47%上升至89.13%,实验结果表明了该算法的有效性。相似文献

12.

一种基于语义的视频场景分割算法

曹建荣《中国图象图形学报》2006,11(11):1657-1660

针对如何在镜头基础上进行聚类，以得到更高层次的场景问题，提出了一个基于语义的场景分割算法。该算法首先将视频分割为镜头，并提取镜头的关键帧。然后计算关键帧的颜色直方图和MPEG-7边缘直方图，以形成关键帧的特征；接着利用镜头关键帧的颜色和纹理特征对支持向量机（SVM）进行训练来构造7个基于SVM对应不同语义概念的分类器，并利用它们对要进行场景分割的视频镜头关键帧进行分类，以得到关键帧的语义。并根据关键帧包含的语义概念形成了其语义概念矢量，最后根据语义概念矢量通过对镜头关键帧进行聚类来得到场景。另外．为提取场景关键帧，还构建了镜头选择函数，并根据该函数值的大小来选择场景的关键帧。实验结果表明，该场景分割算法与Hanjalic的方法相比，查准率和查全率分别提高了34．7％和9．1％。相似文献

13.

基于内容的语音课件关键词检索系统:设计与实现

王霅煜涂惠燕《计算机应用与软件》2011,28(4)

为了在远程教育环境中满足多媒体课件的关键词检索需求,描述了一种基于矢量量化(VQ)及连续语音识别(CSR)的关键词检索系统的设计与实现。该系统首先利用矢量量化算法对声学特征空间进行聚类并生成码本;接着利用该码本对语音文件逐帧进行处理并保存若干与该帧特征最相似的码表向量所对应的码值做成特征矩阵;然后利用改进的快速符号查找算法从特征矩阵中找出若干候选结果段;使用经简化的连续语音识别算法对候选段进行验证筛选,从而得到最终的结果。在此基础上利用一些测试数据给出其性能表现并做出分析。相似文献

14.

A probabilistic framework for segment-based speech recognition

《Computer Speech and Language》2003,17(2-3):137-152

Most current speech recognizers use an observation space based on a temporal sequence of measurements extracted from fixed-length “frames” (e.g., Mel-cepstra). Given a hypothetical word or sub-word sequence, the acoustic likelihood computation always involves all observation frames, though the mapping between individual frames and internal recognizer states will depend on the hypothesized segmentation. There is another type of recognizer whose observation space is better represented as a network, or graph, where each arc in the graph corresponds to a hypothesized variable-length segment that is represented by a fixed-dimensional “feature”. In such feature-based recognizers, each hypothesized segmentation will correspond to a segment sequence, or path, through the overall segment-graph that is associated with a subset of all possible feature vectors in the total observation space. In this work we examine a maximum a posteriori decoding strategy for feature-based recognizers and develop a normalization criterion useful for a segment-based Viterbi or A^* search. Experiments are reported for both phonetic and word recognition tasks. 相似文献

15.

基于谱残差和聚类法的运动目标检测研究

马琴张兴忠李海芳邓红霞《计算机工程与科学》2018,40(10):1867-1873

传统基于特征点匹配的目标检测算法目标识别率低、误检率较高是因为特征点匹配不准确、目标轮廓不连续。针对这一问题,分别引入谱残差算法和k means聚类算法,并加以改进,提出一种基于谱残差算法和k means聚类算法的运动目标检测算法。具体方法是：首先,每隔两帧提取加速鲁棒特征SURF并对图像配准,再对帧差结果采用谱残差算法提取视觉显著性特征,去除因匹配不准确造成的噪点和伪运动目标;其次,形态学处理之后引入改进后的k means聚类算法,对不连续的轮廓进行聚类;最后形成完整的目标。实验显示,本文算法目标识别率达到90.61%,误检率达到21.25%,分别优于传统基于SURF特征的运动目标检测算法66.60%的识别率、31.91%的误检率和基于新的局部不变性特征ORB匹配的目标检测算法87.573%的识别率、26.80%的误检率。虽然该算法平均运行时间为18 fps,但仍可以满足视频流畅的需求,因此动态背景下该算法可做为一种有效的运动目标检测算法使用。相似文献

16.

基于顺序统计滤波的实时语音端点检测算法 总被引：1，自引：0，他引：1

郭丽惠何昕张亚昕吕岳《自动化学报》2008,34(4):419-425

针对嵌入式语音识别系统,提出了一种高效的实时语音端点检测算法. 算法以子带频谱熵为语音/噪声的区分特征, 首先将每帧语音的频谱划分成若干个子带, 计算出每个子带的频谱熵, 然后把相继若干帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵, 根据频谱熵的值对输入的语音进行分类. 实验结果表明, 该算法能够有效地区分语音和噪声, 可以显著地提高语音识别系统的性能. 在不同的噪声环境和信噪比条件下具有鲁棒性. 此外, 本文提出的算法计算代价小, 简单易实现, 适合实时嵌入式语音识别系统的应用. 相似文献

17.

Content-Dependent Watermarking Scheme in Compressed Speech With Identifying Manner and Location of Attacks 总被引：2，自引：0，他引：2

Chen O.T.-C. Chia-Hsiung Liu 《IEEE transactions on audio, speech, and language processing》2007,15(5):1605-1616

As speech compression technologies have advanced, digital recording devices have become increasingly popular. However, data formats used in popular speech codecs are known a priori, such that compressed data can be modified easily via insertion, deletion, and replacement. This work proposes a content-dependent watermarking scheme suitable for codebook-excited linear prediction (CELP)-based speech codec that ensures the integrity of compressed speech data. Speech data are initially partitioned into many groups, each of which includes multiple speech frames. The watermark embedded in each frame is then generated according to the line spectrum frequency (LSF) feature in the current frame, the pitch extracted from the succeeding frame, the watermark embedded in the preceding frame, and the group index which is determined by the location of the current frame. Finally, some of the least significant bits (LSBs) of the indices indicating the excitation pulse positions or excitation vectors are substituted for the watermark. Conventional watermarking schemes can only detect whether compressed speech data are intact. They cannot determine where compressed speech data are altered by insertion, deletion, or replacement, whereas the proposed scheme can. Experiments established that the proposed scheme used in the G.723.1 6.3 kb/s speech codecs embeds 12 bits in each compressed speech frame with 189 bits, and only decreases the perceptual evaluation of speech quality (PESQ) by 0.11. Additionally, its accuracy in detecting the locations of attacked frames is very high, with only two normal frames mistaken as attacked frames. Therefore, the proposed watermarking scheme effectively ensures the integrity of compressed speech data. 相似文献

18.

一种基于Hilbert-Huang变换的基音周期检测新方法 总被引：14，自引：0，他引：14

杨志华齐东旭杨力华《计算机学报》2006,29(1):106-115

利用Hilbert-Huang变换对语言信号处理中基于事件的基音周期检测问题提出了一种新的检测方法．该方法利用Huang等人1998年提出的具有高时频分辨能力的Hilbert-Huang变换分析语音信号,并提取其瞬时能量,通过精确定位声门脉冲发生的时刻,从而精确地跟踪基音周期的变化,达到精确检测基音周期的目的．与传统方法相比,其优点主要表现在：（1）不需要对语音信号作短时平稳性假设;（2）检测精度高,适应范围广;（3）具有跟踪基音周期变化的能力;（4）能精确区分清浊音}（5）与传统方法相比,帧长大大增加,因而,在提取连续语音信号的基音轮廓时,用于分帧和拼合的开销大大减少,帧间拼合痕迹小．仿真数据和实际语音信号检测实验均获得了相当精确的检测结果．最后,需要指出的是,Hilbert-Huang变换作为一种新的信号分析方法,被成功地用于提取语音信号的基音周期,这本身是一个有意义的探索,它为拓展Hilbert-Huang变换理论的应用给出了一个新的尝试．相似文献

19.

A heuristic search-based motion correspondence algorithm using fuzzy clustering

Ki-Yeol Eom Jae-Young Jung Moon-Hyun Kim 《International Journal of Control, Automation and Systems》2012,10(3):594-602

Motion correspondence problem between many feature points of consecutive frames is computationally explosive. We present a heuristic algorithm for finding out the most probable motion correspondence of points in consecutive frames, based on fuzzy confidence degrees. The proposed algorithm consists of three stages: (i) reduction of the search space for candidate points of association, (ii) pairwise association cost estimation and (iii) complete association of every feature point between the consecutive frames. In the first stage, all the points in a frame, frame t-1 are grouped into several groups by using fuzzy clustering. This is done with a Euclidean distance as a similarity measure between the points. The points in the following frame, frame t are also clustered into the same number of groups with respect to the cluster centers of the previous frame. The association between the points of the consecutive frames is allowed only for the points that belong to the same group in each frame. In the second stage, the cost of each association of a point in frame t-1 with a point in frame t is estimated by using motion constraints that are based on the velocity vector and the orientation angle of each point. The cost is measured as a fuzzy confidence degree of each head point, i.e., a point in frame t-1, belonging to each measurement, i.e., a point in frame t. In the final stage, we search for the most likely associations among all the possible mappings between the feature points in the consecutive frames. A search tree is constructed in such a way that an ith level node represents an association of ith node in frame t-1 with a node in frame t. We devise a heuristic function of an admissible A* algorithm by using the pairwise association cost developed in the second stage. Experimental results show an accuracy of more than 98%. 相似文献

20.

三焦点张量重投影视频稳像算法

下载免费PDF全文

王敬东薛重飞魏雪迎刘云霄《中国图象图形学报》2017,22(7):935-945

目的目前,特征点轨迹稳像算法无法兼顾轨迹长度、鲁棒性及轨迹利用率,因此容易造成该类算法的视频稳像结果扭曲失真或者局部不稳。针对此问题,提出基于三焦点张量重投影的特征点轨迹稳像算法。方法利用三焦点张量构建长虚拟轨迹,通过平滑虚拟轨迹定义稳定视图,然后利用三焦点张量将实特征点重投影到稳定视图,以此实现实特征点轨迹的平滑,最后利用网格变形生成稳定帧。结果对大量不同类型的视频进行稳像效果测试,并且与典型的特征点轨迹稳像算法以及商业软件进行稳像效果对比,其中包括基于轨迹增长的稳像算法、基于对极几何点转移的稳像算法以及商业软件Warp Stabilizer。本文算法的轨迹长度要求低、轨迹利用率高以及鲁棒性好,对于92%剧烈抖动的视频,稳像效果优于基于轨迹增长的稳像算法;对于93%缺乏长轨迹的视频以及71.4%存在滚动快门失真的视频,稳像效果优于Warp Stabilizer;而与基于对极几何点转移的稳像算法相比,退化情况更少,可避免摄像机阶段性静止、摄像机纯旋转等情况带来的算法失效问题。结论本文算法对摄像机运动模式和场景深度限制少,不仅适宜处理缺少视差、场景结构非平面、滚动快门失真等常见的视频稳像问题,而且在摄像机摇头、运动模糊、剧烈抖动等长轨迹缺乏的情况下,依然能取得较好的稳像效果,但该算法的时间性能还有所不足。相似文献