首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
陆明明  张连海  屈丹  牛铜 《计算机工程》2012,38(19):159-162
为提高索引覆盖率并获得更多的候选路径,提出一种在词格上融合音位属性的语音文档索引方法.通过基于音位属性检测的语音识别系统建立词格,利用其信息互补性,与传统的词格进行起止节点合并.针对合并后Lattice规模增大的问题,采用基于位置的分段对齐方法对其结构进行压缩.实验结果表明,该方法在提高索引覆盖率和降低最小错误率方面均优于传统的语音文档索引方法,能够有效提高语音检索性能.  相似文献   

2.
基于后验概率解码段模型的汉语语音数字串识别   总被引:4,自引:0,他引:4  
唐赟  刘文举  徐波 《计算机学报》2006,29(4):635-641
通过对语音解码的分析指出了基于似然概率解码的连续语音识别的局限性,并给出了三种基于后验概率段模型(Segment Model,SM)的语音解码方法.这三种方法成功地运用于随机段模型(Stochastic Segment Model,SSM),使误识率比基线系统下降了11%;与此同时还给出了段模型的快速算法,使算法的计算复杂度降到了与隐马尔可夫模型(Hidden Markov Model,HMM)相同的数量级,满足了实用要求.  相似文献   

3.
针对传统谱减法存在的算法缺陷,提出一种基于联合最大后验概率的改进谱减法.传统谱减法通过获取带噪语音与噪声的幅度差值,并提取带噪语音的相位信息进行语音信号重建.该方法因为谱相减产生“音乐噪声”,并因为相位估计不准确,导致低信噪比下信号增强效果不理想.为此,引入多频带谱减法和相位估计,通过划分频谱,分别在子频带进行谱减法,有效降低“音乐噪声”的影响;同时构建基于最大后验概率的相位估计器,联合信号幅度函数和相位函数,通过多次交替迭代得到相位估值.实验结果表明,相对于传统谱减法,在低信噪比下该算法有效提高增强语音的质量感知和可懂度.  相似文献   

4.
针对语音数据在信道传输与云端存储时的安全性问题,以及由于语音数据数目大、维数高、空间复杂度高带来的检索效率问题,提出了一种基于双哈希索引的高效语音生物哈希安全检索算法。首先,在服务端分别提取语音信号的频谱通量与峭度因子特征并将两种特征融合,利用Bagging分类对语音信号的差分哈希分类,并基于分类结果构建密钥分配索引表;然后,根据密钥分配索引表建立具有单一映射密钥的生物特征模板,并将其量化构造生物哈希,得到哈希索引;同时,采用混合域置乱加密算法对原始语音加密,构建密文语音库;最后,将哈希索引与密文语音库上传至云端并构建云端生物哈希索引表。在移动端,采用归一化汉明距离进行匹配检索。实验结果表明:本文算法的匹配阈值区间为(0.2694,0.4173),说明该检索算法能够灵活选取匹配阈值,具有较好的鲁棒性和区分性;检索过程中单条语音平均检索时间仅为9.4957×10-4s,并且经过15种内容保持操作后的查全率与查准率均为100%,说明该算法具有较好的检索性能,可以满足各种环境下的语音检索需求;同时提出的加密算法密钥空间大小为1060,说明能够抵御穷举密钥攻击、保证语音数据的安全;此外,构建的生物特征模板具有良好的多样性、安全性和可撤销性。  相似文献   

5.
本文在深入介绍线性预测编码、倒谱及Gabor滤波法等三种语音特征抽取方法的基础上,提出基于SOM和统计检验的索引、分段索引以及二重索引的方法用于多媒体声音的自动检索。该方法弥补了传统索引方法的不足,适应语音特征,有效地将语音特征动态索引。仿真结果显示,该方法的查询效率要远远优于顺序查找,基本达到了特征索引的要求。  相似文献   

6.
提出了一种融合下界估计和分段动态时间规整的语音样例快速检索方法。该方法针对缺乏合适的训练数据等语音资源较为有限的语言进行快速检索所设计。此方法首先提取查询样例和测试集的音素后验概率;然后,根据限制条件在测试语句中选定候选分段,并计算查询样例和每个候选分段之间实际动态时间规整得分的下界估计,再运用K最近邻搜索算法搜索与查询样例相似度最高的分段;最后,使用虚拟相关反馈技术对检索结果进行修正。实验结果表明:尽管此方法的检索精度略低于直接运用动态时间规整进行检索的检索精度,但其检索速度大大优于后者,且检索结果经过虚拟相关反馈技术修正后,其检索精度也得到有效提升。  相似文献   

7.
汉语语音检索的集外词问题与两阶段检索方法   总被引:2,自引:0,他引:2  
该文针对大规模汉语语音检索任务提出汉语语音检索中的集外词问题和针对集外查询词的两阶段检索方法。汉语语音识别和检索中,集外词可以以词表词序列的形式被识别和检索到,因此被认为不存在集外词问题;该文发现集外查询词性能远远低于集内查询词,将此问题定义为汉语语音检索任务的集外词问题,并提出两阶段的检索方法,第一阶段通过模糊音素匹配的方法提高查全率,第二阶段通过词格修正的方法提高查准率。实验表明,两阶段的检索方法极大的提高了典型集外查询词的检索性能,FOM指标相对基线系统提高了24.1%。  相似文献   

8.
针对实际密文数据库的应用,在全文检索倒排索引技术的基础上,设计了一种通过密文倒排索引文件对其进行快速检索的方法。密文索引文件中主要包含有索引项、相对应的记录主键等信息。检索时,通过用检索词匹配索引文件中的索引项,找到对应的记录主键集合,再根据记录主键集合查询密文数据库,获取相应的密文数据,进行解密即可获取明文数据信息。整个检索过程中不对数据库进行解密,从而实现了在不解密的情况下对密文数据库的快速检索。  相似文献   

9.
在基于动态匹配词格检索( DMLS)的关键词检测系统中,应用最小编辑距离作为关键词检出的置信度,在提高检出率的同时也增加虚警率。针对此问题,文中提出融合后验概率置信度的动态匹配词格检索方法。该方法首先将基于Lattice的后验概率引入到DMLS的索引建立中,其次应用数据驱动的音素替换、插入和删除代价,实现更灵活的近似匹配,最后通过联合最小编辑距离和后验概率置信度得分进行关键词检测。实验表明,最小编辑距离和后验概率置信度具有一定的互补性,系统的等错误率相对降低。  相似文献   

10.
提出一种适用于音频信号的格型矢量量化方法,该方法利用偶数格的特点实现快速的索引分配以及基础码本的压缩存储;将基础码本与球型扩展方法相结合,减小感知重要频带的量化误差。经实验验证,此方法与ITU-T的G729.EV标准中矢量量化效果相当。  相似文献   

11.
针对目前生活中涌现的海量语音数据,人们对语音检索技术准确度的要求越来越高。主要研究了汉语连续语音检索任务中,基于转换音节网格的研究方法。针对语音检索系统中置信度计算的问题,提出了一种基于音节间互信息的置信度计算方法,并将其用于网格结构的语音检索系统中。该方法能够有效地利用上下文之间的互信息量,从而更准确、合理地描述汉语语言模型。实验结果表明,用提出的方法建立转换音节网格来进行语音检索,其检出率(FOM)比后验概率法和N-best法有较大幅度的提高。得到的汉语语音检索系统其FOM最高可以达到83.7%。  相似文献   

12.
一个面向语音识别的云南民族口音普通话语音数据库   总被引:2,自引:0,他引:2  
介绍了一个以语音识别为目的的云南民族口音普通话语音数据库。当前,语音识别技术要走向实用必须解决用户情况多样性带来的鲁棒性问题,通常把这个问题简要地归结为“男女老幼”和“南腔北调”。作为民族文化大省的云南,共有25个少数民族,广大少数民族同胞在说普通话时明显带有地方民族口音,云南民族口音普通话语音识别研究是用户情况多样性研究的重要内容,而为之建立云南民族口音普通话语音数据库是该研究的重要基础和先决条件。  相似文献   

13.
多维向量动态索引结构研究   总被引:4,自引:0,他引:4  
多维向量的索引技术是多媒体数据库系统中的关键技术之一.集中研究基于向量空间模型的动态索引结构,以解决在图像数据库系统中按内容快速检索图像的对象问题.在分析研究R-Tree和R*-Tree的基础上,提出了ER-Tree动态索引结构.该索引树用超球体划分多维向量空间,以有利于计算最近邻;吸取R*-Tree树的重插技术,以增强索引树对数据集整体特征的表达能力,从而提高检索效率;通过引入插入安全点和删除安全点概念,有效地提高建树的效率.同时,给出了基于该结构的特征向量插入算法.实验结果表明,所提出的索引结构建树的  相似文献   

14.
Indexing and Retrieval of Audio: A Survey   总被引:3,自引:0,他引:3  
With more and more audio being captured and stored, there is a growing need for automatic audio indexing and retrieval techniques that can retrieve relevant audio pieces quickly on demand. This paper provides a comprehensive survey of audio indexing and retrieval techniques. We first describe main audio characteristics and features and discuss techniques for classifying audio into speech and music based on these features. Indexing and retrieval of speech and music is then described separately. Finally, significance of audio in multimedia indexing and retrieval is discussed.  相似文献   

15.
Digitization has created an abundance of new information sources by altering how pictures are captured. Accessing large image databases from a web portal requires an opted indexing structure instead of reducing the contents of different kinds of databases for quick processing. This approach paves a path toward the increase of efficient image retrieval techniques and numerous research in image indexing involving large image datasets. Image retrieval usually encounters difficulties like a) merging the diverse representations of images and their Indexing, b) the low-level visual characters and semantic characters associated with an image are indirectly proportional, and c) noisy and less accurate extraction of image information (semantic and predicted attributes). This work clearly focuses and takes the base of reverse engineering and de-normalizing concept by evaluating how data can be stored effectively. Thus, retrieval becomes straightforward and rapid. This research also deals with deep root indexing with a multi-dimensional approach about how images can be indexed and provides improved results in terms of good performance in query processing and the reduction of maintenance and storage cost. We focus on the schema design on a non-clustered index solution, especially cover queries. This schema provides a filter predication to make an index with a particular content of rows and an index table called filtered indexing. Finally, we include non-key columns in addition to the key columns. Experiments on two image data sets ‘with and without’ filtered indexing show low query cost. We compare efficiency as regards accuracy in mean average precision to measure the accuracy of retrieval with the developed coherent semantic indexing. The results show that retrieval by using deep root indexing is simple and fast.  相似文献   

16.
Pronunciation variations in spontaneous speech can be classified into complete changes and partial changes. A complete change is the replacement of a canonical phoneme by another alternative phone, such as 'b' being pronounced as 'p'. Partial changes are variations within the phoneme such as nasalization, centralization and voiced. Most current work in pronunciation modeling for spontaneous Mandarin speech remains at the phone level and can model only complete changes, not partial changes. In this paper, we show that partial changes are much less clear-cut than previously assumed and cannot be modelled by mere representation by alternate phone units. We present a solution for modeling both complete changes and partial changes in spontaneous Mandarin speech. In order to model complete changes, we adapted the decision tree-based pronunciation modeling from English to Mandarin to predict alternate pronunciations. To solve the data sparseness problem, we used cross-domain data to estimate pronunciation variability. To discard the unreliable alternative pronunciations, we proposed a likelihood ratio test as a confidence measure to evaluate the degree of phonetic confusions. In order to model partial changes, we proposed partial change phone models (PCPM) with acoustic model reconstruction. PCPMs are regarded as extended units of standard phoneme or initial/final subword units, and can be used efficiently to represent partial changes. In order to avoid model confusion, we generated auxiliary decision trees for PCPM triphones, and used decision tree merge to perform acoustic model reconstruction. The effectiveness of these approaches was evaluated on the 1997 Hub4NE Mandarin Broadcast News corpus with different styles of speech. Our phone level pronunciation modeling provided an absolute 0.9% syllable error rate reduction, and the acoustic model reconstruction approach was more efficient than that to cover pronunciation variations, yielding a significant 2.39% absolute reduction in syllable error rate for spontaneous speech. In addition, our proposed method deals with partial changes at the acoustic model level and can be applied to any automatic speech recognition system based on subword units.  相似文献   

17.
晁浩  杨占磊  刘文举 《计算机科学》2013,40(10):208-212
提出了一种随机段模型的解码优化算法.检测出具有语音学意义的界标点,根据这些界标点分析临近语音段的边界信息和声韵母类别信息,最后将这些边界信息和类别信息用于指导随机段模型的搜索过程.实验中,两种类型的界标点能较为准确地被检测出来,并用于指导随机段模型的解码,在“863-test”测试集上进行的汉语连续语音识别实验显示,在正确率只有轻微下降的同时,解码时间下降了12.92%,这表明了将语音学知识引入语音识别系统的有效性.  相似文献   

18.
图像是一种典型的可以大量获取的多媒体数据,对它们进行内容管理具有实际意义,描述在BOIC系统中提出并实现的基于聚类机制的图像视觉内容检索和索引方法.首先给出以视觉特征、空间结构、语义注释等来表示图像内容的模型;然后给出基于该模型的三个检索算法,包括基于视觉感知的颜色检索算法、轮廓检索算法、主色调扩展检索算法;最后给出采用集簇算法时媒体数据进行聚类的索引机制.它建立聚类索引表来缩小查询范围,从而提高了检索效率。  相似文献   

19.
本文给出一种以词语为索引项的索引文件存储结构,以及基于这种结构的索引查询算法.首先分析中文索引库的分布规律,接着在此基础上设计了一种逆序存储的三层索引结构,这种结构在创建索引时能根据词语频率自动调整存储顺序,最后给出一种基于自动机和逆向最大匹配的索引查询算法.实验系统TIFS将三层索引结构与B树、哈希方法在时间和空间复杂度方面进行对比,结果表明,对于大规模的中文文本检索,三层索引结构的综合效果最好.  相似文献   

20.
随着大数据时代的到来,各种音频、视频文件日益增多,如何高效地定位关键敏感信息具有非常重要的研究意义。目前研究人员对针对英语和汉语的语音检索技术进行了深入的研究,而针对维吾尔语的语音检索技术还处于起步阶段。该文对维吾尔语语音关键词检索技术进行了研究并采用了大词汇量连续语音识别、利用聚类算法将多候选词图转换为混淆网络、倒排索引、置信度以及相关度的计算等技术和方法,对维吾尔语语音检索系统进行了研究与搭建。最后在测试集上对该系统进行测试,测试结果显示,在语音识别正确率为82.1%的情况下,检索系统的召回率分别达到97.0%和79.1%时,虚警率分别为13.5%和8.5%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号