期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

飞龙高光来闫学亮王炜华《计算机科学》2013,40(9):208-211

蒙古文属于黏着语,词根和后缀能够组合成近百万的蒙古文单词.现有的蒙古语大词汇量连续语音识别(LVCSR)系统的发音词典无法包含所有蒙古文单词.同时发音词典较大时,训练语料的稀疏将导致LVCSR系统的性能明显下降.为了解决LVCSR系统中大多数蒙古文单词的识别问题和蒙古语语音关键词检测系统中大量集外词的检测问题,结合蒙古文的构词特点,提出了基于分割识别的蒙古语LVCSR方法,并建立了对应的声学模型和语言模型.最后,将此方法应用到了蒙古语语音关键词检测系统中并在蒙古语语音语料上进行了测试.实验结果表明,基于分割识别的蒙古语LVCSR方法能解决大部分蒙古文单词的识别问题,并将蒙古语语音关键词检测系统的大量集外词转化成了集内词,大幅度提高了检测系统的查准率和召回率. 相似文献

2.

命令词语音识别系统的置信度改进方法

马红星王海坤刘聪《计算机与现代化》2011,(10):146-149

置信度判决是现代语音识别系统中重要的后处理模块,能够基于语音识别结果及相关信息有效地实现识别错误检测和集外词拒识等功能。本文主要针对受限命令词语音识别系统中的置信度提出两种改进方案,分别是基于高斯混合模型的音素相关置信度得分规整,以及传统置信度特征和时长特征的融合。在中英文测试集上的实验结果表明,上述两种改进方案相对于置信度基线系统的性能都能够获得显著的性能提升,且在性能提升上具有可叠加性。相似文献

3.

结合关键词混淆网络的关键词检出系统

张磊陈晶项学智贾梅梅《智能系统学报》2010,5(5):432-435

为了高效地从大词汇量连续语音识别（LVCSR）的多候选中得到关键词结果,保证最小词错误率,提出了将混淆网络的思想应用到关键词检出系统中.在传统混淆网络生成方法基础上,提出一种改进的更加适合于关键词检出的关键词混淆网络作为关键词检出的中间结构,该方法只对所有关键词竞争候选生成带有得分标记的关键词混淆网络,突出候选之间竞争关系,并根据得分标记确定关键词.与传统的N best作为中间结构的关键词检出系统比较,基于混淆网络的关键词检出系统的召回率为87.11％,提高了21.65%.实验表明,在提高召回率的同时,所提方法具有关键词直接定位的特点,因此具有较低的时间开销. 相似文献

4.

基于词级DPPM的连续语音关键词检测

王勇张连海《计算机工程》2014,(5):247-251

提出一种基于词级区分性点过程模型的连续语音关键词检测方法。利用时间模式结构和多层感知器计算每个音素帧级后验概率,使用区分性点过程模型将一段时间内多个音素事件形成的点过程作为整体,把关键词检测看作二元分类问题,经分段和拼接构成超矢量,输入支持向量机分类器,判断该段语音是否为待检测关键词。该方法充分考虑语音信号上下文相关性,直接以词作为基本单元建模,提高了系统检测的准确性和鲁棒性。实验结果表明,对采样的语音,其关键词平均召回率和准确率分别可达71.5%和84.6%以上,并且结合相关语言模型知识,系统性能将会进一步提高。相似文献

5.

维吾尔语语音检索技术研究

张力文努尔麦麦提·尤鲁瓦斯吾守尔·斯拉木《中文信息学报》2014,28(5):182-186

随着大数据时代的到来,各种音频、视频文件日益增多,如何高效地定位关键敏感信息具有非常重要的研究意义。目前研究人员对针对英语和汉语的语音检索技术进行了深入的研究,而针对维吾尔语的语音检索技术还处于起步阶段。该文对维吾尔语语音关键词检索技术进行了研究并采用了大词汇量连续语音识别、利用聚类算法将多候选词图转换为混淆网络、倒排索引、置信度以及相关度的计算等技术和方法,对维吾尔语语音检索系统进行了研究与搭建。最后在测试集上对该系统进行测试,测试结果显示,在语音识别正确率为82.1%的情况下,检索系统的召回率分别达到97.0%和79.1%时,虚警率分别为13.5%和8.5%。相似文献

6.

基于得分归一化和系统融合的语音关键词检测方法

李鹏屈丹《数据采集与处理》2017,32(2):346-353

为了有效利用不同关键词检测系统的互补性,解决不同系统检测结果置信度得分不在同一范围的问题,提出了一种基于得分规整和系统融合的语音关键词检测方法。首先,为了克服连续语音识别系统中因剪枝错误而引起的关键词丢失问题,应用了关键词相关的软Beam宽度剪枝策略裁剪词图;其次,在系统融合前采用得分归一化方法,使得不同系统关键词检测结果置信度得分在同一范围;最后,通过系统融合处理将不同系统的关键词输出进行整合,得到最终的关键词检测结果。实验结果表明,经过得分归一化处理后,关键词检测性能的实际查询词权重代价(Actual term-weighted value, ATWV)平均相对提升30%;系统融合后关键词的检测性能,相比于得分归一化处理后的最佳单一系统,得到了10%的提升。相似文献

7.

一种改进的基于音节循环的置信度判决方法

戴礼荣张元平王海坤刘聪《计算机工程与应用》2013,49(14):113-116

为获得较为鲁棒的识别性能,一般的语音识别系统中都会在后端加入一个置信度判决模块,以实现识别错误检测和集外词拒识等功能。针对命令词语音识别系统,传统的基于Filler模型的置信度方法由于自身模型结构的限制,性能相对有限,尤其是对集外词的检测效果不好。为此,使用了一种基于音节循环的置信度判决方法,并对该方法的解码网络进行精简,以满足实用化的效率要求。在中文命令词测试集上的实验结果表明,该方法相对于基于Filler模型的置信度方法对识别效果与识别效率都有了较大的提升。相似文献

8.

融合查询扩展和动态匹配的集外词检测

郑永军张连海《数据采集与处理》2014,29(2):286-292

目前关键词检测面临的一个主要挑战是集外词问题。由于集外词发音的不确定性导致其检测性能与集内词相差很多。对此,本文提出了一种融合查询扩展和动态匹配的方法来改善集外词检测的性能。首先比较了基于联合多元模型的查询扩展和基于最小编辑距离的动态匹配。考虑到二者潜在的互补性,采用两种融合方法：一种方法是结果融合,分别应用查询扩展和动态匹配并行的检测集外词,然后合并检测结果;另一种是置信度融合,融合最小编辑距离和发音得分构成混合置信度进行集外词的检出与确认。实验结果表明,第二种融合方法的效果更好,系统的品质因数相对提升了19.8%。相似文献

9.

MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型

刘瑞康世胤高光来李劲东飞龙《中文信息学报》2022,36(7):86-97

针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题：(1)合成效率较低;(2)合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自然度/保真度,根据蒙古语声学特点提出以下三点创新改进：(1)使用蒙古文音素序列来表征蒙古文发音信息;(2)提出音素级的声学调节器以学习长时韵律变化;(3)提出基于蒙古语语音识别和自回归语音合成两种时长对齐方法。同时,该文构建了一个当前最大规模的蒙古语语音合成数据库：MonSpeech。实验结果表明,MonTTS在韵律自然度方面的主观平均意见分数(Mean Opinion Score, MOS)达到4.53,显著优于当前最优的基于Tacotron的蒙古语语音合成基线系统和基线FastSpeech2模型;MonTTS合成实时率达3.63×10^-3,满足实时高保真合成要求。最后,文中涉及的训练脚本和预训练模型全部开源(https://github.com/ttslr/MonTTS)。相似文献

10.

多流信息融合的集外词检索

熊世富郭武《数据采集与处理》2014,29(2):280-285

针对关键词中的集外词检索任务，本文提出采用音素、音节、词片三种子词单元进行多流信息的联合检索算法, 其中对基于音素的STD(Spoken Term Detection)系统使用基于n元语言模型-加权有限状态机的完全匹配检索降低漏警，对基于音节、词片的STD系统使用模糊匹配检索降低虚警, 最后采用线性逻辑回归(Linear Logistic Regression, LLR)的算法将三个子系统的结果进行融合。在NIST STD 2006语音检索评测的英语电话会话语音测试集上的实验结果表明，相对于最好的单流系统，多流信息融合获得了12%的实际词项权重值(Actual Term Weighted Value, ATWV)相对提升。相似文献

11.

汉语语音检索的集外词问题与两阶段检索方法 总被引：2，自引：0，他引：2

孟莎刘加《中文信息学报》2009,23(6):91-98

该文针对大规模汉语语音检索任务提出汉语语音检索中的集外词问题和针对集外查询词的两阶段检索方法。汉语语音识别和检索中,集外词可以以词表词序列的形式被识别和检索到,因此被认为不存在集外词问题;该文发现集外查询词性能远远低于集内查询词,将此问题定义为汉语语音检索任务的集外词问题,并提出两阶段的检索方法,第一阶段通过模糊音素匹配的方法提高查全率,第二阶段通过词格修正的方法提高查准率。实验表明,两阶段的检索方法极大的提高了典型集外查询词的检索性能,FOM指标相对基线系统提高了24.1%。相似文献

12.

混淆网络在音频文档检索系统中的应用研究

下载免费PDF全文

孙成立《计算机工程与应用》2010,46(28):138-140

给出了一个基于音节混淆网络的语音文档内容检索系统,提出了一种基于两阶段解码的查询自动扩展方法,首先通过Viterbi解码算法在混淆音节网格上计算混淆音节的似然得分,然后利用A*解码算法从音节格上产生易混淆的扩展项,扩展项由其置信得分与阈值的比较自动产生。实验结果显示该方法能够有效提高系统的检出率。相似文献

13.

基于词干的蒙古语语音关键词检测方法的研究

飞龙高光来王宏伟《中文信息学报》2016,30(1):124-129

To improve in-vocabulary performance in Mongolian speech keyword spotting task, we propose a Mongolian speech keyword spotting method by searching the stem according to the characteristic of Mongolian word-formation rule. First, Mongolian speech is decoded to lattice file by Segmentation-based LVCSR system, and this lattice file is converted to a confusion network. Then, we detect the keywords according to their stems among the confusion network. Experimental results show that the proposed method outperforms baselines based on word confusion network. 相似文献

14.

Multilingual recognition of non-native speech using acoustic model transformation and pronunciation modeling

G. Bouselmi D. Fohr I. Illina 《International Journal of Speech Technology》2012,15(2):203-213

This article presents an approach for the automatic recognition of non-native speech. Some non-native speakers tend to pronounce phonemes as they would in their native language. Model adaptation can improve the recognition rate for non-native speakers, but has difficulties dealing with pronunciation errors like phoneme insertions or substitutions. For these pronunciation mismatches, pronunciation modeling can make the recognition system more robust. Our approach is based on acoustic model transformation and pronunciation modeling for multiple non-native accents. For acoustic model transformation, two approaches are evaluated: MAP and model re-estimation. For pronunciation modeling, confusion rules (alternate pronunciations) are automatically extracted from a small non-native speech corpus. This paper presents a novel approach to introduce confusion rules in the recognition system which are automatically learned through pronunciation modelling. The modified HMM of a foreign spoken language phoneme includes its canonical pronunciation along with all the alternate non-native pronunciations, so that spoken language phonemes pronounced correctly by a non-native speaker could be recognized. We evaluate our approaches on the European project HIWIRE non-native corpus which contains English sentences pronounced by French, Italian, Greek and Spanish speakers. Two cases are studied: the native language of the test speaker is either known or unknown. Our approach gives better recognition results than the classical acoustic adaptation of HMM when the foreign origin of the speaker is known. We obtain 22% WER reduction compared to the reference system. 相似文献

15.

基于加权有限状态转换器的语音查询项检索技术

陆梨花张连海陈琦《数据采集与处理》2015,30(2):390-398

为了提高语音查询项检索效率，提出了一种在加权有限状态转换器（Weighted finite-state transducer，WFST）框架下以混淆网络代替词格建立索引的技术。在索引建立阶段，首先将词格转化为混淆网络并用自动机形式表示，然后利用自动机构建基于时间的因子转换器，最后将所有因子转换器进行联合及优化得到索引。在查询阶段，将查询项转化为自动机形式后与索引进行合成运算得到表示查询结果的自动机。实验结果表明，在保证系统检测正确率的前提下，与直接以词格建立的WFST索引相比，以混淆网络建立的WFST索引尺寸更小，检索速度更快，因而系统性能更好。相似文献

16.

触发式语言模型下的混淆网络解码方法

下载免费PDF全文

杨春风王欢良《计算机工程与应用》2011,47(10):127-130

将触发式语言模型应用于混淆网络解码过程来提高汉字识别率。为了利用词间的长距离依赖信息,提出了基于词义类对触发式语言模型的混淆网络解码方法。实验结果显示,该方法可以使汉字错误率相对下降7.9%。相似文献

17.

基于控制流的代码混淆技术研究

蒋华刘勇王鑫《计算机应用研究》2013,30(3):897-899

为了提高基于垃圾代码的控制流混淆方法的优化效果, 针对插入分支垃圾代码以及循环垃圾代码会引入大量额外开销的问题, 从软件保护中代码混淆技术出发, 对代码混淆技术的研究现状和原理、混淆算法攻击以及基于控制流混淆技术作了深入研究, 提出一种基于Java代码控制混淆中插入垃圾代码的改进方法。新方法与基于垃圾代码的控制流混淆变换方法比较, 结果表明, 新方法增加了代码抵抗攻击者的静态分析的能力, 增加了反编译以及逆向工程的难度, 既达到了很好的防御逆向工程攻击的效果, 又不会大量引入额外的系统开销。相似文献

18.

Beyond ASR 1-best: Using word confusion networks in spoken language understanding 总被引：1，自引：0，他引：1

Dilek Hakkani-Tür Frdric Bchet Giuseppe Riccardi Gokhan Tur 《Computer Speech and Language》2006,20(4):495-514

We are interested in the problem of robust understanding from noisy spontaneous speech input. With the advances in automated speech recognition (ASR), there has been increasing interest in spoken language understanding (SLU). A challenge in large vocabulary spoken language understanding is robustness to ASR errors. State of the art spoken language understanding relies on the best ASR hypotheses (ASR 1-best). In this paper, we propose methods for a tighter integration of ASR and SLU using word confusion networks (WCNs). WCNs obtained from ASR word graphs (lattices) provide a compact representation of multiple aligned ASR hypotheses along with word confidence scores, without compromising recognition accuracy. We present our work on exploiting WCNs instead of simply using ASR one-best hypotheses. In this work, we focus on the tasks of named entity detection and extraction and call classification in a spoken dialog system, although the idea is more general and applicable to other spoken language processing tasks. For named entity detection, we have improved the F-measure by using both word lattices and WCNs, 6–10% absolute. The processing of WCNs was 25 times faster than lattices, which is very important for real-life applications. For call classification, we have shown between 5% and 10% relative reduction in error rate using WCNs compared to ASR 1-best output. 相似文献

19.

Effect of retroflex sounds on the recognition of Hindi voiced and unvoiced stops

Amita Dev 《AI & Society》2009,23(4):603-612

As development of the speech recognition system entirely depends upon the spoken language used for its development, and the very fact that speech technology is highly language dependent and reverse engineering is not possible, there is an utmost need to develop such systems for Indian languages. In this paper we present the implementation of a time delay neural network system (TDNN) in a modular fashion by exploiting the hidden structure of previously phonetic subcategory network for recognition of Hindi consonants. For the present study we have selected all the Hindi phonemes for srecognition. A vocabulary of 207 Hindi words was designed for the task-specific environment and used as a database. For the recognition of phoneme, a three-layered network was constructed and the network was trained using the back propagation learning algorithm. Experiments were conducted to categorize the Hindi voiced, unvoiced stops, semi vowels, vowels, nasals and fricatives. A close observation of confusion matrix of Hindi stops revealed maximum confusion of retroflex stops with their non-retroflex counterparts. 相似文献