首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
随着大数据时代的到来,各种音频、视频文件日益增多,如何高效地定位关键敏感信息具有非常重要的研究意义。目前研究人员对针对英语和汉语的语音检索技术进行了深入的研究,而针对维吾尔语的语音检索技术还处于起步阶段。该文对维吾尔语语音关键词检索技术进行了研究并采用了大词汇量连续语音识别、利用聚类算法将多候选词图转换为混淆网络、倒排索引、置信度以及相关度的计算等技术和方法,对维吾尔语语音检索系统进行了研究与搭建。最后在测试集上对该系统进行测试,测试结果显示,在语音识别正确率为82.1%的情况下,检索系统的召回率分别达到97.0%和79.1%时,虚警率分别为13.5%和8.5%。  相似文献   

2.
严斌峰  朱小燕 《软件学报》2003,14(12):2014-2020
提出了一种基于联合概率似然得分和概率似然比得分进行语音识别确认的方法,计算搜索路径得分过程中同时考虑概率似然比得分,在给出系统最终识别结果的同时给出置信度水平。实验结果表明,该方法在大大降低识别系统误警率的同时,基本保持识别正确率不变。  相似文献   

3.
基于HMM的汉语语音识别中,易混淆语音的识别率仍然不高.在分析HMM固有缺陷的基础上,本文提出一种使用SVM在HMM系统上进行二次识别来提高易混淆语音识别率的方法.通过引入置信度估计环节,提高系统性能和效率.通过充分利用Viterbi解码获得的信息来构造新的分类特征,从而解决标准SVM难以处理可变长数据的问题.详细探讨这种两级识别结构中置信度估计、分类特征提取和SVM识别器构造等问题.语音识别实验的结果显示,与采用HMM/SVM混合结构的模型相比,本文方法在对识别速度影响很小的情况下可以使识别率有明显提高.这表明所提出的具有置信估计环节的HMM/SVM两级结构用于易混淆语音识别是可行的.  相似文献   

4.
置信度判决是现代语音识别系统中重要的后处理模块,能够基于语音识别结果及相关信息有效地实现识别错误检测和集外词拒识等功能。本文主要针对受限命令词语音识别系统中的置信度提出两种改进方案,分别是基于高斯混合模型的音素相关置信度得分规整,以及传统置信度特征和时长特征的融合。在中英文测试集上的实验结果表明,上述两种改进方案相对于置信度基线系统的性能都能够获得显著的性能提升,且在性能提升上具有可叠加性。  相似文献   

5.
基于语音参数模型的语音隐藏算法   总被引:13,自引:0,他引:13  
陈亮  张雄伟 《计算机学报》2003,26(8):974-981
基于语音参数模型,该文提出一种将保密语音隐藏在公开语音中的信息隐藏算法.首先将保密语音经混合激励线性预测(MELP)编码和纠错编码形成隐藏信息.然后根据瞬态互相关基音周期检测算法确定频域嵌入点,并通过修改对应的DFT系数来隐藏信息.提取时按同样方法确定嵌入点恢复隐藏信息,并经MELP解码还原保密语音.实验结果表明嵌入信息后,中间语音的分段平均信噪比接近60dB,并且在受到压缩、滤波等攻击时具有较强的鲁棒性.算法为信息安全和数字水印领域研究开辟了一条新的途径.  相似文献   

6.
语音文本自动对齐技术广泛应用于语音识别与合成、内容制作等领域,其主要目的是将语音和相应的参考文本在语句、单词、音素等级别的单元进行对齐,并获得语音与参考文本之间的时间对位信息.最新的先进对齐方法大多基于语音识别,一方面,准确率受限于语音识别效果,识别字错误率高时文语对齐精度明显下降,识别字错误率对对齐精度影响较大;另一方面,这种对齐方法不能有效处理不完全匹配的长篇幅语音和文本的对齐.该文提出一种基于锚点和韵律信息的文语对齐方法,通过基于边界锚点加权的片段标注将语料划分为对齐段和未对齐段,针对未对齐段使用双门限端点检测方法提取韵律信息,并检测语句边界,降低了基于语音识别的对齐方法对语音识别效果的依赖程度.实验结果表明,与目前先进的基于语音识别的文语对齐方法比较,即使在识别字错误率为0.52时,该文所提方法的对齐准确率仍能提升45%以上;在音频文本不匹配程度为0.5时,该文所提方法能提高3%.  相似文献   

7.
语音拒识技术是实现一个实用语音识别系统的关键。提出了一种新颖的基于置信度的非特定人语音识别拒识算法,该算法同时考虑了备选假设模型和多候选的信息,适用于拒识不正确的识别结果和词表外(OOV)语音。在一个非特定人英语命令词识别系统中做了一些相关的实验来评估这个算法的性能。实验结果表明,该算法可以有效地去除识别不可靠的语音,提高语音识别的整体性能。  相似文献   

8.
智能语音技术包含语音识别、自然语言处理、语音合成三个方面的内容,其中语音识别是实现人机交互的关键技术,识别系统通常需要建立声学模型和语言模型。神经网络的兴起使声学模型数量急剧增加,基于神经网络的声学模型与传统识别模型相结合的方式,极大地推动了语音识别的发展。语音识别作为人机交互的前端,具有许多研究方向,文中着重对语音识别任务中的文本识别、说话人识别、情绪识别三个方向的声学模型研究现状进行归纳总结,尽可能对语音识别技术的演化进行细致介绍,为以后的相关研究提供有价值的参考。同时对目前语音识别的主流方法进行概括比较,介绍了端到端的语音识别模型的优势,并对发展趋势进行分析展望,最后提出当前语音识别任务中面临的挑战。  相似文献   

9.
置信度的原理及其在语音识别中的应用   总被引:7,自引:2,他引:5  
由于置信度模型可以有效地判断观测数据与语音模型之间的匹配程度,因此可以用来对语音识别结果进行假设检验,定位识别结果中的错误,从而提高系统的识别率和稳健笥,讨论了语音识别中置信度的基本原理,、在值方法、模型性能评价方法、比较全面地介绍了置信度在语音识别中的各种,实验结果表明,置信度在语音识别的搜索的剪枝过程、说话人自适应以及拒识和验证方法面都有显的作用。  相似文献   

10.
藏语音存在语料库缺少和地区方言较多等问题,因此关于藏语音的识别技术相对缺乏。基于此,提出一种使用卷积神经网络(Convolut ional Neural Network,CNN)、长短期记忆(Long Short Term Memory,LSTM)神经网路和动态神经网络(Dynamic Neural Network,DNN)的基于Python平台上TensorFlow框架的深度混合网络模型。首先,录制来自拉萨市、安多县和昌都市3个地区的藏语音数据制作语音数据集,并通过改进模型深度、结构、参数和算法来提升藏语音识别的准确率;其次,使用多层卷积残差网络和改进的LSTM神经网络解决模型训练过程中的梯度爆炸问题;最后,使用反向传播算法提高模型训练的准确度。仿真实验表明,该模型虽然在不同地区的藏语音数据识别准确率上存在差异,但是在整体的识别准确率和模型的收敛性上具有不错的效果。  相似文献   

11.
基于对普通语音语料库构建方法的研究与分析,结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点,研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范,并据此构建了时长50小时,包含音素、半音节、音节、藏文字以及语句共5层标注信息的藏语拉萨话口语语音语料库。统计结果显示,该语料库在保留口语语音自然属性的同时,对音素、半音节等常用语音建模单元也有均衡的覆盖,为基于藏语口语语音数据的语音识别技术研究提供了可靠的数据支撑。  相似文献   

12.
通过对语音识别技术的发展梳理,简单介绍了语音识别的历史和应用现状,并将传统语音识别的技术和当前的研究进展进行描述.传统语音识别采用基于统计的方法,采用声谱特征,在GMM-HMM混合结构上进行训练和匹配.当前的语音识别模型主要基于深度学习的方法,采用CNN、RNN都可以有效的进行特征提取从而建立声学模型.进一步的研究采用...  相似文献   

13.
提高语音识别系统识别率是语音识别技术中的一个重要的研究课题。通常由于环境噪声影响导致系统的识别准确率急剧下降。为了提高语音识别系统的识别准确率,并且使其在强噪声的环境下仍能获得令人满意的结果,在W_RAS_MFCC(Mel Frequency Cepstral Coefficients of the Relative Autocorrelation Sequences)参数提取分析和小波包变换研究的基础上,并根据加权带通滤波器分析技术,提出一种基于小波包分析的加权语音特征参数。通过实验结果分析表明,此方法用于抗噪声分析可以提高系统的识别准确率,同时在低信噪比下也有很好的适应性。  相似文献   

14.
语音在日常生活中承载着信息传递的重要功能,随着深度学习技术的发展,语音识别的准确率得到极大的提高,推动了语音识别技术走向实际应用。介绍语音识别技术的发展情况和基本原理,分析北京市河长制管理信息系统中巡查人员记录问题和社会公众投诉举报过程中的不便之处,提出利用语音识别技术构建北京市河长制智能语音交互系统。介绍该系统的总体架构,阐述智能语音交互技术在移动App和微信公众号中的应用设计,针对河长制具体应用场景提出相应的语音识别准确率提升方案。通过将智能语音识别技术应用到北京市河长制管理工作,提高各级河长和巡查人员工作效率,促进社会公众参与河湖治理,不断提升河长制工作精细化和科学化水平。  相似文献   

15.
针对传统的语音识别系统采用数据驱动并利用语言模型来决策最优的解码路径,导致在部分场景下的解码结果存在明显的音对字错的问题,提出一种基于韵律特征辅助的端到端语音识别方法,利用语音中的韵律信息辅助增强正确汉字组合在语言模型中的概率。在基于注意力机制的编码-解码语音识别框架的基础上,首先利用注意力机制的系数分布提取发音间隔、发音能量等韵律特征;然后将韵律特征与解码端结合,从而显著提升了发音相同或相近、语义歧义情况下的语音识别准确率。实验结果表明,该方法在1 000 h及10 000 h级别的语音识别任务上分别较端到端语音识别基线方法在准确率上相对提升了5.2%和5.0%,进一步改善了语音识别结果的可懂度。  相似文献   

16.
近年来,现代信息技术进入高速发展的阶段,新的研究成果出现的同时也带来了新的难题和挑战,其中,对人工智能的研究应用到了人们生活和生产的各个方面,给社会生活带来了巨大的改变。在人工智能识别中的语音识别研究一直是重点研究项目,虽然基于人工神经网络引入声学理论的研究,让语音识别智能化的效率和准确率大大提高,但是随着对语音识别需求的增多,仍然出现了一些不足。因此需要基于大数据和深度学习,对语音识别进行改善和深入研究,本文通过探讨语言智能识别的现状,用基于大数据和深度学习的方法,改善语音识别中的语音提取,声音模拟和识别判断等,有效提高语音识别技术的发展。  相似文献   

17.
柏财通  崔翛龙  郑会吉  李爱 《计算机应用》2022,42(10):3217-3223
针对标注神经网络训练数据的成本日益增加与噪声干扰阻碍语音识别系统性能提升的问题,提出一种基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法。首先,在预处理阶段提取原始语音样本的三个人工特征;然后,在训练阶段将特征提取网络生成的高级特征分别通过三个浅层网络来拟合预处理阶段提取的人工特征;同时,把特征提取前端与语音识别后端进行交叉训练,并合并它们的损失函数;最后,通过梯度反向传播令特征提取网络学会提取更有助于去噪语音识别的高级特征,从而实现人工知识迁移与去噪,并高效利用了训练数据。在军事装备控制的应用场景下,基于加噪后的THCHS-30、希尔贝壳数据集AISHELL-1与ST-CMDS这三个开源中文语音识别数据集以及军事装备控制指令的数据集上进行测试,实验结果表明,基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法词错率可以降低到0.12,不仅可以实现对鲁棒性语音识别模型的模型训练,同时通过自监督知识迁移提高了训练样本的利用率,可完成装备控制任务。  相似文献   

18.
针对语音识别软件在有噪声干扰时识别准确率降低的问题,为确保使用语音控制操作的安全性,提出一种基于领域知识的语音识别鲁棒性增强方法。以舰艇操控为应用背景,建立舰艇操控领域知识图谱;从航海图书资料和经典海战影视资料中提取舰艇操控指令,构建舰艇操控指令中文语音数据集;提出一种嵌入领域知识的解码方法,通过计算识别结果与领域知识图谱的匹配度对输出控制指令进行修正。实验结果表明,相较于目前流行的连接时序分类解码方法和基于注意力机制的解码方法,所提解码方法在识别信噪比为10 dB和20 dB的带噪语音时字错误率分别下降了4.0%和1.5%,指令识别准确率分别提升了10.3%和6.3%,提高了语音识别模型识别中文指令的鲁棒性。  相似文献   

19.
针对目前生活中涌现的海量语音数据,人们对语音检索技术准确度的要求越来越高。主要研究了汉语连续语音检索任务中,基于转换音节网格的研究方法。针对语音检索系统中置信度计算的问题,提出了一种基于音节间互信息的置信度计算方法,并将其用于网格结构的语音检索系统中。该方法能够有效地利用上下文之间的互信息量,从而更准确、合理地描述汉语语言模型。实验结果表明,用提出的方法建立转换音节网格来进行语音检索,其检出率(FOM)比后验概率法和N-best法有较大幅度的提高。得到的汉语语音检索系统其FOM最高可以达到83.7%。  相似文献   

20.
语音信号中包含着丰富的情感信息,通过对语言信号的分析来识别人的情感是当前一个十分活跃的研究课题。首先介绍了国内外语音情感识别的研究现状,然后分析了语音情感识别研究的关键理论与技术,最后在此基础上进行了总结并概括了语音情感识别研究领域的发展趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号