期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈雁翔戴蓓蒨周曦李辉《模式识别与人工智能》2003,16(3)

本文提出了一种基于帧间相关特性的连续语音流的音节切分方法,采用反映相邻帧间LPC系数相关程度的帧间相关特性及其参数,进行连续语音流的分段切分,并通过时域参数对切分出的各个语音段进行音索性质标记,再根据汉语音节组成规则最后确定出音节切分及其边界.汉语数字串语音流的音节切分实验表明了该方法的有效性. 相似文献

2.

基于音节时间长度高斯拟合的汉语音节切分方法

张扬赵晓群王缔罡《计算机应用》2016,36(5):1410-1414

研究汉语自然语音音节切分方法具有明显现实意义,比较准确的自然语音切分方法可以代替人工对一些拥有参照文本的语音进行标注。然而至今为止并没有完全准确的汉语语音音节切分方法。依据相同发音环境下汉语语音音节时间长度服从某种高斯分布和相邻语音音节之间存在短时能量波谷两个假设,提出了基于音节时间长度高斯拟合的汉语音节切分方法。对算法进行分析,根据初步切分短时能量波谷分散到各分语音段的特性,提出了简化算法,有效降低了该音节切分方法的时间复杂度。实验结果表明,音节切分准确度(与人工标注切分时间距离平方的均值)达到小数点后3位,在台式机Matlab环境下运算时间均不超过1 s,可以达到应用要求。相似文献

3.

连续汉语语音识别中基于归并的音节切分自动机 总被引：4，自引：0，他引：4

张继勇郑方杜术宋战江徐明星《软件学报》1999,10(11):1212-1215

文章研究并实现了汉语连续语音中的音节自动切分算法——基于归并的音节切分自动机(merging-based syllable detection automaton,简称MBSDA)算法.MBSDA算法利用了包括语音的短时能量、过零率和基音周期在内的多种特征参数,把特征参数高度相似的相邻帧(1帧或若干帧)的语音信号进行“归并(merging)”,形成“归并类似段(merged similar segment,简称MSS)”,它们被认定属于同一音节的相同状态.这些MSS经过一个包含若干状态的“音节切分自动机( 相似文献

4.

用于汉语语音信号端点检测与切分的有效方法 总被引：8，自引：3，他引：5

郭巧张立伟陆际联《计算机工程与应用》2000,36(5):92-94

文章给出了计算机辅助汉语教学系统中语音端点信号的检测和清浊音信号的切分方法：采用短时相对能频积对汉语语音信号的端点进行检测;采用短时相对能频比的方法对语音信号的清浊音进行切分。这两种方法的使用与现有方法相比可以有效地提高汉语语音信号切分的成功率,实验结果表明正确率可达到９５％以上。文中通过实验验证了所提出的汉语语音信号切分方法是有效的和可行的。它基本上能够满足计算机辅助汉语教学系统在线切分汉语语音信号的需要,比已有的语音信号切分方法的切分效果有显著提高,为下一步提高语音信号的识别率奠定了基础。相似文献

5.

维吾尔语词切分方法初探 总被引：11，自引：9，他引：11

古丽拉·阿东别克米吉提·阿布力米提《中文信息学报》2004,18(6):62-66

维语词的词干-词附加成分切分、音节切分的规律对维吾尔语自然语言处理方面提供更多方便。本文提出了以“词=词根+附加成分”结构。维语附加成分种类繁多,连接形式各式各样,在句子中起着非常重要的作用,同时有相当的规律性。本文提出了维语中可能出现的基本语音规律的处理方法,如:语音同化、音节切分、语音和谐规律处理。本文对维文词的词法和语音法结构进行了归纳,提出了维语词切分的一些规律和实现方法。以新疆高校学报为语料来测试,对规则词准确率达到95%。相似文献

6.

基于声学特征的腭裂语音声韵母切分

下载免费PDF全文

王熙月黄毅鹏钱佳慧何凌黄华尹恒《计算机工程与应用》2018,54(8):123-130

设计了一种腭裂语音的声韵母切分算法。通过主观的波形测试和客观的F检验及t检验,证明了腭裂语音与正常语音具有显著性差异。定义声母具有清音音素特性的音节为I类音节,声母具有浊音音素特性的音节为II类音节。首先基于层次聚类模型自动判别I类、II类音节,然后定义类浊音权重函数和类清音概率函数,实现I类音节的声韵母一级切分,再通过短时自相关函数峰值个数的一阶微分实现I类音节声韵母的二级切分。基于声韵母波形差异性,检测短时自相关函数的能量跳变点,实现II类音节的声韵母切分。通过大样本实验,结果表明提出的腭裂语音声韵母自动判别算法具有较高的正确率,I类音节的正确率达到90.72%,II类音节的正确率为92.90%。相似文献

7.

基于句子级的唇读语料库及其切分算法 总被引：1，自引：0，他引：1

洪晓鹏姚鸿勋徐铭辉《计算机工程与应用》2005,41(3):174-177,190

论文对适合唇读研究的连续音节双模态语料库及其语料切分算法的设计和研究工作进行了讨论。介绍了基于句子级的双模态语料库HITBi-CAVDatabaseII的设计和建立,形式化地讨论了该库的主要特点及基于语音能量的语料切分算法的可行性。该切分算法在基于能量的语音切分算法基础上,结合了双模态语料库的一些特征,实现了对语料的自动切分。相似文献

8.

一种利用声音特性快速切分英文单词音节的算法 总被引：1，自引：0，他引：1

贾卓燕申瑞民《计算机仿真》2005,22(2):86-88

从提高单词层的语音识别精度到提供个性化的发音训练,音节切分都有着广泛的应用领域。该文提出了一个利用声音特性对英文单词进行快速音节切分的算法。该方法首先通过对能量和过零率参数的分析,划出粗略的音节边界,然后检测峰值点／谷值点的基音周期参数来做修定。实验结果显示,该算法在速度和精度两方面都有着良好的性能。相似文献

9.

基于分形特征变化的语音端点检测技术研究 总被引：1，自引：0，他引：1

李凯徐强樯左万利《小型微型计算机系统》2007,28(8):1523-1526

端点检测是语音识别的基本问题,最低要求是区分噪音和话音,如果实现对音节甚至音素的切分,那么对于语言识别, 关键词识别，以及连续语音识别都将是有益的．本文提出一种基于盒维与信息维的端点检测算法，首先根据信息维自适应调整门限划分噪音段和话音段，在此基础上，依据盒维与信息维的变化，及汉语音节特点，给出了一种汉语音节划分算法．采用实际电话信道话音数据进行测试．结果表明，本文提出的方法是有效的，话音段检测准确率较高，达到95％，音节切分准确率达85％，尚需进一步研究．相似文献

10.

基于贝叶斯方法的鲁棒语音切分 总被引：1，自引：0，他引：1

张文军谢剑英李聪《数据采集与处理》2002,17(3):260-264

在基于隐马尔科夫模型的语音切分基础上，融合了不受噪声干扰的先验切分模型，提出了基于贝叶斯方法的语间切分方法。在贝叶斯切分方法的框架内，作者首先对语音序列进行了变换，将由切分点构成的序列变为由音节长度构成的序列。然后，假设音节长度序列符合一阶马尔科夫过程，经过归一化处理后，求出了切分的先验概率公式，得到了贝叶斯方法的切分模型。在噪声环境下的实验证明，由于切分模型独立于噪声，对在噪声环境下声学模型的失配提供了很好的补偿，使得语音切分的鲁棒性大大增加。相似文献

11.

基于语音知识的音节切分

汤霖黄建中尹俊勋《中文信息学报》2010,24(4):91-96

在充分利用普通话水平测试试卷的文本信息、同一人的声母时长在常规语速下基本稳定、同一人的声母之间以及韵母之间的相对时长基本保持比例关系等先验知识的基础上,使用经小波变换后再重构的3个语音信号分量的累计能量特征为参数,提出了利用话者语音统计信息的两级音节切分算法,使音节切分精度达98.3%以上。相似文献

12.

基于条件随机场的泰语音节切分方法

赵世瑜线岩团郭剑毅余正涛洪玄贵王红斌《计算机科学》2016,43(3):54-56, 83

音节是泰语构词和读音的基本单位,泰语音节切分对泰语词法分析、语音合成、语音识别研究具有重要意义。结合泰语音节构成特点,提出基于条件随机场(Conditional Random Fields)的泰语音节切分方法。该方法结合泰语字母类别和字母位置定义特征,采用条件随机场对泰语句子中的字母进行序列标注,实现泰语音节切分。在InterBEST 2009泰语语料的基础上,标注了泰语音节切分语料。针对该语料的实验表明,该方法能有效利用字母类别和字母位置信息实现泰语音节切分,其准确率、召回率和F值分别达到了99.115%、99.284%和99.199%。相似文献

13.

Automatic speech segmentation in syllable centric speech recognition system

Soumya Priyadarsini Panda Ajit Kumar Nayak 《International Journal of Speech Technology》2016,19(1):9-18

相似文献

14.

基于深度神经网络的关键词识别系统

孙彦楠夏秀渝《计算机系统应用》2018,27(5):41-48

针对当前关键词识别少资源或零资源场景下的要求, 提出一种基于音频自动分割技术和深度神经网络的关键词识别算法. 首先采用一种基于度量距离的改进型语音分割算法, 将连续语音流分割成孤立音节, 再将音节细分成和音素状态联系的短时音频片段, 分割后的音频片段具有段间特征差异大, 段内特征方差小的特点. 接着利用一种改进的矢量量化方法对音频片段的状态特征进行编码, 实现了关键词集内词的高精度量化编码和集外词的低精度量化编码. 最后以音节为识别单位, 采用压缩的状态转移矩阵作为音节的整体特征, 送入深度神经网络进行语音识别. 仿真结果表明, 该算法能从自然语音流中较为准确地识别出多个特定关键词, 算法易于理解、训练简便, 且具有较好的鲁棒性. 相似文献

15.

Syllable Segmentation of Tamil Speech Signals Using Vowel Onset Point and Spectral Transition Measure

K.?Geetha Email author R.?Vadivel 《Automatic Control and Computer Sciences》2018,52(1):25-31

Segmentation plays vital role in speech recognition systems. An automatic segmentation of Tamil speech into syllable has been carried out using Vowel Onset Point (VOP) and Spectral Transition Measure (STM). VOP is a phonetic event used to identify the beginning point of the vowel in speech signals. Spectral Transition Measure is performed to find the significant spectral changes in speech utterances. The performance of the proposed syllable segmentation method is measured corresponding to manual segmentation and compared with the exiting syllable method using VOP and Vowel Offset Point (VOF). The result of the experiments shows the effectiveness of the proposed system. 相似文献

16.

基于子词链的中文新闻广播故事自动分割*

杨玉莲谢磊《计算机应用研究》2009,26(2):583-586

提出了一种基于子词链的中文新闻广播故事自动分割方法。利用中文同音异形字众多、词典开放、分词多样和组词灵活等特点,在新闻广播的语音识别抄本上采用中文子词单元（汉字和音节）创建子词链,进行中文新闻广播故事的自动分割,有效地解决了在传统词链方法中由于语音识别错误（特别是词典未收录词汇）导致的相关联词之间无法匹配的问题。同时,利用各级词汇表示单元之间的互补性,如词的表义确定性和子词对语音识别错误的鲁棒性,对各级词汇进行融合,利用不同级别词汇表示单元的优势进一步提高中文新闻广播故事分割的性能。在TDT2中文标准新闻相似文献

17.

基于分形维的语音去噪与音节分割

下载免费PDF全文

潘峰丁娜娜吕鹏申军伟《计算机工程与应用》2011,47(14):131-133

为提高现有小波去噪法的处理效果,准确有效判断出连续语音中各个音节的起止点,提出了基于分形理论的算法。该算法首先利用分形维与小波变换相结合的动态阈值算法进行语音去噪,从而提取出尽可能纯净的语音信号;在此基础上,计算分形维轨线,根据其均值对音节分割点进行判定。实验结果表明,该算法较好地实现了语音去噪和音节分割,鲁棒性较好,使得系统在低信噪比情况下仍保持较高准确率,在语音识别方面有较好应用前景。相似文献

18.

一种基于LSTM的端到端多任务老挝语分词方法

郝永彬周兰江刘畅《中文信息学报》2021,35(9):75-81

老挝语是一种无空格切分的字母语言,在进行自然语言处理工作时需要首先进行分词处理。现有分词算法主要为首先使用规则进行音节切分,然后根据音节切分结果进行老挝语分词,存在错误传递等问题。该文提出一种基于神经网络的端到端老挝语分词方法,基于多任务联合学习思想,将老挝语音节切分与分词工作进行结合,实现了基于双向长短时记忆循环神经网络(BiLSTM)的端到端老挝语分词模型。实验表明,端到端的老挝语分词模型准确率达到89.02%,较以往分词模型有所提升。相似文献

19.

Using LSTM neural networks for cross-lingual phonetic speech segmentation with an iterative correction procedure

Zdeněk Hanzlíček Jindřich Matoušek Jakub Vít 《Computational Intelligence》2024,40(2):e12602

This article describes experiments on speech segmentation using long short-term memory recurrent neural networks. The main part of the paper deals with multi-lingual and cross-lingual segmentation, that is, it is performed on a language different from the one on which the model was trained. The experimental data involves large Czech, English, German, and Russian speech corpora designated for speech synthesis. For optimal multi-lingual modeling, a compact phonetic alphabet was proposed by sharing and clustering phones of particular languages. Many experiments were performed exploring various experimental conditions and data combinations. We proposed a simple procedure that iteratively adapts the inaccurate default model to the new voice/language. The segmentation accuracy was evaluated by comparison with reference segmentation created by a well-tuned hidden Markov model-based framework with additional manual corrections. The resulting segmentation was also employed in a unit selection text-to-speech system. The generated speech quality was compared with the reference segmentation by a preference listening test. 相似文献