首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
方言语音的转换是人机交互领域的一个重要研究课题。为实现普通话到西安话的转换,论文利用《方言调查字表》设计了一个包括文本语料和语音语料的西安方言语料库,录制了普通话和西安话平行的语音语料库。提出了基于归一化非线性多项式的方言韵律转换模型以及基于统计的方言时长转换模型和停顿时长转换模型。利用STRAIGHT算法修改普通话语音,实现普通话到西安话的转换。对转换结果的MOS评测表明,转换后的单字平均MOS得分4.60,双字平均MOS得分为4.75,语句的平均MOS得分为4.15。  相似文献   

2.
计算机辅助汉语教学系统中语音评价体系初探   总被引:3,自引:3,他引:0  
本文探讨和研究计算机辅助汉语教学系统中语音评价体系的组成与实现方法。采用标准普通话语音示教数据库和非特定人大词汇量标准普通话汉语语料数据库,建立标准普通话示教语句特征模板库。采用Kohonen自组织神经网络进行学习者语音信号的分类与识别,经过汉语语音教学效果评价系统的处理,获得相应的量化评价结果。初步给出了计算机辅助汉语教学系统中语音评价体系的总体框架及其实现方法。通过实验验证了本语音评价体系的设计方案是合理的、可行的。它基本上能够满足计算机辅助汉语教学系统在线评价学生语音学习效果的需要。  相似文献   

3.
每年的国家普通话测试,都留下普通话测试的相关信息。为了有效利用这些信息,建立了普通话测试语音信息库,实现了信息录入、信息查询、数据统计、权限管理等多种功能。为了实现最小到音节的录音语料查询,信息库利用HTK进行音频文件的自动切分处理。普通话测试语音信息库可方便地用于包括测试录音语料在内的各种资料的调用和各种关联数据的统计。  相似文献   

4.
汉语韵律边界的声学实验研究   总被引:2,自引:4,他引:2  
本文以带有韵律标注的语料库ASCCD为基础,从语音信号分析的角度,研究了汉语普通话韵律间断模式在语音的时长、基频和音强等三个方面的表现特征,并在大量统计分析的基础上建立了识别分类的决策树模型,实验证明,这些特征能较好地描述朗读话语的韵律间断模式。  相似文献   

5.
语音信号在传播过程中会产生持续时长不等的音素特征,这些特征会影响语音识别的正确率.针对这一问题,提出一种多核卷积融合网络(Multi-core Convolution Fusion Network,MCFN),用于对不同长度的音素特征进行标准化,用标准化后的特征训练语音识别模型.此外,还利用子空间高斯混合模型(Subspace Gaussian Mixture Model,SGMM)将一般说话者的语音和信息加入到模型中,减小语料稀疏性对模型的影响.通过在Thchs30和ST-CMDS数据集对模型进行评估,结果显示,基于MCFN的BLSTM-CTC语音识别模型的识别字错误率(WER)较传统的语音识别模型有所降低.  相似文献   

6.
在充分利用普通话水平测试试卷的文本信息、同一人的声母时长在常规语速下基本稳定、同一人的声母之间以及韵母之间的相对时长基本保持比例关系等先验知识的基础上,使用经小波变换后再重构的3个语音信号分量的累计能量特征为参数,提出了利用话者语音统计信息的两级音节切分算法,使音节切分精度达98.3%以上。  相似文献   

7.
当前对现代汉语史的研究多借用政治-社会史的分期方式将现代汉语分为新文化运动至1949年、1950—1966年、1967—1976年和1977—至今四个时期,并在这一基础上开展了许多研究。语言尤其是书面语虽然与社会政治生活有密切联系,但语言系统有其自身的演化规律。从语言数据出发对语言进行分期是更加合适的选择。该文将语言的分期问题视作历时语料的分期问题,进而成为历时文本的聚类问题。该文工作基于历时报刊语料库遴选出的时间敏感程度较好的词汇。使用机器学习领域中广泛使用的K均值和期望最大算法进行聚类,以该部分词汇频率为特征对70年跨度(1945—2015)的历时报刊语料进行聚类,并在不同的聚类数量下绘制了具有层次性的词汇使用分期树。据此构建了过去70年现代汉语的词汇层次分期模型,揭示了改革开放的开始作为词汇使用变迁最重要分水岭的地位。  相似文献   

8.
从当前普通话测试的现状与需求出发,对基于ARM-Linux的语音评价系统进行了深入研究,提出了基于嵌入式技术的普通话发音质量评价方案。其中,系统硬件以S3C2410X处理器和UDA134TS为主要部分,软件则主要研究基于语音特征比较的普通话评价方法。本设计方案能有效实现普通话测试系统从PC平台到嵌入式平台的移植。  相似文献   

9.
沈亚敏  赵晖  张权  唐朝京 《计算机工程》2011,37(5):256-257,260
为实现语音转换,建立符合要求的汉语语音转换语料库,提出一种基于半音节模型的语料自动选取算法。根据语音转换训练时需要语料数量较少的特征,选择半音节作为语料库的基本单位。在此基础上,从原始语料中自动选取语料,根据语音转换对说话人特征较敏感的情况,利用评估函数并根据半音节的出现次数对原始语料中的句子进行打分。实验结果表明,与传统算法相比,该算法在语音库自动选取615句汉语语料时,可以覆盖97.8%的带声调半音节,其覆盖效率、覆盖率和稀疏度有较大改进。  相似文献   

10.
该研究基于大规模语音数据库,通过建立普通话连续语流中的声韵母时长预测模型,考察声韵母时长的影响因素,探讨普通话声韵母在连续语流中的时长变化类型与话语韵律结构之间的关系。初步研究结果表明 话语的韵律结构对声母时长的影响较小,而对韵母时长的影响较为显著,这种影响主要体现为 韵律单元末音节的韵母时长是否发生显著延长与话语的韵律结构密切相关,韵律大短语和语调短语末尾的音节通常会发生显著的韵母延长,韵律词内以及韵律词末尾的音节通常不会发生韵母延长;韵律小短语末尾的音节在韵母时长方面的表现比较混乱,规律性不明显,可能需要进一步做分化处理。  相似文献   

11.
广播语音的自动识别、标注、检索等是涉及到语音技术、自然语言处理、信息检索等多个领域的综合性课题。在介绍了广播语音的自动标注与检索的研究概况并分析了其中涉及的关键技术基础上,提出了面向普通话广播语音的多层次自动标注框架以及基于多层次标注的语音检索方案,对文档层、句子层和词语层的标注属性进行了探讨,采用了递归标注方法对属性逐层细化,并讨论了对语音自动标注至关重要的语音识别引擎和语音流分割等问题。基于本文提出的方法,对10 小时的普通话广播语音资料进行了标注和检索,得到了比较满意的实验结果。  相似文献   

12.
传统特征映射需要大量具有通道标记的语料,近年出现的通道无监督聚类方法也要求每个说话人有多段语音。为此本文讨论了一种新的基于均值超矢量聚类的说话人确认方法,在确保性能的情况下放宽对语料的要求,聚类训练语料是每个说话人只有一段语音的小语料。以女性UBM为基准,对所有女性训练语音均值超矢量相对该UBM的偏移聚类,判别待映射男性语音所属类别后进行特征映射,在特征参数域同时削减掉匹配到的通道信息和一部分女性说话人信息。实验表明,不论从性能还是语料角度,采用本文方法相对其他方法均具备一定优势。  相似文献   

13.
近年来,深度学习在语音识别领域取得了突破性进展,并推动语音识别技术广泛应用到人们的日常生活中。语音识别模型的进一步优化需要更大规模标定数据的驱动,然而,目前开源的语音数据集规模仍太小,语料多为偏向书面用语的新闻类长文本。针对人机交互、智能客服等热门语音识别应用,通过众包模式采集朗读式语音,构建并开源了迄今为止最大规模的中文普通话语音数据集DTZH1505。数据集记录了6?408位来自中国八大方言地域、33个省份的说话人的自然语音,时长达1?505?h,语料内容涵盖社交聊天、人机交互、智能客服以及车载命令等,可广泛用于语料库语言学、会话分析、语音识别、说话人识别等研究。开展一系列基准语音识别实验,实验结果表明:相较于同规模中文语音数据集aishell2,基于此数据集训练的语音识别模型效果更好。  相似文献   

14.
普通话水平测试电子化系统   总被引:2,自引:7,他引:2  
普通话水平测试电子化系统有助于高效地进行普通话水平测试。本文在100小时标准发音人数据库的基础上,针对汉语发音特点,利用语言学专家知识,引入语料选择的自适应算法改进了传统的语音评测算法。在500人普通话水平测试数据库上的测试结果表明,新评测算法能有效提升评测性能。经过分段线性映射,机器评分和人工评分的误差(2.44)和人工与人工评分之间的误差(2.30)相当。这表明可以使用机器代替人工进行普通话水平测试的前三项评分工作。  相似文献   

15.
该文收集了自晚清到21世纪间长达144年的连续历时报刊语料,通过统计分析和词语分布式表示两类方法展开研究,计算并辅助识别汉语词语的词义历时演变现象。采用TF-IDF、词频比例等多种统计分析的评价指标和目标词语在文段中的共现实词及其重合度挖掘出现词义演变的词语。针对历时语料上不同时间段的词向量对齐,采用SGNS训练词向量加正交矩阵投影、SGNS递增训练和"锚点词"二阶词向量表示三种方法,其中以SGNS递增训练效果最佳。针对自动发现的词义演变现象,采用目标词历时自相似度和锚点词历时相似度的分析方法,并利用近邻词来明确目标词变迁前后的词义。  相似文献   

16.
该文收集了自晚清到21世纪间长达144年的连续历时报刊语料,通过统计分析和词语分布式表示两类方法展开研究,计算并辅助识别汉语词语的词义历时演变现象。采用TF-IDF、词频比例等多种统计分析的评价指标和目标词语在文段中的共现实词及其重合度挖掘出现词义演变的词语。针对历时语料上不同时间段的词向量对齐,采用SGNS训练词向量加正交矩阵投影、SGNS递增训练和“锚点词”二阶词向量表示三种方法,其中以SGNS递增训练效果最佳。针对自动发现的词义演变现象,采用目标词历时自相似度和锚点词历时相似度的分析方法,并利用近邻词来明确目标词变迁前后的词义。  相似文献   

17.
非平行语料下的语音转换(Voice Conversion,VC)是指在非平行语音数据集的情况下改变源语音特征到目标语音特征的映射技术.由于非平行数据的缺陷,所以当前研究多集中于平行语料下的语音转换,而有关非平行语料的研究提出的模型架构存在局限性,在特定说话人下进行训练得到的模型无法适用于任意说话人下的语音转换,且转化效果有待提高.对此,借鉴两种生成式对抗网络(Generative Adversarial Network,GAN)的变体StyleGAN和CycleGAN的结构特点,对生成器网络的层重新设计,添加辅助特征提取神经网络,提出一种称为Style-CycleGAN-VC的新模型,实现了非平行语料下任意说话人之间的任意语音转换.实验表明,与CycleGAN-VC模型相比,该模型对训练的特定说话人的语音转换效果有所提高,对任意说话人的语音转换效果与其相近.  相似文献   

18.
计量语言学统计分析软件系统   总被引:3,自引:0,他引:3  
本文介绍近期完成的国家自然科学基金项目藏缅语语料库及比较研究的计量描写的软件系统。该系统建立了我国境内藏缅语族五大语支个语言点扬万词条的开放性词汇语音数据库。研制了语言特征统计, 语言比较研究软件。设计了应用于多种语言谱系分类比较研究的语音对应关系“ 全方位交叉” 算法。对藏语方言的音节、音位、声母、韵母、声词、词素、构词能力和语音结构等余项特征做了分布和对比统计。对藏语乃个方言点做了语音对应关系和音系对比关系的量化描述, 并在此基础上做出具有历时与共时比较研究意义的相关和小相关分析, 得出了语言分类的相关矩阵和聚类分析图表  相似文献   

19.
在语种识别中,当训练语音与测试语音长度失配时,系统的识别性能会出现严重下降.基于降噪自动编码器(denoising auto-encoder, DAE)的方法对不同长度测试语音的语种特征进行补偿,把不同长度的语音特征都映射为固定长度的语音特征,一定程度上解决了长度失配和音素分配不平衡的问题.具体分为4个环节:1)语音信号经过分帧、变换得到底层声学特征;2)提取语音信号的原始i-vector,同时计算其音素向量;3)对原始i-vector和音素向量进行拼接,送入基于DAE的语种特征补偿处理单元得到补偿后的i-vector;4)将补偿后的i-vector和原始i-vector分别送入后端分类器得到2个分数向量,并将其在得分域融合后进行判决.在NIST-LRE07上的实验结果表明:所提出的语种特征补偿算法在各种测试语音时长上的识别性能均有提升.相比传统的语种识别系统,测试语音时长为30 s时性能相对提升3.16%,测试语音时长为10 s时性能相对提升2.90%.相比端到端语种识别系统,测试语音时长为3 s时性能相对提升3.21%.  相似文献   

20.
基于PCA和SVM的普通话语音情感识别   总被引:1,自引:0,他引:1  
蒋海华  胡斌 《计算机科学》2015,42(11):270-273
在语音情感识别中,情感特征的选取与抽取是重要环节。目前,还没有非常有效的语音情感特征被提出。因此,在包含6种情感的普通话情感语料库中,根据普通话不同于西方语种的特点,选取了一些有效的情感特征,包含Mel频率倒谱系数、基频、短时能量、短时平均过零率和第一共振峰等,进行提取并计算得到不同的统计量;接着采用主成分分析(PCA)进行抽取;最后利用基于支持向量机(SVM)的语音情感识别系统进行分类。实验结果表明, 与其他一些重要的研究结果相比,该方法得到了较高的平均情感识别率, 且情感特征的选取、抽取及建模是合理、有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号