首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
冯晓亮  孟子厚 《声学技术》2010,29(3):297-305
以建立基于特征参数的解析化的普通话辅音发音检测方法为应用目的。根据普通话辅音按发音方式和发音部位分类的特点并结合区别特征理论的二元对立思想,首先提取分析了普通话21个辅音的美尔倒谱系数MFCC和美尔滤波器能量这两类特征,并进一步得到能区别发音方式或发音部位的区别性特征参数k1~k11。在此基础上构建了面向普通话辅音检测的二元分类决策树。与基于HTK的分类结果比较表明:使用基于区别性特征参数的决策树判决的方法对辅音进行分类检测和识别的结果比较稳定,准确率大多在80%以上且有更好的鲁棒性。  相似文献   

2.
针对人-机器人语音交互中经过语音识别的文本指令,提出了一种利用汉语拼音中声韵母作为特征的深度学习文本分类模型。首先,以无人驾驶车语音导航控制为人机交互的应用背景,分析其文本指令结构并分别构建单一意图与复杂意图语料库;其次,在以字符作为文本分类特征的基础上,结合汉语拼音与英文单词的区别,提出了一种利用拼音声韵母字符作为中文文本分类的特征表示方法;然后,用门控递归单元(GRU)代替传统递归神经网络单元以解决其难以捕获长时间维度特征的不足,为提取信息的高阶特征、缩短特征序列长度并加快模型收敛速度,建立了一种结合卷积神经网络及GRU递归神经网络的深度学习文本分类模型。最后,为验证模型在处理长、短序列任务上的表现,在上述两个语料库上对提出的模型分别进行十折交叉测试,并与其他分类方法进行比较与分析,结果表明该模型显著地提高了分类准确率。  相似文献   

3.
宋南  吴沛文  杨鸿武 《声学技术》2018,37(4):372-379
针对聋哑人与正常人之间存在的交流障碍问题,提出了一种融合人脸表情的手语到汉藏双语情感语音转换的方法。首先使用深度置信网络模型得到手势图像的特征信息,并通过深度神经网络模型得到人脸信息的表情特征。其次采用支持向量机对手势特征和人脸表情特征分别进行相应模型的训练及分类,根据识别出的手势信息和人脸表情信息分别获得手势文本及相应的情感标签。同时,利用普通话情感训练语料,采用说话人自适应训练方法,实现了一个基于隐Markov模型的情感语音合成系统。最后,利用识别获得的手势文本和情感标签,将手势及人脸表情转换为普通话或藏语的情感语音。客观评测表明,静态手势的识别率为92.8%,在扩充的Cohn-Kanade数据库和日本女性面部表情(Japanese Female Facial Expression,JAFFE)数据库上的人脸表情识别率为94.6%及80.3%。主观评测表明,转换获得的情感语音平均情感主观评定得分4.0分,利用三维情绪模型(Pleasure-Arousal-Dominance,PAD)分别评测人脸表情和合成的情感语音的PAD值,两者具有很高的相似度,表明合成的情感语音能够表达人脸表情的情感。  相似文献   

4.
针对磁瓦表面缺陷检测方法分类准确率低的问题,提出一种基于LSSVM技术的瑕疵偏向性分类方法。构造5个尺度8个方向Gabor滤波器组,提取经过Gabor变换后生成的40副子图的均值与方差为磁瓦图像特征。采用耦合模拟退火算法初步寻优,在所得初步参数的邻域使用网格算法进行精细搜索。为实现对缺陷磁瓦的偏向性预测分类,改进了虚拟少数类过采样算法。去除原始训练样本中的噪声样本数据,再在瑕疵边界样本与合格样本之间过采样。实验结果表明,最小二乘支持向量机分类器模型训练时参数寻优时间明显缩短,整体分类正确率达到95.56%,偏向性分类正确率达到99.09%,实现对缺陷磁瓦的偏向性分类。  相似文献   

5.
基于超像素分类的海天线检测方法   总被引:1,自引:0,他引:1  
海天线检测是海空背景图像中海面目标提取的一项重要研究内容。根据海空背景图像的特点,提出了一种基于超像素分类的海天线检测方法。该方法首先利用简单线性迭代聚类算法(SLIC)将图像预分割成具有相似特性的图像块,然后提取每个图像块的特征组成该区域的特征向量,利用k-均值聚类算法将图像分成海水和天空两个区域,最后根据海天区域的连接点,采用RANSAC算法确定出海天线直线参数。实验结果表明,该方法可以有效地检测出复杂海天背景下的海天线。  相似文献   

6.
针对鸟声识别算法中提取特征单一、分类准确率低等问题,提出一种基于混合特征选择和灰狼算法优化核极限学习机的鸟声识别方法。首先从鸟声数据中提取大规模声学特征集ComParE,其次计算每个特征的Fscore并进行排序,然后以广义顺序向前浮动搜索(Generalized Sequential Forward Floating Search, GSFFS)为搜索策略,特征子集在核极限学习机(Kernel Limit Learning Machine, KELM)上十折交叉验证的正确率,作为特征选择标准进行特征选择,得到适用于鸟声识别的特征子集,最后通过灰狼算法(Grey Wolf Optimizer, GWO)选择最优KELM参数识别鸟声。在柏林自然科学博物馆鸟声数据库中进行实验,该方法在60类鸟声识别平均正确率和F1-score达到94.45%和92.29%。结果表明,该方法相较于传统自行设计提取的单一特征集具有更高的识别精度,GWO-KELM模型比网格搜索方式更易找到全局最优值。  相似文献   

7.
泥浆在建筑工程中使用非常普遍,合理地控制泥浆的物理性能对于建筑工程施工及其质量控制非常 重要,通过声学方法可以有效地监测泥浆的体积浓度等物理参数。在通过声衰减和声速等介质的声学参数反演 泥浆浓度的过程中,数据拟合的好坏直接影响到反演的精确程度。通过模式识别技术,利用聚类算法,对数据 进行分类、归类处理,能有效的地提高反演的准确度。  相似文献   

8.
高帅  朱丽萍  李永锋 《包装工程》2021,42(6):198-205
目的 对老年人APP用户界面配色进行评价.方法 首先采用文献研究与焦点小组法,构建老年人APP用户界面配色评价体系;其次采用层次分析法(AHP)来确定APP用户界面配色评价体系中各评价指标的相对权重;接着根据市场调研与用户访谈的结果,与PCCS色彩体系相结合制作实验样本;然后使用灰色聚类法对实验观测值进行灰色聚类得到聚类系数,并由得到的聚类系数对聚类对象进行聚类;最后根据聚类结果对实验样本进行分类并进行结果分析.结论 本文以老年人医疗 APP 用户界面配色作为研究案例,结果验证了基于灰色聚类法的老年人APP用户界面配色评价方法的可行性与有效性.  相似文献   

9.
李可欣  郭健  王宇君  李宗明  缪坤  陈辉 《包装工程》2023,44(11):284-292
目的 有效分析和探索海洋船舶时空轨迹行为模式,提高船舶轨迹聚类的效率与质量,更好地检测真实船舶的异常行为。方法 针对当前船舶轨迹数据研究中存在的对多维特征信息利用不足、检测效率不高、检测精度较差等问题,提出一种精确度高、能自主识别分析多维特征的船舶异常轨迹识别方法。首先利用随机森林分类器评估多维特征重要性,构建轨迹特征的最优组合;然后提出一种降维密度聚类方法,将T–分布随机邻域嵌入(T–SNE)和自适应密度聚类(DBSCAN)模型结合,通过构建特征选择层和无监督聚类层实现对数据元素非线性关系的高效提取以及对聚类参数的智能选择;最后根据聚类结果构建类簇特征向量,计算距离阈值判别轨迹相似度,实现轨迹异常检测模型的构建。结果 以UCI数据集为例,降维密度聚类方法对4、13、30、64维特征数据集的F1分数能达到0.9 048、0.9 534、0.8 218、0.6 627,多个聚类指标均优于DBSCAN、K–Means等常见聚类算法的。结论 研究结果表明,降维密度聚类方法能有效提取数据多维特征结构,实现聚类参数自适应,弥补密度聚类中参数难以确定的问题,有效实现对多种类型船舶轨迹异常的识别。  相似文献   

10.
刘晓佩  卢朝阳  李静 《光电工程》2012,39(3):137-143
针对复杂背景下文本误检率较高的问题,提出了一种基于蚁群聚类和LBP-HF特征验证的复杂场景文本定位算法。该算法首先利用小波高频系数统计特征表达文本模式,采用蚁群聚类算法对文本像素和背景像素进行分类,得到所有可能的文本区域;然后提取更具区分力的LBP-HF纹理特征对侯选的文本区进行验证,获得文本的准确位置。实验结果表明,所提出的基于LBP-HF特征的验证方法能够有效区分文本和非文本区域,使复杂背景下的文本误检率明显下降。  相似文献   

11.
方言语音的转换对于实现个性化的汉语语音合成系统具有重要的意义。为了实现普通话到兰州方言的转换,论文利用《方言调查字表》建立了兰州方言的文本语料库,录制了普通话和兰州方言平行的语音语料库。利用五度字调模型建立了普通话和兰州方言的基频模型,利用统计方法建立了时长转换模型和停顿时长转换模型。在转换时,通过利用STRAIGHT算法修改普通话语音实现普通话到兰州方言的转换。对转换结果的MOS评测表明,转换后的单字平均MOS得分4.17,双字平均MOS得分为4.22,语句的平均MOS得分为3.55。  相似文献   

12.
Abstract

By taking advantage of four‐tone structure in the pitch contour of Mandarin speech, we described text‐independent speaker identification using orthogonal pitch parameters. Slopes, mean and duration of the pitch contours of words in an utterance are taken as recognition features. An identification rate of 85% is achieved by using the parameters of pitch contour only. When incorporating parameters of pitch contour with the parameter of vocal tract, this system outperforms that using parameters of vocal tract or pitch contour only. A recognition rate of 99.7% is reached in such a system.  相似文献   

13.
首先讨论了基于MCE/GPD的语音识别研究的的最新进展。在此基础上,提出了一种环境特征判别学习的Robust语音识别方法,该方法基于最小分类错误准则利用梯度下降法迭代地学习环境特征。由于梯度下降法产生的是局部最优解,因此,寻找较好的环境特征初始值就显得非常重要。最后,讨论了这种环境特征判别学习方法中参数的初始值选择问题。  相似文献   

14.
赵建平  原猛  冯海泓 《声学技术》2013,32(3):217-221
宽动态范围压缩算法作为助听器非线性听力补偿的核心算法,其释放时间常数的设定可影响言语理解度。根据普通话的语音特点,将宽动态范围压缩算法按频率范围划分为低频区间(  相似文献   

15.
从提高满足少数民族普通话高自然度语音合成与高精度语音识别的实际应用需求出发,首次从实验语音学的角度对初级、中级和高级阶段的50名维吾尔族汉语学习者与10名母语为汉语普通话的说话人声调的一阶差分与时长以及相似度进行对比,并对其声调的一阶差分模式、声调时长等韵律参数进行了实验分析,得出维吾尔族学生对汉语声调的偏误情况以及与中国少数民族汉语水平等级考试(Master of Human Kinetics, MHK)成绩的关系。通过实验结果可以发现,三组维吾尔族人学习普通话的声调都有困难。两种语言的音系,语调和重音等特性影响了第二语言中的声调特性。归纳了维吾尔族学习者声调的基本声学特征,总结出了一些重要的规则和结论;为解决给汉语语音处理带来的困难,尤其是少数民族汉语的语音合成和语音识别方面的声调问题,提供了重要的参考依据。  相似文献   

16.
S HAWKINS 《Sadhana》2011,36(5):555-586
This paper reassesses conventional assumptions about the informativeness of the acoustic speech signal, and shows how recent research on systematic variability in the acoustic signal is consistent with an alternative linguistic model that is more biologically plausible and compatible with recent advances in modelling embodied visual perception and action. Standard assumptions about the information available from the speech signal, especially strengths and limitations of phonological features and phonemes, are reviewed, and compared with an alternative approach based on Firthian prosodic analysis (FPA). FPA places more emphasis than standard models on the linguistic and interactional function of an utterance, de-emphasizes the need to identify phonemes, and uses formalisms that force us to recognize that every perceptual decision is context- and task-dependent. Examples of perceptually-significant phonetic detail that is neglected by standard models are discussed. Similarities between the theoretical approach recommended and current work on perception–action robots are explored.  相似文献   

17.
Abstract

Mandarin Chinese is a tonal language, in which every syllable is assigned a tone that has a lexical meaning. Therefore tone recognition is very important for Mandarin speech. This paper presents a method for continuous speech tone recognition. Context‐dependent discrete hidden Markov models (HMM's) are used taking into account the tones of the syllables on both sides, and special efforts were made in selecting the minimum number of key context‐dependent models considering the characteristics of the tones. The results indicate that a total of 23 context‐dependent models have very good potential to describe the complicated tone behavior for all 175 possible tone concatenation conditions in continuous speech, such that the required training data can be reduced to a minimum and the recognition process can be simplified significantly. The best achievable recognition rate is 83.55 %.  相似文献   

18.
为进一步缓解全球气候变暖,从源头降低产品生命周期碳排放的低碳设计日益成为产品设计的重要方向。基于对产品低碳设计过程中决策信息的构成及对应设计策略的研究,构建了一种融合碳足迹的产品低碳设计信息模型,并在分析低碳设计决策信息内涵的基础上提出了一种基于产品结构树和详细设计参数的双重递进碳足迹根源特征定位方法。该方法基于定性/半定量矩阵的简约式生命周期评估(streamlined life cycle assessment,SLCA)法对碳排放关键结构单元进行初筛,并采用赋权关联图方法定位低碳设计的关键特征和设计参数。针对设计参数矛盾,利用TRIZ冲突解决理论进行求解从而实现低碳设计目标。以手持吸尘器作为低碳创新设计案例,对所提方法的可行性和有效性进行了验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号