首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
为提升英语口语发音质量,设计基于语音感知的英语口语发音自动校准系统。通过语音感知传感器与英语口语发音处理器设计系统硬件,采集英语口语发音数字信号,并以此为基础,对信号进行预加重、分帧加窗处理,获取信号特征MFCC系数,将MFCC系数作为训练数据集,构建发音检错模型,以检测到的错误发音为依据,对英语口语发音自动校准。实验结果表明系统英语口语发音检错正确率与校准发音质量评分更高,具备更加优质的性能。  相似文献   

2.
统计语音识别框架是现在发音错误检测系统的主流框架,而声学模型则是统计语音识别的基础。 该文一方面为了获得对于发音错误检测更好的声学模型,引入了说话人自适应训练(SAT)和选择性最大似然线性回归(SMLLR)技术;另一方面,由于字发音检错中存在严重的信息量不足问题和专家对于不同水平说话人的评价标注不一样,在后端上加入了话者得分归一化技术。在包含40个不同水平说话人的8 000个字的数据库上的实验结果表明,文中提出的方法有效的提高了系统性能,召回率为30%时,正确率从45.8%升到了53.6%,召回率为10%时,正确率从64.6%升到了79.9%。  相似文献   

3.
为探索智能语音技术在英语发音学习中的作用,开展了面向中国人朗读英语句子的音素发音自动检错技术研究.首先收集了45个人录制的900句英文朗读发音,并由两位专家对音素发音中的错误进行详细的标注,然后基于语音识别技术建立的句子朗读发音中音素自动检错系统,并针对中国人英语发音时最为常见的错读和漏读两大问题,分别提出音素独立检错阈值和限定音素对齐识别网络的方法,对音素检错系统进行了优化,显著地提高了系统的性能,最终系统的召回率和正确率分别达到49%和52%,接近人工专家间的69%召回率下59%的正确率的性能.  相似文献   

4.
将语种和说话人识别的方法应用到英语发音错误检测系统, 提出一种基于广义线性区分序列支持向量机 (Generalized linear discriminant sequence based SVM, GLDS-SVM)的发音错误检测方法. 主要创新点为: 1)提出一种基于状态拼接的特征规整方案, 增强SVM对发音特征的建模能力; 2)提出一种基于多模型融合的模型训练策略, 该策略可以更加充分地利用训练数据, 并在一定程度上解决了由于真实发音错误数据缺乏造成的正负样本不均衡的问题; 3)将GLDS-SVM与基于通用背景模型GMM (Universal background models based GMM, GMM-UBM)的方法进行融合, 以进一步提高发音检错性能. GLDS-SVM和GMM-UBM的融合系统在仿真测试集和真实测试集上的等错误率 (Equal error rate, EER)分别达到9.92%和16.35%. 同时, GLDS-SVM在模型占用空间和运算速度方面均比传统径向基函数 (Radial basic function, RBF)核方法具有明显优势.  相似文献   

5.
随着自动大规模语音识别的不断发展,以自动语音识别为基础的计算机辅助发音教学也随之进步,作为传统教学方法的补充,它极大地弥补了传统教育资源不足以及传统教育方法无法及时给学习者反馈的缺陷。二语学习者的发音偏误确认和评价在计算机辅助发音训练中是较为重要的研究课题之一。针对二语者发音偏误的确认任务中缺少二语偏误发音标注问题,该文提出了一种基于声学音素向量和孪生网络的方法,将带有配对信息的成对的语音特征作为系统输入,通过神经网络将语音特征映射到高层表示,期望将不同的音素区分开。训练过程引入了孪生网络,依照输出的两个音素向量是否来自于同一类音素来调整和优化输出向量之间的距离,并通过相应的损失函数实现优化过程。结果表明使用基于余弦最大间隔距离损失函数的孪生网络获得了89.93%的准确率,优于实验中其它方法。此方法应用在发音偏误确认任务时,不使用标注的二语发音偏误数据训练的情况下,也获得了89.19%的诊断正确率。  相似文献   

6.
本文提出了一种基于多普勒微波雷达的发音动作检测与命令词识别方法.该方法利用微波雷达的多普勒特性检测发音过程中面部肌肉的微小变化,实现不依赖语音声学信号的命令词识别.本文首先设计实现了一个基于多普勒微波雷达的发音动作检测系统,并基于此系统构建了一个包含2个说话人的命令词识别数据库.然后,本文研究了基于支持向量机和卷积神经网络模型的雷达数据分类方法,并对比了不同模型和特征组合在单话者建模和多话者建模情况下的命令词识别性能.实验结果表明,本文设计的数据采集系统可以有效检测发音动作,所构建的卷积神经网络分类器可以取得90%以上的命令词识别准确率.  相似文献   

7.
黄双  李婧  王洪莹  杨军  张波 《计算机应用》2006,26(Z2):287-289
提出了一种新的评价英语发音质量的算法.该算法采用基于隐马尔科夫模型(HMM)的语音识别技术,引入各音素对应的发音易混淆模型(Pronunciation Confusion Model),定义段时长归一化的相似度比例对数为各音素的发音质量分数,并综合得到整句发音的评分结果.该算法降低了不同发音人对评分准确性的影响,提高了系统的稳健性.实验证明,在实验室自行采集的非母语语音数据库上,该算法评分与专家评分的相关性达到了0.700,明显优于其他评分算法.  相似文献   

8.
目前许多计算机辅助英语学习系统在发音错误判定过程上缺乏慎重考虑。描述一个基于sphinx-4的英语口语自动评分系统。提出一种以标准语音的平均发音水平作为发音错误判断依据的新方法,根据该方法的判断结果给出相应的反馈意见。实验结果证明,该方法可以有效降低误判率,提升错误检测的正确率。  相似文献   

9.
主要研究基于深度神经网络的话者确认方法。在训练阶段,以语音倒谱特征参数作为输入,说话人标签作为输出有监督的训练DNN;在话者注册阶段,从已训练的DNN最后一个隐藏层抽取与说话人相关的特征矢量,称为d-vector,作为话者模型;在测试阶段,从测试语音中抽取其d-vector与注册的话者模型相比较然后做出判决。实验结果表明,基于DNN的话者确认方法是可行的,并且在噪声环境及低的错误拒绝率的条件下,基于DNN的话者确认系统性能比i-vector基线系统性能更优。最后,将两个系统进行融合,融合后的系统相对于i-vector基线系统在干净语音和噪声语音条件下等误识率(EER)分别下降了13%和27%。  相似文献   

10.
为了提高网络入侵检测正确率,提出一种遗传优化神经网络的网络入侵特征选择和检测算法。该方法先将网络状态特征和RBF神经网络参数作为遗传算法的个体,把检测正确率作为适应度函数;然后利用遗传算法的选择、交叉和变异等操作对网络状态特征和RBF神经网络参数进行优化,最后利用KDD 1999数据集对算法性能进行测试。测试结果表明:遗传优化神经网络能够快速获得最优网络状态特征和分类器参数,同时提高了网络入侵检测正确率。  相似文献   

11.
This paper describes an approach for automatic scoring of pronunciation quality for non-native speech. It is applicable regardless of the foreign language student’s mother tongue. Sentences and words are considered as scoring units. Additionally, mispronunciation and phoneme confusion statistics for the target language phoneme set are derived from human annotations and word level scoring results using a Markov chain model of mispronunciation detection. The proposed methods can be employed for building a part of the scoring module of a system for computer assisted pronunciation training (CAPT). Methods from pattern and speech recognition are applied to develop appropriate feature sets for sentence and word level scoring. Besides features well-known from and approved in previous research, e.g. phoneme accuracy, posterior score, duration score and recognition accuracy, new features such as high-level phoneme confidence measures are identified. The proposed method is evaluated with native English speech, non-native English speech from German, French, Japanese, Indonesian and Chinese adults and non-native speech from German school children. The speech data are annotated with tags for mispronounced words and sentence level ratings by native English teachers. Experimental results show, that the reliability of automatic sentence level scoring by the system is almost as high as the average human evaluator. Furthermore, a good performance for detecting mispronounced words is achieved. In a validation experiment, it could also be verified, that the system gives the highest pronunciation quality scores to 90% of native speakers’ utterances. Automatic error diagnosis based on a automatically derived phoneme mispronunciation statistic showed reasonable results for five non-native speaker groups. The statistics can be exploited in order to provide the non-native feedback on mispronounced phonemes.  相似文献   

12.
作为一种基于深层神经网络提取的低维特征,瓶颈特征在连续语音识别中取得了很大的成功。然而训练瓶颈结构的深层神经网络时,瓶颈层的存在会降低网络输出层的帧准确率,进而反过来影响该特征的性能。针对这一问题,本文基于非负矩阵分解算法,提出一种利用不包含瓶颈层的深层神经网络提取低维特征的方法。该方法利用半非负矩阵分解和凸非负矩阵分解算法对隐含层权值矩阵分解得到基矩阵,将其作为新的特征层权值矩阵,然后在该层不设置偏移向量的情况下,通过数据前向传播提取新型特征。实验表明,该特征具有较为稳定的规律,且适用于不同的识别任务和网络结构。当使用训练数据充足的语料进行实验时,该特征表现出同瓶颈特征几乎相同的识别性能;而在低资源环境下,基于该特征识别系统的识别率明显优于深层神经网络混合识别系统和瓶颈特征识别系统。  相似文献   

13.
The Internet of Health things (IoHT) has numerous applications in healthcare by integrating health monitoring things like sensors and medical devices for remotely observe patient’s records to provide smarter and intelligent medicare services. To avail best healthcare services to the users using the e-health applications, in this paper, we propose an IoT with cloud based clinical decision support system for the prediction and observance of Chronic Kidney Disease (CKD) with its level of severity. The proposed framework collects the patient data using the IoT devices attached to the user which will be stored in the cloud along with the related medical records from the UCI repository. Furthermore, we employ a Deep Neural Network (DNN) classifier for the prediction of CKD and its level of severity. A Particle Swarm Optimization (PSO) based feature selection method is also used to improve the performance of DNN classifier. The proposed model is validated by employing the benchmark CKD dataset. Different classifiers are employed to compare the performance of the proposed model under several classification measures. The proposed DNN classifier alone predicts CKD with an accuracy of 98.25% and is further enhanced to 99.25 by PSO-FS method. At the same time, the improved classification performance is verified with higher values of 98.03 specificity, 99.25 accuracy, 99.39 F-score and 98.40 kappa value respectively.  相似文献   

14.
在连续语音识别系统中,针对复杂环境(包括说话人及环境噪声的多变性)造成训练数据与测试数据不匹配导致语音识别率低下的问题,提出一种基于自适应深度神经网络的语音识别算法。结合改进正则化自适应准则及特征空间的自适应深度神经网络提高数据匹配度;采用融合说话人身份向量i-vector及噪声感知训练克服说话人及环境噪声变化导致的问题,并改进传统深度神经网络输出层的分类函数,以保证类内紧凑、类间分离的特性。通过在TIMIT英文语音数据集和微软中文语音数据集上叠加多种背景噪声进行测试,实验结果表明,相较于目前流行的GMM-HMM和传统DNN语音声学模型,所提算法的识别词错误率分别下降了5.151%和3.113%,在一定程度上提升了模型的泛化性能和鲁棒性。  相似文献   

15.
This paper proposes using Deep Neural Networks (DNN) models for recognizing construction workers’ postures from motion data captured by wearable Inertial Measurement Units (IMUs) sensors. The recognized awkward postures can be linked to known risks of Musculoskeletal Disorders among workers. Applying conventional Machine Learning (ML)-based models has shown promising results in recognizing workers’ postures. ML models are limited – they reply on heuristic feature engineering when constructing discriminative features for characterizing postures. This makes further improving the model performance regarding recognition accuracy challenging. In this paper, the authors investigate the feasibility of addressing this problem using a DNN model that, through integrating Convolutional Neural Networks (CNN) with Long Short-Term Memory (LSTM) layers, automates feature engineering and sequential pattern detection. The model’s recognition performance was evaluated using datasets collected from four workers on construction sites. The DNN model integrating one convolutional and two LSTM layers resulted in the best performance (measured by F1 Score). The proposed model outperformed baseline CNN and LSTM models suggesting that it leveraged the advantages of the two baseline models for effective feature learning. It improved benchmark ML models’ recognition performance by an average of 11% under personalized modelling. The recognition performance was also improved by 3% when the proposed model was applied to 8 types of postures across three subjects. These results support that the proposed DNN model has a high potential in addressing challenges for improving the recognition performance that was observed when using ML models.  相似文献   

16.
为了减少枯燥和耗时的训练进程和提高脑机接口系统的分类率,将半监督学习运用到了运动想象脑电的分类中,提出了一种基于分段重叠共空间模式的自训练算法,将分段重叠共空间模式作为特征提取算法,使用少量标记的数据进行学习,然后使用置信度评估准则从未标记样本中挑选信息量大的样本来提高线性判别分类器的性能。提出的算法在少量标记样本和大量未标记样本的帮助下,能够获得比基于共空间模式作为特征提取的自训练算法和基于滤波带宽共空间模式作为特征提取的自训练算法有更好的分类效果。使用2005 BCI竞赛的数据集Iva来证明算法的有效性,结果表明了提出的算法能有效提高运动想象脑电的分类率。  相似文献   

17.
数据流分类是数据挖掘领域的重要研究任务之一,已有的数据流分类算法大多是在有标记数据集上进行训练,而实际应用领域数据流中有标记的数据数量极少。为解决这一问题,可通过人工标注的方式获取标记数据,但人工标注昂贵且耗时。考虑到未标记数据的数量极大且隐含大量信息,因此在保证精度的前提下,为利用这些未标记数据的信息,本文提出了一种基于Tri-training的数据流集成分类算法。该算法采用滑动窗口机制将数据流分块,在前k块含有未标记数据和标记数据的数据集上使用Tri-training训练基分类器,通过迭代的加权投票方式不断更新分类器直到所有未标记数据都被打上标记,并利用k个Tri-training集成模型对第k+1块数据进行预测,丢弃分类错误率高的分类器并在当前数据块上重建新分类器从而更新当前模型。在10个UCI数据集上的实验结果表明:与经典算法相比,本文提出的算法在含80%未标记数据的数据流上的分类精度有显著提高。  相似文献   

18.
为降低声学特征在语音识别系统中的音素识别错误率,提高系统性能,提出一种子空间高斯混合模型和深度神经网络结合提取特征的方法,分析了子空间高斯混合模型的参数规模并在减少计算复杂度后将其与深度神经网络串联进一步提高音素识别率。把经过非线性特征变换的语音数据输入模型,找到深度神经网络结构的最佳配置,建立学习与训练更可靠的网络模型进行特征提取,通过比较音素识别错误率来判断系统性能。实验仿真结果证明,基于该系统提取的特征明显优于传统声学模型。  相似文献   

19.
郭帅  苏旸 《计算机应用》2021,41(5):1386-1391
针对当前网络中加密流量的快速分类和准确识别的问题,提出了一种新的数据流特征提取方法。依据序列型数据特点和SSL握手协议规律,采用了端到端的一维卷积神经网络模型,并利用五元组来标记数据流;通过对数据流表示方式、数据包个数和特征字节长度的选择,更准确地定位了样本分类的关键字段位置,去除了对样本分类影响较小的特征,从而把原始输入时单个数据流使用的784字节缩减到529字节,精简了原长度的32%,并且实现了加密流量服务类型的12分类,其准确率达到95.5%。这些结果表明,所提方法可以在保证当前研究准确率的基础上减少原始输入特征维度并提高数据处理的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号