期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

樊殊昱窦衡刘志勇《现代电子技术》2007,30(10):74-76

介绍一种基于ARM 9的数字处罚管理网络终端。该设备读取个人识别射频卡中的个人识别信息,并通过GPRS通用分组无线业务网络在远程服务器端数据库中查询匹配,之后操作人员通过液晶触摸屏幕录入处罚信息,系统自动生成罚单,确认后采集违规人员指纹签名信息及现场图片证据一并上传服务器端数据库备份。该设备配合个人识别射频卡和服务器数据库可构成一套先进的数字处罚管理网络方案。同时,该系统也提供了服务器端与终端间的信息查询方案和语音通信方案。相似文献

2.

基于LPC倒谱的语音特征参数提取

唐晓进《山西电子技术》2012,(6):15-16,19

语音识别指利用计算机识别语音信号所表达的内容,其目的是要准确地理解语音所蕴含的含义。本文着重研究了语音识别实现过程的特征提取,针对特征提取的多种方法,选用LPC倒谱系数作为特征参数提取,较彻底地去除了语音信号产生过程的激励信息,主要反映了声道模型,而且只需十几个倒谱系数就较好地描述了语音的共振峰特性。通过对语音信号进行预加重、分帧、加窗、自相关分析,而后提取出LPC倒谱系数。根据流程编写VC程序,对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,从而获得用于语音识别的重要信息。相似文献

3.

音频的梅尔频率倒谱系数特征抽取过程

赵扬青彭智才蒋雨涵陈佳瑜陈子怡赵舒悦《信息技术与信息化》2023,(1):104-111

特征工程是机器学习中重要的一环。梅尔倒谱系统特征是语音的关键信息,提取该特征是语音识别的特征工程之一。首先分析了梅尔特征的提取过程,包括预加重、分窗、窗函数、短时傅里叶、能量普计算、三角滤波、取对数、离散余弦变换和倒谱抬升八个步骤,其中重点分析了窗函数和梅尔三角滤波,这两个过程因有多种算法应用于不同的语音识别场景。在三角滤波过程中,引入了梅尔尺度的概念。然后,把梅尔特征的提取步骤在Python语言中,使用librosa库函数中的mfcc函数进行关键步骤实现。结果表明,梅尔倒谱系特征是语音识别中的典型特征,其提取过程对于其它特征的提取具有广泛的借鉴意义。相似文献

4.

一种改进的特定人语音识别系统及算法研究

赵智琦房建东《电子设计工程》2014,22(16)

针对传统特定人语音识别过程中存在的算法复杂、所占存储空间大等问题,提出了一种改进的基于动态时间规整算法(DTW)的特定人语音识别系统.在对参数提取方法进行详细对比之后,提取美尔频率倒谱系数(MFCC)作为本系统的语音识别参数,有效的解决了人耳响应不同信号灵敏度不同的问题.利用MATLAB环境下语音工具箱Voice Box实现了对若干数字的孤立词识别,识别速度提高了约30％,识别成功率达到95％以上.仿真结果证明,该系统在算法简单,识别成功率高,是一种简单有效的语音识别方法. 相似文献

5.

英语口语自动发音校对系统设计

《现代电子技术》2017,(24):59-61

针对传统的英语发音自动校对系统中语音识别混乱的问题,设计一种英语口语自动发音校对系统。引进灭错计算进行语音的识别校对,通过灭错计算的语音信息能够进行高阶识别,避免传统的识别校对方法中出现的数据进阶误差,同时优化了反馈控制系统,提高系统的识别语音的能力。为了验证所设计的英语口语自动发音校对系统的有效性,设计了对比仿真试验。试验数据表明,设计的英语口语自动发音校对系统能够有效地解决语音识别混乱问题。相似文献

6.

机器人语音控制系统的设计与实现

李家旺《电子科技》2010,23(3):34-35,39

结合语音识别技术,描述了在局域网环境下,服务器端和客户端的通信,通过麦克风控制远端机器人手臂做出各种动作。实验验证了语音远程控制智能机器人运动的准确性和实时性。相似文献

7.

在线教学平台中视频语音识别系统设计

张飞宇《电子科技》2012,25(10):43-45,48

在线协同学习平台中,为方便用户更加快捷地查找网络中的多媒体文件,完成基于教学视频内容信息检索,视频语音识别是重要环节。教学视频语音识别系统是基于隐马尔可夫模型下语音识别的一个实例,旨在实现教学音/视频文件中文字提取的功能,具有重要的应用价值。文中对语音识别系统的应用软件进行了需求分析,通过其相关功能的性能测试结果表明,该系统实现并展示了将视频中的音频信息文字转换的过程。相似文献

8.

康复机器人的语音控制及实现

李少坤江先志王增怀《信息通信》2012,(1):260-261

研究语音识别技术在康复机器人控制系统中的运用.通过对语音信号进行分析,提取线性预测系数(LPC)作为特征参数.然后采用隐马尔可夫模型(HMM)进行模板匹配,对有限的词汇进行识别雇康复机器人的语音控制中,语音识别模块作为独立的子系统,与上位机之间通过USB串口进行数据交换.上位机将读取的语音识别结果转换成命令,控制康复机器人执行指定的康复运动. 相似文献

9.

基于机器视觉的智能导盲系统的开发与设计

《电子技术与软件工程》2017,(3)

系统利用机器视觉、数字图像处理与识别、深度学习、计算机网络等前沿技术,实现了对使用者前方障碍物的类别、方位、距离的综合探测,同时实现卫星定位、语音播报、3G网络通信和短信联系家人等功能。系统采用本地-服务器递进识别方案,在前端与云服务器端分别利用模板匹配与深度学习完成对常见障碍物以及非常见障碍物的识别。相似文献

10.

基于Bark子波变换和RAS-MFCC特征的语音识别系统研究

刘菁华《电声技术》2011,35(9):47-48,54

提出了一种适用于低信噪比下的语音识别算法.该算法在前端利用人耳听觉掩蔽效应进行语音增强,然后提取一种在不需要噪声先验知识,能避免大量计算的情况下能较好地消除系统加性噪声的自相关MFCC(RAS-MFCC)参数,作为语音特征参数进行识别. 相似文献

11.

Music Genre Classification Using Spectral Analysis and Sparse Representation of the Signals

Mehdi Banitalebi-Dehkordi Amin Banitalebi-Dehkordi 《Journal of Signal Processing Systems》2014,74(2):273-280

In this paper, we proposed a robust music genre classification method based on a sparse FFT based feature extraction method which extracted with discriminating power of spectral analysis of non-stationary audio signals, and the capability of sparse representation based classifiers. Feature extraction method combines two sets of features namely short-term features (extracted from windowed signals) and long-term features (extracted from combination of extracted short-time features). Experimental results demonstrate that the proposed feature extraction method leads to a sparse representation of audio signals. As a result, a significant reduction in the dimensionality of the signals is achieved. The extracted features are then fed into a sparse representation based classifier (SRC). Our experimental results on the GTZAN database demonstrate that the proposed method outperforms the other state of the art SRC approaches. Moreover, the computational efficiency of the proposed method is better than that of the other Compressive Sampling (CS)-based classifiers. 相似文献

12.

基于TVF-EMD的乐器音质特征分析方法及其应用

下载免费PDF全文

李海峰孙聪珊马琳薄洪健徐忠亮《信号处理》2020,36(6):934-941

音质（Timbre）是音乐感知和言语识别的重要线索。传统音质分析方法无法同时获取理想的时间分辨率和频域分辨率,对音频的非平稳特性没有很好地处理。本文采用时变滤波经验模态分解（Time Varying Filtering based EMD,TVF-EMD）方法提取音频的固有模态函数用于希尔伯特变换,并构建了音质的希尔伯特频谱分布特征和希尔伯特轮廓特征。在乐器分类问题中,将提取的两类音质特征与Mel倒谱系数特征（Mel Frequency Cepstral Coefficients, MFCCs）有效结合,然后构造基于双向长短时记忆网络的音质时序分类器,在公开乐器演奏音频数据库中进行了乐器分类实验。结果表明,所提出的音质特征可以有效补充Mel倒谱特征等传统特征无法表达的非线性非平稳信息,大大提高了本音质表征方法对复杂音频的适应性和鲁棒性。相似文献

13.

保留立体声相位信息的声音场景分类系统

下载免费PDF全文

杨浩聪史创李会勇《信号处理》2020,36(6):871-878

针对立体声音频采集设备逐渐普及的趋势，本文提出了一种保留立体声相位信息的声音场景分类算法。在预处理阶段，根据左右通道的相位信息对音频样本进行源环境提取，生成一种全新的四通道特征。在此基础上，通过集成多个卷积神经网络，搭建一个针对立体声音频样本的声音场景分类系统。区别于现有声音场景分类系统只使用时频谱幅度信息，本文所提出的方法保留了立体声音频的相位信息。这使得声学特征中所包含的空间方位信息更丰富，立体声音频的优势得到发挥。实验结果证明保留立体声相位信息的声音场景分类系统具有更好的性能，在2019年IEEE声学信号处理技术委员会举办的声音场景分类赛事中相比于基线系统的识别准确率提升了18.3%。相似文献

14.

MEF融合HFF的戏剧视频关键情节自动提取

尚雪莲秦健勇《电视技术》2015,39(8):50-54

为了更好地从戏剧视频提取关键情节,提出了一种基于音乐情感特征(MEF)融合人脸特征(HFF)的自动提取方法.首先,利用基于音频指纹技术的二级音乐情感识别方法进行音频识别,并利用人脸特征进行视频识别;然后,利用音频和视频识别得到的各元素获取关键情节值,从而提取关键情节;最后,提出了一种量化评估方法评估关键情节提取方法的一致性.在四个戏剧视频上的评估实验验证了该方法的有效性及可靠性,相比其他几种较新的提取模型,该方法提取效果更好. 相似文献

15.

基于主成分分析的激光麦克风的语音信号提取

孙学明张大华周志全赵张美胡荣磊《激光与红外》2022,52(12):1761-1767

主成分分析(Principal Component Analysis,PCA)法用于高速视觉的激光麦克风的音频信号重建,可从声场中轻质弹性物体表面的激光散斑动态变化中提取语音信息。将高速散斑视频中的一帧图像视为高维空间中的向量,顺序将视频图像堆栈成数据矩阵,利用PCA做特征提取,语音信息就存在于方差较大的主成分中,通常应用第一主成分就可以重建清晰的语音信号。实验表明,PCA对激光散斑颗粒尺度和灰度分布没有过多限制,即使在采样区域较小、反射物体材质不同的情况下,都可以重建人耳可分辨的语音信号。而且基于PCA的无监督机器学习算法特性,选取视频开始部分的帧图像做训练集,还可以提取含有音频信息的主成分的特征向量,作为后续视频图像向量的投影基,实现语音信号的快速提取。相似文献

16.

Audio Watermarking through Modification of Tonal Maskers

Hee Suk Lee Woo Sun Lee 《ETRI Journal》2005,27(5):608-616

Watermarking has become a technology of choice for a broad range of multimedia copyright protection applications. This paper proposes an audio watermarking scheme that uses the modified tonal masker as an embedding carrier for imperceptible and robust audio watermarking. The method of embedding is to select one of the tonal maskers using a secret key, and to then modify the frequency signals that consist of the tonal masker without changing the sound pressure level. The modified tonal masker can be found using the same secret key without the original sound, and the embedded information can be extracted. The results show that the frequency signals are stable enough to keep embedded watermarks against various common signal processing types, while at the same time the proposed scheme has a robust performance. 相似文献

17.

Multimedia content analysis-using both audio and visual clues 总被引：1，自引：0，他引：1

Yao Wang Zhu Liu Jin-Cheng Huang 《Signal Processing Magazine, IEEE》2000,17(6):12-36

相似文献

18.

基于改进小波包变换的音频指纹提取算法

朱洁邓开发《电子科技》2016,29(3):30

数字音频指纹技术在音频信号分析和处理中起着重要作用。针对传统基于时频分析的音频指纹提取算法中仅使用信号能量作为特征参数,而无法全面表征出信号的复杂度和不规则性问题,提出了基于小波包分解与重构,将小波包系数的奇异值熵和样本熵相结合,作为音频信号的特征参数提取指纹。实验证明,该算法提取的指纹提高了音频识别的准确率,在常见信号处理下能保持较强的鲁棒性,并具有明显的区分音频和定位音频篡改位置的能力。相似文献

19.

一种基于交互信息量的视频摘要生成方法

高俊杰《微电子学与计算机》2007,24(2):128-131

提出了一种基于交互信息量的视频摘要生成方法。该方法首先使用基于交互信息量的方法进行视频镜头检测,通过对检测到镜头帧的聚类提取镜头候选关键帧。然后对候选关键帧按照相邻帧间交互信息量的比较来提取镜头关键帧,最后将镜头关键帧按时序排列在一起形成视频摘要。试验表明,这种关键帧提取算法是有效的,其建立的视频摘要能较好的反映原视频的内容。相似文献

20.

A pattern recognition framework to blind audio watermark decoding

Serap Kirbiz Yener Ulker Bilge Gunsel 《AEUE-International Journal of Electronics and Communications》2009,63(2):92-102

Conventional blind audio watermark (WM) decoders use matched-filtering techniques because of their simplicity. In these methods, WM decoding and WM detection are often considered as separate problems and the WM signal embedded by spreading a secret key through the spectrum of a host signal is extracted by maximizing correlation between the secret key and the received audio. Conventionally decoding is achieved by using a pre-defined decoding/detection threshold and tradeoff between the false rejection ratio and false acceptance ratio constitutes main drawback of the conventional decoders. Unlike the conventional methods, this paper introduces a pattern recognition (PR) framework to WM extraction and integrates WM decoding and detection problems into a unique classification problem that eliminates thresholding. The proposed method models statistics of watermarked and original audio signals by a Gaussian mixture model (GMM) with K components. Learning of the embedded WM data is achieved in a principal component analysis (PCA) transformed wavelet space and a maximum likelihood (ML) classifier is designed for WM decoding. Robustness of the proposed method is evaluated under compression, additive noise and Stirmark benchmark attacks. It is shown that both WM decoding and detection performances of the introduced decoder outperform the conventional decoders. 相似文献