期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

沈宙锋苏前敏郭晶磊《智能计算机与应用》2021,11(8):97-102

中文临床电子病历命名实体识别是实现智慧医疗的基本任务之一.本文针对传统的词向量模型文本语义表示不充分,以及循环神经网络(RNN)模型无法解决长时间依赖等问题,提出一个基于XLNet的中文临床电子病历命名实体识别模型XLNet-BiLSTM-MHA-CRF,将XLNet预训练语言模型作为嵌入层,对病历文本进行向量化表示,解决一词多义等问题;利用双向长短时记忆网络(BiLSTM)门控制单元获取句子的前向和后向语义特征信息,将特征序列输入到多头注意力层(multi-head attention,MHA);利用MHA获得特征序列不同子空间表示的信息,增强上下文语义的关联性,同时剔除噪声;最后输入条件随机场CRF识别全局最优序列.实验结果表明,XLNet-BiLSTM-Attention-CRF模型在CCKS-2017命名实体识别数据集上取得了良好的效果. 相似文献

2.

基于生成对抗网络联合训练的语音分离方法

下载免费PDF全文

王涛全海燕《信号处理》2020,36(6):1013-1019

基于深度神经网络的语音分离方法大都在频域上进行训练，并且在训练过程中往往只关注目标语音特征，不考虑干扰语音特征。为此，提出了一种基于生成对抗网络联合训练的语音分离方法。该方法以时域波形作为网络输入，保留了信号时延导致的相位信息。同时，利用对抗机制，使生成模型和判别模型分别训练目标语音和干扰语音的特征，提高了语音分离的有效性。实验中，采用Aishell数据集进行对比测试。结果表明，本文所提方法在三种信噪比条件下都有良好的分离效果，能更好地恢复出目标语音中的高频频段信息。相似文献

3.

基于改进主题分布特征的神经网络语言模型

刘畅张一珂张鹏远颜永红《电子与信息学报》2018,40(1):219-225

在递归神经网络(RNN)语言模型输入中增加表示当前词所对应主题的特征向量是一种有效利用长时间跨度历史信息的方法。由于在不同文档中各主题的概率分布通常差别很大,该文提出一种使用文档主题概率改进当前词主题特征的方法,并将改进后的特征应用于基于长短时记忆(LSTM)单元的递归神经网络语言模型中。实验表明,在PTB数据集上该文提出的方法使语言模型的困惑度相对于基线系统下降11.8%。在SWBD数据集多候选重估实验中,该文提出的特征使LSTM模型相对于基线模型词错误率(WER)相对下降6.0%;在WSJ数据集上的实验中,该特征使LSTM模型相对于基线模型词错误率(WER)相对下降6.8%,并且在eval92测试集上,改进隐含狄利克雷分布(LDA)特征使RNN效果与LSTM相当。相似文献

4.

基于Transformer的微博文本情感分析算法研究

杨奎河孟豪阳《长江信息通信》2023,(1):126-127

针对传统情感分析方法在复杂语境中特征表达能力有限、缺乏深层语义信息、模型分类准确率低等问题,文章提出一种基于Transformer和TextCNN融合的新机制。首先,使用jieba工具对微博文本进行分词处理,利用Word2Vec方法将文本转化为词向量,降低词向量中的噪声数据;其次,将词向量作为神经网络模型的输入,进一步对词向量特征进行筛选,提取更有价值的特征信息;最后,将不同粒度的词向量特征进行融合拼接,利用Softmax激活函数实现情感多分类,实验结果表明,文章所提出的情感分析模型正确率达到92.17%,证明了该模型的有效性。相似文献

5.

民航陆空通话语音识别BiLSTM网络模型

下载免费PDF全文

邱意贾桂敏杨金锋刘远庆《信号处理》2019,35(2):293-300

民航陆空通话对民航飞行安全十分重要,但因其通话模式有特殊的语法结构与发音方式,日常语音识别声学模型无法有效应用于民航陆空通话的语音处理问题。针对民航陆空通话的特殊语境,本文提出了基于双向长短时记忆网络(BiLSTM)的民航陆空通话语音识别方法。首先,提取民航陆空通话语音的FBANK特征作为输入,以时序链式连接(CTC)为目标函数,训练BiLSTM网络得到BiLSTM/CTC模型。然后,利用声学模型,语言模型与陆空通话词典实现民航陆空通话的语音识别,并结合数据增强与数据迁移对模型进行增强训练提高语音识别性能。实验结果表明本文提出的方法适用于民航陆空通话语音识别,并且数据增强模型可有效降低民航陆空通话语音识别的词错误率。相似文献

6.

基于替换方法的无监督双语词典抽取

郭晋鹏曹海龙《智能计算机与应用》2021,11(3):217-218,封3

双语词典抽取任务是自然语言处理一个重要课题.本文基于替换方法重新训练词向量,使得词向量具有跨语言特性.本文主要研究了训练词典的获取方法,以及词向量共训练模型,在中英维基百科语料上进行实验.实验结果表明,按照确信度的方法选取训练词典,基于替换的方法得到的词向量跨语言性质较好,最终抽取的词典具有较高的准确率. 相似文献

7.

基于语音个人特征信息分离的语音转换方法研究

马振张雄伟杨吉斌《信号处理》2013,29(4):513-519

本文在深入研究语音个人特征信息有效表示的基础上,从信息分离角度,提出一种新的利用个人特征信息分离和替换实现语音转换的方法。该方法主要利用语音的稀疏性和K -均值奇异值分解(K-SVD)来实现。由于这种基于K-SVD的字典训练方法可以较好地保存语音信号中的个人特征信息,因此可以利用K-SVD的字典训练方法把语音个人特征信息进行分离并替换,再和语言内容等信息重构出目标语音。相对于传统方法,本方法能够更好地利用语音的稀疏性保存语音个人特征信息,从而可以克服参数映射带来的转换后语音个人特征相似度不高和语音质量下降的问题。实验仿真及主观评价结果表明,与基于高斯混合模型、人工神经网络的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度以及抗噪性。相似文献

8.

一种结合帧级特征预测的多任务学习声纹确认方法

李晋《长江信息通信》2023,(6):1-4

目前主流的声纹确认算法通常采用有监督、区分性的训练方式得到神经网络模型,如卷积神经网络（Convolutional Neural Network,CNN）、长短时记忆网络（Long-Short-Term Memory Network,LSTM）等,再利用该神经网络模型提取语音中包含个性化信息的声纹模型向量,从而进行相同人或不同人的声纹相似性比对。文章提出一种结合帧级特征预测的多任务学习训练方式,额外增加对帧级特征进行预测的神经网络模型分支,通过联合训练达到提高声纹确认算法性能的目的。在基准VoxCeleb三个测试集合上开展的实验结果表明,本文提出的方法可以有效提升声纹确认算法性能。相似文献

9.

基于SWCNN和双向LSTM的文本情感特征分析方法

许学添赖河蒗《智能计算机与应用》2023,(11):275-280

针对文本句子中语义角色重叠、高维度文本词向量训练中难以收敛等问题,将情感词标签与卷积神经网络相结合,采用结合情感词的卷积神经网络算法,将词语转为情感标签后与词向量拼接再输入卷积神经网络,将输出的特征再与双向长短期记忆神经网络所获取的特征进行融合,最后通过全连接网络输出情感分类结果。实验结果表明,在微博新冠疫情评论情绪数据集上,本研究所提出的算法模型文本情感特征识别精确度达到89.23%,比其他深度学习算法在准确率上至少提高1.95%,而且训练具有更快的收敛速度,能够为文本情感识别提供一种新的思路与方法。相似文献

10.

基于BERT的双通道神经网络模型文本情感分析研究

严驰腾何利力《智能计算机与应用》2022,12(5):16-22

针对当前情感分析任务中使用Word2Vec、GloVe等模型生成的文本词向量,无法有效解决多义词表征、经典神经网络模型无法充分提取文本语义特征等问题,本文提出基于BERT的双通道神经网络模型文本情感分析方法。该方法采用BERT模型生成词向量,BERT模型对下游分类任务进行微调的过程中生成文本词向量的动态表征。然后,将词向量输入由CNN与BiGRU构建的双通道模型进行特征提取,并行获取文本的局部与全局语义特征,并通过注意力机制为输出特征分配相应的权重分值,突出文本的情感极性。最后将双通道输出特征融合进行情感分类。在酒店评论数据集上进行实验,结果表明本文模型与文本情感分析的基线模型相比,在准确率与F₁分值上分别提高了3.7%和5.1%。相似文献

11.

基于CRNN混合神经网络的多语种识别

王瑶龙华邵玉斌杜庆治王延凯《光电子．激光》2022,33(6):620-628

在语种识别过程中,为提取语音信号中的空间特征以及时序特征,从而达到提高多语种识别准确率的目的,提出了一种利用卷积循环神经网络(convolutional recurrent neural network,CRNN)混合神经网络的多语种识别模型。该模型首先提取语音信号的声学特征;然后将特征输入到卷积神经网络(convolutional neural network,CNN) 提取低维度的空间特征;再通过空间金字塔池化层(spatial pyramid pooling layer,SPP layer) 对空间特征进行规整,得到固定长度的一维特征;最后将其输入到循环神经网络(recurrenrt neural network,CNN) 来判别语种信息。为验证模型的鲁棒性,实验分别在3个数据集上进行,结果表明:相比于传统的CNN和RNN,CRNN混合神经网络对不同数据集的语种识别准确率均有提高,其中在8语种数据集中时长为5 s的语音上最为明显,分别提高了 5.3% 和6.1%。相似文献

12.

结合改进Bi-LSTM和CNN的文本情感分析

郭勇赵康潘力《信息技术》2021,(2):50-55

针对目前用于文本情感分析神经网络非常缺乏的问题,提出了一种级联RNN的体系结构.该体系结构首先将RNN放在全局平均池化层上,用于捕获与CNN之间的长期依赖关系,然后通过GloVe嵌入方法对词向量进行处理,最终作为输入数据,进行训练.该方法与Twitter语料库中的基线模型相比,实验表现出更好的情感分类效果,该方法在Tw... 相似文献

13.

一种采用机器学习的氦语音识别方法

李冬梅李明郭莉莉张士兵《电讯技术》2022,(9)

为了解决传统氦语音处理技术存在的处理速度慢、计算复杂、操作困难等问题,提出了一种采用机器学习的氦语音识别方法,通过深层网络学习高维信息、提取多种特征,不但解决了过拟合问题,同时也具备了字错率(Word Error Rate,WER)低、收敛速度快的优点。首先自建氦语音孤立词和连续氦语音数据库,对氦语音数据预处理,提取的语音特征主要包括共振峰特征、基音周期特征和FBank(Filter Bank)特征。之后将语音特征输入到由深度卷积神经网络(Deep Convolutional Neural Network,DCNN)和连接时序分类(Connectionist Temporal Classification,CTC)组成的声学模型进行语音到拼音的建模,最后应用Transformer语言模型得到汉字输出。提取共振峰特征、基音周期特征和FBank特征的氦语音孤立词识别模型相比于仅提取FBank特征的识别模型的WER降低了7.91%,连续氦语音识别模型的WER降低了14.95%。氦语音孤立词识别模型的最优WER为1.53%,连续氦语音识别模型的最优WER为36.89%。结果表明,所提方法可有效识别氦语音。相似文献

14.

有序聚类方法及其在神经网络语音识别中的应用 总被引：3，自引：1，他引：2

史笑兴顾明亮王太君何振亚《电路与系统学报》2000,5(2):99-103

本文提出了一种新的网络结构,我们称之为有序聚类网络。这种网络能够对语音信号进行特征提取,很好地解决神经网络语音识别中的时间规整问题。有序聚类网络从输入语音信号的特征矢量序列中撮出一组固定数目的特矢量,然后将这组特征矢量馈入神经网络分类器进行识别。和其他的神经网络语音识别方法相比较,用这种网络进行前端处理,可以缩短后端神经网络分类器的训练和识别时间,简化经分类器的网络产高的识别率。根据该们建立了相似文献

15.

基于Sinc-Transformer模型的原始语音情感识别

下载免费PDF全文

俞佳佳金赟马勇姜芳艽戴妍妍《信号处理》2021,37(10):1880-1888

考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer（SincNet Transformer）模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库（IEMOCAP）的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。相似文献

16.

Rank‐weighted reconstruction feature for a robust deep neural network‐based acoustic model

Hoon Chung Jeon Gue Park Ho‐Young Jung 《ETRI Journal》2019,41(2):235-241

In this paper, we propose a rank‐weighted reconstruction feature to improve the robustness of a feed‐forward deep neural network (FFDNN)‐based acoustic model. In the FFDNN‐based acoustic model, an input feature is constructed by vectorizing a submatrix that is created by slicing the feature vectors of frames within a context window. In this type of feature construction, the appropriate context window size is important because it determines the amount of trivial or discriminative information, such as redundancy, or temporal context of the input features. However, we ascertained whether a single parameter is sufficiently able to control the quantity of information. Therefore, we investigated the input feature construction from the perspectives of rank and nullity, and proposed a rank‐weighted reconstruction feature herein, that allows for the retention of speech information components and the reduction in trivial components. The proposed method was evaluated in the TIMIT phone recognition and Wall Street Journal (WSJ) domains. The proposed method reduced the phone error rate of the TIMIT domain from 18.4% to 18.0%, and the word error rate of the WSJ domain from 4.70% to 4.43%. 相似文献

17.

Deep recurrent neural networks with word embeddings for Urdu named entity recognition

Wahab Khan Ali Daud Fahd Alotaibi Naif Aljohani Sachi Arafat 《ETRI Journal》2020,42(1):90-100

Named entity recognition (NER) continues to be an important task in natural language processing because it is featured as a subtask and/or subproblem in information extraction and machine translation. In Urdu language processing, it is a very difficult task. This paper proposes various deep recurrent neural network (DRNN) learning models with word embedding. Experimental results demonstrate that they improve upon current state‐of‐the‐art NER approaches for Urdu. The DRRN models evaluated include forward and bidirectional extensions of the long short‐term memory and back propagation through time approaches. The proposed models consider both language‐dependent features, such as part‐of‐speech tags, and language‐independent features, such as the “context windows” of words. The effectiveness of the DRNN models with word embedding for NER in Urdu is demonstrated using three datasets. The results reveal that the proposed approach significantly outperforms previous conditional random field and artificial neural network approaches. The best f‐measure values achieved on the three benchmark datasets using the proposed deep learning approaches are 81.1%, 79.94%, and 63.21%, respectively. 相似文献

18.

New method of text representation model based on neural network

Shui-fei ZENG Xiao-yan ZHANG Xiao-feng DU Tian-bo LU 《通信学报》2017,38(4):86-98

Method of text representation model was proposed to extract word-embedding from text feature.Firstly,the word-embedding of the dual word-embedding list based on dictionary index and the corresponding part of speech index was created.Then,feature vectors was obtained further from these extracted word-embeddings by using Bi-LSTM recurrent neural network.Finally,the sentence vectors were processed by mean-pooling layer and text categorization was classified by softmax layer.The training effects and extraction performance of the combination model of Bi-LSTM and double word-embedding neural network were verified.The experimental results show that this model not only performs well in dealing with the high-quality text feature vector and the expression sequence,but also significantly outperforms other three kinds of neural networks,which includes LSTM,LSTM+context window and Bi-LSTM. 相似文献

19.

Sign language recognition based on global-local attention

《Journal of Visual Communication and Image Representation》2021

相似文献