首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
何文龙  高长丰  黎塔  刘建 《信号处理》2021,37(5):893-901
为了进一步利用源文本数据来提高语音翻译的性能,本文提出了一种基于生成对抗网络的端到端语音翻译算法。通过加入判别网络来判断语音特征序列和文本特征序列的真伪,从而引导生成模型来学习文本真实序列的分布,以使语音序列特征分布更加逼近文本特征序列的分布。引入了Wasserstein GAN(WGAN)来计算语音特征序列和文本特征序列通过判别器的标量似然值的Earth-Mover(EM)距离,来解决语音特征序列和文本特征序列存在长度不一致的问题。整个模型遵从多任务学习和对抗学习的训练准则,本文在How2数据集上和MuST-C英中数据集上验证了本文提出算法的有效性,该方法可以显著提升翻译质量。   相似文献   

2.
从医疗文本中抽取知识对构建医疗辅助诊断系统等应用具有重要意义.实体识别是其中的核心步骤.现有的实体识别模型大都是基于标注数据的深度学习模型,非常依赖高质量大规模的标注数据.为了充分利用已有的医疗领域词典和预训练语言模型,本文提出了融合知识的中文医疗实体识别模型.一方面基于领域词典提取领域知识,另一方面,引入预训练语言模型BERT作为通用知识,然后将领域知识和通用知识融入到模型中.此外,本文引入了卷积神经网络来提高模型的上下文建模能力.本文在多个数据集上进行实验,实验结果表明,将知识融合到模型中能够有效提高中文医疗实体识别的效果.  相似文献   

3.
中文临床电子病历命名实体识别是实现智慧医疗的基本任务之一.本文针对传统的词向量模型文本语义表示不充分,以及循环神经网络(RNN)模型无法解决长时间依赖等问题,提出一个基于XLNet的中文临床电子病历命名实体识别模型XLNet-BiLSTM-MHA-CRF,将XLNet预训练语言模型作为嵌入层,对病历文本进行向量化表示,解决一词多义等问题;利用双向长短时记忆网络(BiLSTM)门控制单元获取句子的前向和后向语义特征信息,将特征序列输入到多头注意力层(multi-head attention,MHA);利用MHA获得特征序列不同子空间表示的信息,增强上下文语义的关联性,同时剔除噪声;最后输入条件随机场CRF识别全局最优序列.实验结果表明,XLNet-BiLSTM-Attention-CRF模型在CCKS-2017命名实体识别数据集上取得了良好的效果.  相似文献   

4.
针对现有场景文本识别方法只关注局部序列字符 分类,而忽略了整个单词全局信息的问题,提出 了一种多级特征选择的场景文本识别(multilevel feature selection scene text recogn ition,MFSSTR)算 法。该算法使用堆叠块体系结构,利用多级特征选择模块在视觉特征中分别捕获上下文特征 和语义特 征。在字符预测过程中提出一种新颖的多级注意力选择解码器(multilevel attention sele ction decoder, MASD),将视觉特征、上下文特征和语义特征拼接成一个新的特征空间,通过自注意力机制 将新的特征 空间重新加权,在关注特征序列的内部联系的同时,选择更有价值的特征并参与解码预测, 同时在训练 过程中引入中间监督,逐渐细化文本预测。实验结果表明,本文算法在多个公共场景文本 数据集上识 别准确率能达到较高水平,特别是在不规则文本数据集SVTP上准确率能达到87.1%,相比于当前热门算法提升了约2%。  相似文献   

5.
问题生成是一项应用非常广泛的自然语言生成任务,现有的研究大多数是采用基于循环神经网络构建的序列到序列模型.由于循环神经网络自带的“长期依赖”问题,导致模型编码器在对输入语句建模表示时,无法有效地捕获到词语间的相互关系信息.此外,在解码阶段,模型解码器通常只利用编码器的单层输出或者顶层输出来计算全局注意力权重,无法充分利...  相似文献   

6.
叶俊民  罗达雄  陈曙 《电子学报》2021,49(2):401-407
文本中存在的表达冗余、词汇误用和内容缺失等错误会显著影响文本语义的理解,当前解决上述文本错误的纠错模型存在两个主要的问题:当前的文本纠错模型主要基于编码器-解码器框架,解码速度较慢;许多工作将错误检测和修正分离成两个任务,没有形成统一的整体.为此,提出了一种基于层次化修正框架的文本纠错模型.首先,基于预训练模型建模得到文本的多种语义表示;其次,利用文本的语义表示识别出文本中错误的位置;最后,利用层次化修正框架计算精化的修正操作并完成对错误的修正.针对公开文本纠错数据集CONLL-14进行了相关实验,结果表明本文模型比所选取的对比模型有更快的解码速度和更高的召回率.  相似文献   

7.
提出了一种利用失配序列来完成OFDM符号同步的新方法.在发端直接加入失配序列作为OFDM符号的训练序列,在收端将OFDM符号序列与失配滤波器系数做相关运算,利用失配序列的优良自相关特性和有效抑制旁瓣的特点,很好地完成符号同步.在多径信道下,与已有方法进行比较.仿真结果表明,提出的算法在计算复杂度低的情况下有效降低了同步均值偏差,提高了正确同步估计的概率.  相似文献   

8.
为了打破跨语言交际中的语言障碍,采用翻译系统实现该目的.传统翻译系统不能很容易地处理单词和强调级别之间关系.此外,由于所有组件都是单独训练的,没有进行联合优化.为此,提出一种基于序列到序列模型的处理连续强调级别的方法,并将机器翻译和强调翻译结合到一个单一的模型中,这大大简化了翻译过程,更容易进行联合优化.实验表明,提出...  相似文献   

9.
随着生物医学研究与信息化技术的迅速发展,临床医学文献数量呈指数级增长,利用文本挖掘技术自动提取医学知识逐渐成为当前研究热点。针对目前新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)临床文本研究匮乏、语料不足与标注质量不高等问题,本文结合UMLS医学语义网络和专家定义方式,制定医学实体标注规则,建立命名实体识别语料库,明确实体识别任务。其次,提出了一种基于MPNet与BiLSTM的COVID-19临床文本命名实体识别模型。通过预训练语言模型获得文本的向量化表示,解决了一词多义问题;采用双向长短期记忆网络,捕捉文本的长距离依赖;最后引入条件随机场,实现句子级序列注释,输出完整的最优标签序列。实验结果表明,MPNet-BiLSTM-CRF模型在COVID-19临床命名实体识别数据集上取得了较好的表现。  相似文献   

10.
融合语言模型的端到端中文语音识别算法   总被引:1,自引:0,他引:1  
为了解决语音识别模型在识别中文语音时鲁棒性差,缺少语言建模能力而无法有效区分同音字或近音字的不足,本文提出了融合语言模型的端到端中文语音识别算法.算法建立了一个基于深度全序列卷积神经网络和联结时序分类的从语音到拼音的语音识别声学模型,并借鉴Transformer的编码模型,构建了从拼音到汉字的语言模型,之后通过设计语音帧分解模型将声学模型的输出和语言模型的输入相连接,克服了语言模型误差梯度无法传递给声学模型的难点,实现了声学模型和语言模型的联合训练.为验证本文方法,在实际数据集上进行了测试.实验结果表明,语言模型的引入将算法的字错误率降低了21%,端到端的联合训练算法起到了关键作用,其对算法的影响达到了43%.和已有5种主流算法进行比较的结果表明本文方法的误差明显低于其他5种对比模型,与结果最好的Deep?Speech2模型相比字错误率降低了28%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号