首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
目前主流的序列标注问题是基于循环神经网络(RNN)实现的。针对RNN和序列标注问题进行研究,提出了一种改进型的多层双向长短时记忆(BLSTM)网络,该网络每层的BLSTM都有一次信息融合,输出包含更多的上下文信息。另外找到一种基于序列标注的可以并行执行中文分词和标点预测的联合任务方法。在公开的数据集上的实验结果表明,所提出的改进型的多层BLSTM网络模型性能优越,提升了中文分词和标点预测的分类精度;在需要完成中文分词和标点预测两项任务时,联合任务方法能够大幅地降低系统复杂度;新的模型及基于该模型的联合任务方法也可应用到其他序列标注任务中。  相似文献   

2.
采用融合自注意力机制的双向长短期记忆模型(SelfAtt-BILSTM)和条件随机场模型(CRF),构建一种SelfAtt-BILSTM-CRF模型,对政策文本进行语义角色标注,以提取政策主要内容。采用某高校政策文件为实验数据集,利用BILSTM模型自动学习序列化语句上下文特征,融合自注意力机制增加重要特征元素的权重,通过CRF层利用特征进行序列标注,提取语义角色,以实现政策文件的主要内容挖掘。经过对比验证,该模型能够有效地提取政策文本内容,在标注数据集上F1值达到78.99%。实验结果同时表明,自注意力机制能够有效提高神经网络模型的语义角色标注效果。  相似文献   

3.
提出将注意力机制引入至孪生网络(Siamese Network)结构,通过注意力机制对句子中单词进行重要性评分,以双向长短时记忆网络(BiLSTM)作为基准系统,获得文本语义的深层次特征表示,从而有效地提升短文本相似度的准确率。实验采用通用公开标注数据集Quora语句对集和蚂蚁金服句对集,结果表明,与传统神经网络以及Siamese-Net网络相比,所提出的算法在短文本相似度总体效果上有明显提升,验证了所提算法的有效性。  相似文献   

4.
针对图像自动标注中因人工选择特征而导致信息缺失的缺点,提出使用卷积神经网络对样本进行自主特征学习。为了适应图像自动标注的多标签学习的特点以及提高对低频词汇的召回率,首先改进卷积神经网络的损失函数,构建一个多标签学习的卷积神经网络(CNN-MLL)模型,然后利用图像标注词间的相关性对网络模型输出结果进行改善。通过在IAPR TC-12标准图像标注数据集上对比了其他传统方法,实验得出,基于采用均方误差函数的卷积神经网络(CNN-MSE)的方法较支持向量机(SVM)方法在平均召回率上提升了12.9%,较反向传播神经网络(BPNN)方法在平均准确率上提升了37.9%;基于标注结果改善的CNN-MLL方法较普通卷积神经网络的平均准确率和平均召回率分别提升了23%和20%。实验结果表明基于标注结果改善的CNN-MLL方法能有效地避免因人工选择特征造成的信息缺失同时增加了对低频词汇的召回率。  相似文献   

5.
随着海南省气象业务的快速发展和社会公众对气象预报、预警服务的日益关注,建设海南气象信息服务网,形成海南气象系统内部统一的省级气象信息服务平台,是海南省气象现代化建设的重要任务之一;基于全国综合气象信息共享平台(CIMISS,china integrated meteorological information service system)的基础气象数据,整合相关业务单位的数据资源,利用统一的数据收集、处理及存储方式,采用Model+View+Controller (MVC)开发模式,使用J2EE应用架构Struts+Spring+Hibernate (SSH)研发一个集预报预警、气象监测和决策服务等功能于一体的信息服务平台,实现省级气象观测数据和预报产品的集约共享服务;目前,平台已投入业务试运行,运行稳定,具有高可用性和高可靠性,为社会公众提供及时、有效的基础气象数据服务产品。  相似文献   

6.
针对当数据集含有敏感信息时,直接发布频繁序列模式本身及其支持度计数都有可能泄露用户隐私信息的问题,提出一种满足差分隐私(DP)的频繁序列模式挖掘(DP-FSM)算法。该算法利用向下封闭性质生成候选序列模式集,基于智能截断方法从候选模式中挑选出频繁的序列模式,最后采用几何机制对所选出模式的真实支持度添加噪声进行扰动。另外,为了提高挖掘结果的可用性,设计了一个阈值修正的策略来减小挖掘过程中的截断误差和传播误差。理论分析证明了该算法满足ε-差分隐私。实验结果表明了该算法在拒真率(FNR)和相对支持度误差(RSE)两个指标上明显低于对比算法PFS2,有效地提高了挖掘结果的准确度。  相似文献   

7.
针对背景复杂或者存在字符黏连时文本段图片无法准确切分的情况进行了研究,提出了一种复杂场景文本段识别方法。该方法利用图像和文字序列的相关性设计双向递归神经网络对图像特征序列进行编码,然后设计集成的连接时间分类(CTC)和注意力(attention)模块对编码特征进行解码输出。该算法在多个数据集(公开数据集ICDAR2013和ICDAR2003以及验证码数据集)上进行测试,得到识别准确率分别为90.2%、87.4%和92.5%,从而证明了该算法的有效性。实验结果对文本段识别和应用有重要意义。  相似文献   

8.
汪鹏  张奥帆  王利琴  董永峰 《计算机应用》2018,38(11):3199-3203
针对图像标注数据集标签分布不平衡问题,提出了基于标签平滑策略的多标签平滑单元(MLSU)。MLSU在网络模型训练过程中自动平滑数据集中的高频标签,使网络适当提升了低频标签的输出值,从而提升了低频标注词的标注性能。为解决图像标注数据集样本数量不足造成网络过拟合的问题,提出了基于迁移学习的卷积神经网络(CNN)模型。首先利用互联网上的大型公共图像数据集对深度网络进行预训练,然后利用目标数据集对网络参数进行微调,构建了一个多标签平滑卷积神经网络模型(CNN-MLSU)。分别在Corel5K和IAPR TC-12图像标注数据集上进行实验,在Corel5K数据集上,CNN-MLSU较卷积神经网络回归方法(CNN-R)的平均准确率与平均召回率分别提升了5个百分点和8个百分点;在IAPR TC-12数据集上,CNN-MLSU较两场K最邻近模型(2PKNN_ML)的平均召回率提升了6个百分点。实验结果表明,基于迁移学习的CNN-MLSU方法能有效地预防网络过拟合,同时提升了低频词的标注效果。  相似文献   

9.
秋兴国  王博辉 《计算机应用》2012,32(6):1601-1604
针对矿井预警数据信息表达不完全、基于视觉的统计分析工作繁重、预警数据集庞杂等问题,提出了一种基于色彩渐进插值的矿井预警数据集三维可视化算法。在该算法中,首先根据矿井预警数据集的测点位置和测量值信息进行三维空间模型构造;然后根据灰度级与彩色空间系统的映射关系对矿井预警数据集与彩色空间模型进行颜色映射及三维空间层次分割,对每个层片依据伪图像编码算法及颜色聚类参数特征进行矿井预警数据集的三维可视化伪图像编码;最后根据色彩渐进插值算法对伪图像中相邻层片进行平滑过渡处理。实验证明,该算法处理的矿井预警数据集伪图像色彩渲染层次感强,色彩过渡平滑,有利于矿井预警数据集的信息表达。  相似文献   

10.
在对文博数据进行知识图谱的构建时,从文本中抽取出有效的三元组尤为重要,因而命名实体识别成为挖掘文博数据的首要任务。传统的中文实体命名识别方法多采用深度神经网络模型,此类方法在对词进行向量化处理时只是将词映射成单一的词向量,并不能很好地表示词的多义性。预训练语言模型能够有效地对字进行向量化表示,将语义信息充分地结合。因此,针对文博数据提出一种基于BERT的预训练实体识别模型,采用BERT预训练模型进行词嵌入,通过利用双向长短期记忆网络(BiLSTM)模型结合上下文信息来增强词向量的语义信息,然后利用条件随机场(CRF)模型进行解码。与传统长短期记忆(LSTM)网络和BiLSTM-CRF模型相比,该模型在微软公开数据集(MSRA)以及自行标注文博知识数据集上表现突出,在文博知识数据集中,模型的准确率达到93.57%,召回率达到75.00%,F1值达到73.58%。  相似文献   

11.
是通过生成关键帧或片段来达到压缩视频的效果,能够在概括视频主要内容的基础上极大缩短观看时间,在视频快速浏览与检索领域应用广泛。现有方法大多只基于图像内容进行探索,忽略了视频具有时序的特点,且模型对波动数据学习能力较差,导致生成的摘要缺乏时间连贯性和代表性。提出了一个以编码器-解码器为框架的视频摘要网络。具体来说,编码部分由卷积神经网络提取特征,通过自注意力机制提升对关键特征的权重,而解码部分由融合了随机森林的双向长短期记忆网络构成,通过调整随机森林和双向长短期记忆网络在损失函数中所占比例,使模型具有较强的稳定性和预测准确率。实验在两个数据集上与其他七种方法进行了比较,综合实验结果证明了方法的有效性与可行性。提出了自注意力机制和随机森林回归的视频摘要网络,利用自注意力机制完成对特征的优化,将双向长短期记忆网络与随机森林结合,提升模型的稳定性与泛化性,有效降低损失值,使得生成的视频摘要更符合用户视觉特性。  相似文献   

12.
受限于标注语料的领域和规模以及类别不均衡,中文人名识别性能偏低。相比人名识别训练语料,人名词典获取较为容易,利用词典提升人名识别性能有待进一步研究。该文提取人名词典特征,融入到双向长短期记忆(Bi-LSTM)网络模型中,在损失函数中提高人名标签权重,设计加权条件随机场(WCRF)。从人名词典中获取姓和名相关的特征信息,Bi-LSTM网络捕获句子中上下文信息,WCRF提高人名识别的召回率。在《人民日报》语料和工程法律领域语料上进行实验,结果表明: 在领域测试语料上,与基于隐马尔可夫模型的方法相比,人名识别的F1值提高18.34%,与传统Bi-LSTM-CRF模型相比,召回率提高15.53%,F1提高8.83%。WCRF还可以应用到其他类别不均衡的序列标注或分类问题中。  相似文献   

13.
针对通用领域的命名实体识别算法难以充分挖掘到科技学术会议论文数据中语义信息的问题,提出一种结合关键词–字符长短期记忆网络和注意力机制的科技学术会议命名实体识别算法.首先对论文数据集中的关键词特征进行预训练,获得词汇层面的潜在语义信息,将其与字符级别的语义信息融合,解决错误的词汇边界影响识别准确率的问题.然后,将双向长短...  相似文献   

14.
人工智能技术的发展推动了医疗领域的智能化,为提升医疗效率、改善医疗水平提供了新的助力。同时,这一新的趋势也催生了海量的电子病历文本,其所蕴含的丰富信息具有巨大的潜在挖掘与应用价值。然而,当前中文电子病历的命名实体识别研究工作并没有全面考虑中文及中文医疗领域的特殊性,而是将面向通用数据集的模型迁移到医疗领域的实体类型中,分析效果较为有限。针对这一问题,该文设计了长短期记忆网络与条件随机场的联合模型并引入BERT模型;在此基础之上,考虑到医疗领域命名实体鲜明的部首特征,通过将部首信息编码到字向量中,并且结合部首信息修改条件随机场层得分函数的计算方式,有效地提升了医疗领域命名实体的抽取能力。通过两项电子病历数据集的实验结果表明,该文提出的模型整体效果略高于通用的实体识别模型,并对疾病诊断等特定类型的实体词的识别效果具有较为明显的提升。  相似文献   

15.
命名实体识别是构建知识图谱的重要阶段。基于国军标及软件测试文档,完成了实体类型分类以及数据集的构建和标注。在软件测试领域,针对字词联合实体识别方法准确率不高的问题,进行字符级特征提取方法的改进,提出了CWA-BiLSTM-CRF识别框架。该框架包含两部分:第一部分构建预训练的字词融合字典,将字词一起输入给双向长短期记忆网络进行训练,并加入注意力机制衡量词内各字对特征的语义贡献,提取出字符级特征;第二部分将字符级特征与词向量等特征进行拼接,输入给双向长短期记忆网络进行训练,再通过条件随机场解决标签结果序列不合理的问题,识别出文中的实体。实验结果分别与三种常用的深度学习字符级特征提取方法进行比较,准确率和召回率均有提升,最优F1值为88.93%。实验表明,改进后的方法适用于军用软件测试领域命名实体识别任务,为下一步知识图谱的构建打下了基础。  相似文献   

16.
周浩  王莉 《智能系统学报》2019,14(1):171-178
鉴于常规的序列化标注方法提取中文评价对象准确率低,存在忽略中文语义与语法信息的缺陷,提出了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化语义特征,弥补忽略的字符与词语的内部信息;并通过词性序列标注,对句子的词性信息进行表征,深化输入的语法特征。网络训练使用双向长短期记忆网络并用条件随机场克服标注标签的偏差,提高了提取准确率。该模型在BDCI2017数据集上进行验证,与未融入语义和语法的提取模型相比,中文主题词与情感词提取准确率分别提高了2.1%与1.68%,联合提取的准确率为77.16%,具备良好的中文评价对象提取效果。  相似文献   

17.
针对网购评论命名实体识别中重要词汇被忽略的问题,在评论短文本处理基础上,借鉴多头注意力机制、词汇贡献度和双向长短时记忆条件随机场提出一种基于MA-BiLSTM-CRF模型的网购评论命名实体识别方法。首先,用词向量和词性向量的组合来表示评论文本语义信息;其次,用BiLSTM提取文本特征;然后,引入多头注意力机制从多层面、多角度提升模型性能;最后,用条件随机场(CRF)识别命名实体。实验结果表明,该方法能提升网购评论实体识别效果。  相似文献   

18.
天气雷达和自动气象站资料分析应用是短临天气监测预警的重要内容。以VB6.0为开发平台,利用ArcEngine的GIS组件技术,通过对多普勒雷达资料的网格化处理及其在GIS地图中的反演,将自动站实时资料作为属性数据在GIS地图中显示和分析,建立短临预警平台。该平台实现了在GIS下雷达资料、自动站实况、预警信号的动态监控功能,并自动发布手机预警信息,具备了较强的决策预警能力,有助于提高气象台站对突发灾害性天气的短时临近预警水平。  相似文献   

19.
为了使长短时记忆网络(Long Short-Term Memory,LSTM)更精确地提取句子较远的特征信息,提出一种融合顺序遗忘编码(Fixed-size Oradinally Forgetting Encoding,FOFE)结合循环神经网络的命名实体识别算法。利用FOFE可以保留任意长度句子信息的编码方式来增强LSTM对句子特征的提取能力。利用Bi-LSTM和FOFE编码分别对向量化表示的文本进行特征提取和编码表示。结合得到的两个特征向量,通过注意力机制对Bi-LSTM的输入与输出之间的相关性进行计算,最后利用条件随机场学习标签序列的约束。该算法分别在英文和中文两种语言的数据集中进行了对比实验,F1值分别达到了91.30和91.65,验证了该方法的有效性。  相似文献   

20.
针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习,提出了一种大规模的多语料库联合学习的中文分词方法。语料库分别为简体中文数据集(PKU、MSRA、CTB6)和繁体中文数据集(CITYU、AS),每一个数据集输入语句的句首和句尾分别添加一对标志符。应用BLSTM(双向长短时记忆模型)和CRF(条件随机场模型)对数据集进行单独训练和多语料库共同训练的实验,结果表明大规模的多语料库共同学习训练能取得良好的分词效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号