首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为实现非结构化工艺规程文本中关键信息的高效识别,建立一种基于机加工领域词典和神经网络的命名实体识别模型.首先,结合机加工领域词典与jieba分词技术进行数据集的自动标注,并在对工艺参数信息进行标注的过程中将数字和标志字母划分为一个分词单位以增强后续特征提取效果;其次,在word2vec词嵌入的基础上,采用双向长短时记忆网络对文本进行特征提取;最后,采用条件随机场综合上下文逻辑以提高关键工艺信息的识别准确率.在包含431条工步内容的数据集上,对所提模型的识别效果进行实验,结果表明,所提模型的准确率、召回率和F1值分别为90.20%,93.88%和92.00%,在与领域内传统模型的对比上具有一定优势,并使用3个不同工艺规程数据集验证了该模型的鲁棒性.  相似文献   

2.
民航安全自愿报告系统收集的海量故障报告以非结构化文本形式存储,不便于相关人员针对大量不正常事件加以分析并采取控制措施;命名实体识别技术可以将海量非结构化文本中的关键要素进行检测和识别,抽取成类别分明的结构化信息,作为进一步分析不正常事件并加以控制的基础工作;将机场不正常事件报告作为研究对象,提出了一种基于神经网络的中文命名实体识别模型,对文本进行了结构化处理;针对随机选用的训练样本一些实体类别分布比较稀疏和人工标注费时费力的问题,提出了基于模型预测分数的样本选择策略,实现了预标注样本的高效筛选;经过实验验证,该模型与BiLSTM_CRF模型、BiLSTM_self-attention_CRF模型相比F1值均提高了约6个百分点,该样本选择策略明显提高了人工标注效率,筛选出足够多的含有稀疏实体的样本。  相似文献   

3.
意图识别和约束条件分析是口语理解(SLU)中的两个重要过程。前者是分类问题,判断话语意图;后者可以看作序列标注问题,给关键信息标特定标签。该文提出了一种LSTM联合模型,同时结合了CRF和注意力机制。在ID问题上,将所有词语输出层向量的加权和用于分类;在SF问题上,考虑标签之间的转移,计算标签序列在全局的可能性。在中文数据集和ATIS英文数据集上的实验验证了该文所提方法的有效性。  相似文献   

4.
简要案情是公安机关为提高\"协同办案系统\"录入信息质量,确保信息检索与案件串并工作高效开展而对案情记载的简要描述,其中各类实体间包含了大量与受害者和作案人相关的案情信息.因此,对简要案情文本的深度挖掘是掌握案件始末和分析案情的有效手段之一.简要案情文本中的实体稠密分布、实体间相互嵌套以及实体简称,给准确捕捉案件实体带来了...  相似文献   

5.
命名实体识别是构建知识图谱的重要阶段。基于国军标及软件测试文档,完成了实体类型分类以及数据集的构建和标注。在软件测试领域,针对字词联合实体识别方法准确率不高的问题,进行字符级特征提取方法的改进,提出了CWA-BiLSTM-CRF识别框架。该框架包含两部分:第一部分构建预训练的字词融合字典,将字词一起输入给双向长短期记忆网络进行训练,并加入注意力机制衡量词内各字对特征的语义贡献,提取出字符级特征;第二部分将字符级特征与词向量等特征进行拼接,输入给双向长短期记忆网络进行训练,再通过条件随机场解决标签结果序列不合理的问题,识别出文中的实体。实验结果分别与三种常用的深度学习字符级特征提取方法进行比较,准确率和召回率均有提升,最优F1值为88.93%。实验表明,改进后的方法适用于军用软件测试领域命名实体识别任务,为下一步知识图谱的构建打下了基础。  相似文献   

6.
针对目前语音谎言检测识别效果差、特征提取不充分等问题,提出了一种基于注意力机制的欺骗语音识别网络。首先,将双向长短时记忆与帧级声学特征相结合,其中帧级声学特征的维数随语音长度的变化而变化,从而有效提取声学特征。其次,采用基于时间注意增强卷积双向长短时记忆模型作为分类算法,使分类器能够从输入中学习与任务相关的深层信息,提高识别性能。最后,采用跳跃连接机制将时间注意增强卷积双向长短时记忆模型的底层输出直接连接到全连接层,从而充分利用了学习到的特征,避免了消失梯度的问题。实验阶段,与LSTM以及其他基准模型进行对比,所提模型性能最优。仿真结果进一步验证了所提模型对语音谎言检测领域发展及提升识别率提供了一定借鉴作用。  相似文献   

7.
群体情绪识别是人机交互领域的前言课题,针对群体情绪识别准确率的问题,结合卷积神经网络(CNN)与长短期记忆网络(LSTM),提出一种多流CNN-LSTM网络模型学习群体情绪的静态和动态特征。以视频序列的原始图像、视觉显著图形和叠加的光流图像分别作为三个通道的输入,利用CNN网络对空间特征和局部运动特征进行分析,得到的特征图直接输入LSTM网络,进行全局运动特征的学习。最后连接Softmax分类器,对三个通道的Softmax输出进行加权融合,得到分类结果。实验结果表明,本文模型可有效地识别4种典型的群体情绪,且识别率高于已有算法,准确度(ACC)和宏平均精度(MAP)分别最高可达82.6%、84.1%。  相似文献   

8.
人工智能技术的发展推动了医疗领域的智能化,为提升医疗效率、改善医疗水平提供了新的助力。同时,这一新的趋势也催生了海量的电子病历文本,其所蕴含的丰富信息具有巨大的潜在挖掘与应用价值。然而,当前中文电子病历的命名实体识别研究工作并没有全面考虑中文及中文医疗领域的特殊性,而是将面向通用数据集的模型迁移到医疗领域的实体类型中,分析效果较为有限。针对这一问题,该文设计了长短期记忆网络与条件随机场的联合模型并引入BERT模型;在此基础之上,考虑到医疗领域命名实体鲜明的部首特征,通过将部首信息编码到字向量中,并且结合部首信息修改条件随机场层得分函数的计算方式,有效地提升了医疗领域命名实体的抽取能力。通过两项电子病历数据集的实验结果表明,该文提出的模型整体效果略高于通用的实体识别模型,并对疾病诊断等特定类型的实体词的识别效果具有较为明显的提升。  相似文献   

9.
提出了一种面向工单采集特定场景下的多轮对话模型,实现了机器人自动收集工单的功能。首先,该模型利用卷积神经网络(CNN)将用户输入句子转化成向量,利用信息网络来收集客户咨询的关键性信息,然后用双层长短期记忆网络(LSTM)来记忆上下文信息及管理会话流程,最后采用分类器来预测机器人的回复。实验结果表明,该模型与seq2seq模型相比,需要的训练数据较少,工单完成率高,即使中间信息采集存在误差,最终也可以准确地完成工单的采集。  相似文献   

10.
省级或市级的供电公司在年末或年初需要预测新的一年的配网物资需求,以往凭经验的估算方法精度差效率低下,本文用大数据的方法对物资进行预测,在获取ERP系统中的物资领料数据后,把物资按用途和种类分成几十种标包,然后把各标包的领料金额时间序列除以对应年份的投资额得到月粒度的单位投资额的领料时间序列,在对单位投资额的领料时间序列进行数据平滑和异常值处理后,用LSTM长短记忆神经网络、 Croston、一次指数平滑和二次指数平滑等经典算法对序列进行预测,最后用年粒度的单位投资额的领料金额序列进行加权修正得到预测的物资需求。本文提出的方法在浙江、江苏、福建、四川四省以及浙江绍兴所辖4个地区的物资数据上进行测试,得到较为满意的预测效果。  相似文献   

11.
准确的流量预测提升通信网络技能、改善通信网络管理具有重要意义.考虑到长短期记忆(Long Short-Term Memory,LSTM)神经网络可解决长序列数据在训练过程中的存在梯度消失问题,采用LSTM作为长期流量预测的基准模型,为提高模型准确性,在LSTM模型的基础上,引入Attention机制(Attention...  相似文献   

12.
深度卷积神经网络的显著性检测   总被引:3,自引:3,他引:0  
目的 显著性检测问题是近年来的研究热点之一,针对许多传统方法都存在着特征学习不足和鲁棒检测效果不好等问题,提出一种新的基于深度卷积神经网络的显著性检测模型.方法 首先,利用超像素的方法聚类相似特征的像素点,仿人脑视皮层细胞提取目标边缘,得到区域和边缘特征.然后,通过深度卷积神经网络学习图像的区域与边缘特征,获取相应的目标检测显著度置信图.最后,将深度卷积神经网络输出的置信度融入到条件随机场,求取能量最小化,实现显著性与非显著性判别,完成显著性检测任务.结果 在两个常用的视觉检测数据库上进行实验,本文算法的检测精度与当前最好的方法相比,在MSAR数据库上检测精度相对提升大约1.5%,在Berkeley数据库上提升效果更加明显,达到了5%.此外,无论是自然场景还是人工建筑场景、大目标与小目标,检测的效果都是最好的.结论 本文融合多特征的深度学习方法与单一浅层人工特征的方法相比更有优势,它避免了手工标定特征所带来的不确定性,具有更好的鲁棒性与普适性,从主观视觉愉悦度和客观检测准确度两方面说明了算法的有效性.  相似文献   

13.
为提高新能源汽车领域术语抽取准确率,面向新能源汽车专利文本提出一种领域术语抽取模型。传统的领域术语抽取方法过度依赖人工定义特征和领域知识,无法自动挖掘隐含特征,其识别性能过度依赖所选特征的质量。因此,从深度学习的角度出发,提出了一种基于Attention的双向长短时记忆网络(bidirectional long short-term memory,BLSTM)与条件随机场(conditional random fields,CRF)相结合的领域术语抽取模型(BLSTM_Attention_CRF模型),并使用基于词典与规则相结合的方法对结果进行校正,准确率可达到86%以上,该方法切实可行。  相似文献   

14.
药物相互作用是指药物之间存在的抑制或促进等作用。针对目前药物关系抽取模型在长语句中抽取效果较差以及高层特征信息丢失的问题,该文提出了一种结合最短依存路径的胶囊网络关系抽取模型,该方法首先根据原语句解析出两个药物之间的最短依存路径,然后利用双向长短期记忆网络分别获取原语句和最短依存路径的低层语义表示,再将两者结合输入到胶囊网络中,利用胶囊网络的动态路由机制,动态地决定低层胶囊向高层胶囊传送的信息量,避免了高层特征信息丢失的问题,从而提升抽取效果。在DDIExtraction 2013药物相互作用关系抽取任务上的实验结果表明,该文方法的F1值优于目前最优方法1.17%。  相似文献   

15.
为了减少传统的命名实体识别需要人工制定特征的大量工作,通过无监督训练获得军事领域语料的分布式向量表示,采用双向LSTM递归神经网络模型解决军事领域命名实体的识别问题,并且通过添加字词结合的输入向量和注意力机制对双向LSTM递归神经网络模型进行扩展和改进,进而提高军事领域命名实体识别。实验结果表明,提出的方法能够完成军事领域命名实体的识别,并且在测试集语料上的F-值达到了87.38%。  相似文献   

16.
施晋  毛嘉莉  金澈清 《软件学报》2019,30(3):770-783
城市道路的旅行时间预测,对于路径规划以及交通管理至关重要.尽管旅行时间预测会受路段依赖、时空相关性以及其他因素的影响,但现有的方法并未考虑如何结合外部因素进行建模,因而可能会有引入错误信息、路段建模时忽略上下游路段间的依赖关系等问题,导致预测精度较差.鉴于此,提出了两阶段的旅行时间预测框架:首先,使用Skip-Gram模型对轨迹数据地图匹配后的路段序列进行编码,将其映射为低维向量,通过该编码方式避免引入错误信息的同时保留了路段间的上下游依赖信息.随后,基于路段编码模式整合天气、日期等外部因素,设计了基于深度神经网络的城市道路旅行时间预测模型.基于真实出租车轨迹数据集的对比实验结果表明,所提方法比对比算法具有更高的预测精度.  相似文献   

17.
新词发现,作为自然语言处理的基本任务,是用计算方法研究中国古代文学必不可少的一步。该文提出一种基于古汉语料的新词识别方法,称为AP-LSTM-CRF算法。该算法分为三个步骤。第一步,基于Apache Spark分布式并行计算框架实现的并行化的Apriori改进算法,能够高效地从大规模原始语料中产生候选词集。第二步,用结合循环神经网络和条件随机场的切分概率模型对测试集文档的句子进行切分,产生切分概率的序列。第三步,用结合切分概率的过滤规则从候选词集里过滤掉噪声词,从而筛选出真正的新词。实验结果表明,该新词发现方法能够有效地从大规模古汉语语料中发现新词,在宋词和宋史数据集上分别进行实验,F1值分别达到了89.68%和81.13%,与现有方法相比,F1值分别提高了8.66%和2.21%。  相似文献   

18.
针对当前恶意代码检测方法严重依赖人工提取特征和无法提取恶意代码深层特征的问题,提出一种基于双向长短时记忆(Bidirectional Long Short Term Memory,Bi-LSTM)模型和自注意力的恶意代码检测方法.采用Bi-LSTM自动学习恶意代码样本字节流序列,输出各时间步的隐状态;利用自注意力机制计...  相似文献   

19.
为提高利用张量分解技术进行基于位置社交网络的地点推荐的推荐性能,提出一种利用张量分解技术且融合神经网络的地点推荐算法。融合多层感知机和长短期记忆网络基于张量分解技术建模用户的签到行为,将学习到的用户偏好表示馈送到推荐生成器和推荐判别器组成的对抗生成网络中,通过对抗训练学习最佳用户偏好表示用于推荐。基于真实数据集的实验验证了该算法的有效性和高效性。  相似文献   

20.
现有的维吾尔文命名实体识别主要采用基于条件随机场的统计学习方法,但依赖于人工提取的特征工程和领域知识。针对该问题,该文提出了一种基于深度神经网络的学习方法,并引入不同的特征向量表示。首先利用大规模未标注语料训练的词向量模型获取每个单词具有语义信息的词向量;其次,利用Bi-LSTM提取单词的字符级向量;然后,利用直接串联法或注意力机制处理词向量和字符级向量,进一步获取联合向量表示;最后,用Bi-LSTM-CRF深度神经网络模型进行命名实体标注。实验结果表明,以基于注意力机制的联合向量表示作为输入的Bi-LSTM-CRF方法在维吾尔文命名实体识别上F值达到90.13%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号