首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
针对推文中恶意软件名称识别任务存在的文本简短、非正式、实体类别单一以及实体歧义等问题,提出了一种基于BERT-BiLSTM-Self-attention-CRF的实体识别方法,以实现推文中恶意软件名称的自动识别。在BiLSTM-CRF模型的基础上,利用BERT模型编码单词语境信息,提升词嵌入的上下文语义质量,增强原有模型的语义消歧能力;同时,借助Self-attention机制学习单词间关系和句子结构特征,利用加权表征帮助单一类别实体的解码,以提升恶意软件名称实体的识别效果。通过构建包含恶意软件名称实体的推文标记数据集进行实验测试,结果表明,提出的方法可以实现更好的性能,其精确率、召回率、F1值分别为86.38%,84.73%,85.55%,相较于基线模型BiLSTM-CRF,F1值提升了12.61%。  相似文献   

2.
准确的命名实体识别是结构化电子病历的基础,对于电子病历规范化编写有着重要的作用,而现今的分词工具对于专业的医疗术语无法做到完全正确的区分,使得结构化电子病历难以实现.针对医疗实体识别中出现的问题,本文提出了一种在命名实体识别领域中改进的BiLSTM-CRF深度学习模型.模型将文字和标签结合作为输入,在多头注意力机制中使模型关注更多的有用信息, BiLSTM对输入进行特征提取,得到每个文字在所有标签上的概率, CRF在训练过程中学习到数据集中的约束,进行解码时可以提高结果的准确率.实验使用人工标注的1 000份电子病历作为数据集,使用BIO标注方式.从测试集的结果来看,相对于传统的BiLSTM-CRF模型,该模型在实体类别上的F1值提升了3%–11%,验证了该模型在医疗命名实体识别中的有效性.  相似文献   

3.
此文研究涉恐类刑事案件法律文本的中文命名实体识别任务,对涉恐类案件的实体识别对后续的公安对于涉恐类刑事案件信息提取、案情辅助研判、构建公安领域犯罪侦查知识图谱等一系列应用具有重要意义。此文提出了一种基于深度学习的模型来自动识别涉恐刑事案件法律文书中的实体。此文使用从互联网获取的涉恐类刑事案件的裁判文书作为数据集对该模型进行训练,验证,测试。在文中还加入了对比实验,将该模型的实验结果与CRF模型的实验结果进行对比。实验表明,BiLSTM-CRF模型在数据集上能够取得最优的结果,准确率为0.9541,召回率为0.9550,F1值为0.9543。实验结果证明BiLSTM-CRF模型在涉恐类案件法律文书实体识别上的可行性。  相似文献   

4.
由于中文文本之间没有分隔符,难以识别中文命名实体的边界.此外,在垂直领域中难以获取充足的标记完整的语料,例如医疗领域和金融领域等垂直领域.为解决上述不足,提出一种动态迁移实体块信息的跨领域中文实体识别模型(TES-NER),将跨领域共享的实体块信息(entity span)通过基于门机制(gate mechanism)的动态融合层,从语料充足的通用领域(源领域)动态迁移到垂直领域(目标领域)上的中文命名实体模型,其中,实体块信息用于表示中文命名实体的范围.TES-NER模型首先通过双向长短期记忆神经网络(BiLSTM)和全连接网络(FCN)构建跨领域共享实体块识别模块,用于识别跨领域共享的实体块信息以确定中文命名实体的边界;然后,通过独立的基于字的双向长短期记忆神经网络和条件随机场(BiLSTM-CRF)构建中文命名实体识别模块,用于识别领域指定的中文命名实体;最后构建动态融合层,将实体块识别模块抽取得到的跨领域共享实体块信息通过门机制动态决定迁移到领域指定的命名实体识别模型上的量.设置通用领域(源领域)数据集为标记语料充足的新闻领域数据集(MSRA),垂直领域(目标领域)数据集为混合领域(OntoNotes 5.0)、金融领域(Resume)和医学领域(CCKS 2017)这3个数据集,其中,混合领域数据集(OntoNotes 5.0)是融合了6个不同垂直领域的数据集.实验结果表明,提出的模型在OntoNotes 5.0、Resume和CCKS 2017这3个垂直领域数据集上的F1值相比于双向长短期记忆和条件随机场模型(BiLSTM-CRF)分别高出2.18%、1.68%和0.99%.  相似文献   

5.
为了解决就医过程中医疗资源短缺和患者时间不充裕、行程不便的问题,提出了结合外部知识的基于记忆网络的知识感知医疗对话生成模型(memory networks based knowledge-aware medical dialogue generation model, MKMed).该模型首先通过利用精确字匹配的方法在对话历史中进行实体追踪;随后在外部实体知识数据库里设计2阶段的实体预测,筛选出可能出现在回复中的医疗实体及对应知识,其中2阶段实体预测分别利用计算共现矩阵和余弦相似度的方法;模型接着用记忆网络来存储知识和对话历史的信息;最后整合记忆网络存储的信息,并使用注意力机制以及循环神经网络生成回复.在带有外部知识的大规模医疗对话数据集KaMed上进行了相关实验,该数据集为收集自在线平台的真实数据.实验结果表明提出的模型生成的回复在流畅性、多样性、正确性和专业性等方面均显著优于大部分基准模型.证明了合理引入外部知识的医疗对话模型能产生成更有医疗价值的回复.  相似文献   

6.
研究《伤寒论》中命名实体的识别方法,助力张仲景《伤寒论》不同版本文本的深度挖掘,有助于传承中医文化.该文尝试构建ALBERT-BiLSTM-CRF模型,提取《伤寒论》中疾病、证候、症状、处方、药物等实体,并与BiLSTM-CRF模型和BERT-BiLSTM-CRF模型进行对比.五次实验ALBERT-BiLSTM-CRF模型三个评价指标准确率(P),召回率(R)和F1-测度值(F1-score)的平均值分别为85.37%,86.84%和86.02%,相较于BiLSTM-CRF模型和BERT-BiLSTM-CRF模型F1-score分别提升了6%和3%.实验表明相比BiLSTM-CRF和BERT-BiLSTM-CRF模型,ALBERT-BiLSTM-CRF模型在基于《伤寒论》的实体识别任务中效果最好,更适用于中文古籍的知识挖掘.  相似文献   

7.
王月  王孟轩  张胜  杜渂 《计算机应用》2020,40(2):535-540
针对警情领域关键实体信息难以识别的问题,提出一种基于BERT的神经网络模型BERT-BiLSTM-Attention-CRF用于识别和提取相关命名实体,且针对不同案由设计了相应的实体标记注规范。该模型使用BERT预训练词向量代替传统Skip-gram和CBOW等方式训练的静态词向量,提升了词向量的表证能力,同时解决了中文语料采用字向量训练时词语边界的划分问题;还使用注意力机制改进经典的命名实体识别(NER)模型架构BiLSTM-CRF。BERT-BiLSTM-Attention-CRF模型在测试集上的准确率达91%,较CRF++的基准模型提高7%,也高于BiLSTM-CRF模型86%的准确率,其中相关人名、损失金额、处理方式等实体的F1值均高于0.87。  相似文献   

8.
罗佳  李萌 《软件》2024,(1):18-20
针对文本实体信息抽取优化问题,本文以租赁行业为研究对象,首先,使用爬虫技术对客户发布的信息进行爬取,采用BiLSTM-CRF算法对信息进行实体提取和处理,将处理后的信息存储在数据库中,构建App数据来源的数据层,再基于数据层的数据开发App应用层。开发的App应用层模块包括用户认证模块和主页模块。BiLSTM-CRF模型比LSTM和Bi LSTM在实体边界的识别率更高,模型准确率、召回率和F1值分别可以达到96.58%,88.94%,92.60%。  相似文献   

9.
韩玉民  郝晓燕 《计算机应用》2022,42(6):1862-1868
准确识别命名实体有助于构建专业知识图谱、问答系统等。基于深度学习的命名实体识别(NER)技术已广泛应用于多种专业领域,然而面向材料领域的NER研究相对较少。针对材料领域NER中可用于监督学习的数据集规模小、实体词复杂度高等问题,使用大规模非结构化的材料领域文献数据来训练基于一元语言模型(ULM)的子词嵌入分词模型,并充分利用单词结构蕴含的信息来增强模型鲁棒性;提出以BiLSTM-CRF模型(双向长短时记忆网络与条件随机场结合的模型)为基础并结合能够感知方向和距离的相对多头注意力机制(RMHA)的实体识别模型,以提高对关键词的敏感程度。得到的BiLSTM-RMHA-CRF模型结合ULM子词嵌入方法,相比BiLSTM-CNNs-CRF和SciBERT等模型,在固体氧化物燃料电池(SOFC)NER数据集上的宏平均F1值(Macro F1值)提高了2~4个百分点,在SOFC细粒度实体识别数据集上的Macro F1值提高了3~8个百分点。实验结果表明,基于子词嵌入和相对注意力的识别模型能够有效提高材料领域实体的识别准确率。  相似文献   

10.
命名实体识别是自然语言处理的基本任务之一。针对中文电子病历命名实体识别传统模型识别效果不佳的问题,提出一种完全基于注意力机制的神经网络模型。实验采用自建真实中文电子病历数据集并对数据集进行人工标注、分词等预处理;对Transformer模型进行训练优化,以提取文本特征;利用条件随机场对提取到的文本特征进行分类识别。为验证所提方法的有效性,将构建的Transformer-CRF神经网络模型与其他7种传统模型进行比较研究,实验采用精确率、召回率和[F1]值三个指标评估模型的识别性能。实验结果显示,在同一语料集下,Transformer-CRF模型对身体部位类的命名实体识别效果较好,[F1]值高达95.02%;且与其他7种传统模型相比,Transformer-CRF模型的精确率、召回率和[F1]值均较高,在一定程度上验证了所构建模型具有较好的识别性能。  相似文献   

11.
近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显著下降。该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能。首先,对目前性能最好的BiLSTM-CRF分词模型进行扩展,引入适用于弱标注数据的损失函数;进而提出一种简单有效的数据筛选方法,从海量弱标注数据中筛选和目前领域更相关的数据;最后,该文发现数据预处理和在神经网络中引入传统特征均可以有效提高分词性能。在SIGHAN Bakeoff 2010和ZhuXian标注测试集上的实验结果表明,该文所提方法可有效提升汉语分词领域移植性能,平均F值提高了3.6%。  相似文献   

12.
A new online neural-network-based regression model for noisy data is proposed in this paper. It is a hybrid system combining the Fuzzy ART (FA) and General Regression Neural Network (GRNN) models. Both the FA and GRNN models are fast incremental learning systems. The proposed hybrid model, denoted as GRNNFA-online, retains the online learning properties of both models. The kernel centers of the GRNN are obtained by compressing the training samples using the FA model. The width of each kernel is then estimated by the K-nearest-neighbors (kNN) method. A heuristic is proposed to tune the value of Kof the kNN dynamically based on the concept of gradient-descent. The performance of the GRNNFA-online model was evaluated using two benchmark datasets, i.e., OZONE and Friedman#1. The experimental results demonstrated the convergence of the prediction errors. Bootstrapping was employed to assess the performance statistically. The final prediction errors are analyzed and compared with those from other systems.  相似文献   

13.
裁判文书中的命名实体识别是自动化审判的关键一步,如何能够有效的分辨出案件的关键命名实体是本文的研究重点.因此本文针对财产纠纷审判案件,提出了一种基于SVM-BiLSTM-CRF的神经网络模型.首先利用SVM筛选出包含关键命名实体的句子,然后将正确包含此类实体的句子转化为字符级向量作为输入,构建适合财产纠纷裁判文书命名实体识别的BiLSTM-CRF深层神经网络模型.通过构建训练数据进行验证和对比,该模型比其他相关模型表现出更高的召回率和准确率.  相似文献   

14.
This paper proposes several recurrent neural network-based models for recognizing requisite and effectuation (RE) parts in Legal Texts. Firstly, we propose a modification of BiLSTM-CRF model that allows the use of external features to improve the performance of deep learning models in case large annotated corpora are not available. However, this model can only recognize RE parts which are not overlapped. Secondly, we propose two approaches for recognizing overlapping RE parts including the cascading approach which uses the sequence of BiLSTM-CRF models and the unified model approach with the multilayer BiLSTM-CRF model and the multilayer BiLSTM-MLP-CRF model. Experimental results on two Japan law RRE datasets demonstrated advantages of our proposed models. For the Japanese National Pension Law dataset, our approaches obtained an \(F_{1}\) score of 93.27% and exhibited a significant improvement compared to previous approaches. For the Japan Civil Code RRE dataset which is written in English, our approaches produced an \(F_{1}\) score of 78.24% in recognizing RE parts that exhibited a significant improvement over strong baselines. In addition, using external features and in-domain pre-trained word embeddings also improved the performance of RRE systems.  相似文献   

15.
在初等数学领域的命名实体识别(NER)中,针对传统命名实体识别方法中词嵌入无法表征一词多义以及特征提取过程中忽略部分局部特征的问题,提出一种基于BERT的初等数学文本命名实体识别方法——BERT-BiLSTM-IDCNN-CRF.首先,采用BERT进行预训练,然后将训练得到的词向量输入到双向长短期记忆(BiLSTM)网...  相似文献   

16.
对网络在线学习者产生的数据进行记录和分析,并为其提供精准化的个性化服务是在线教育发展的重要方面.本文以学习者在平台上产生的日常学习数据为样本,综合其最具代表性的五种影响因子,通过学习向量化神经网络对样本进行分类,得到基于BP神经网络的在线学习成绩预测数据.在模型中采用遗传算法有效优化BP神经网络的权重和阈值,在提高预测精度的同时加快模型的收敛速度.最后与其他两种模型进行对比分析,结果表明:该模型进行预测的结果与真实的成绩分布基本一致,具有很高的可信度,能够为有效的预测学习状态提供决策依据,具有一定的工程应用价值.  相似文献   

17.
武国亮  徐继宁 《计算机应用》2021,41(7):1891-1896
针对基于双向长短期记忆网络-条件随机场(BiLSTM-CRF)的事件抽取模型仅能获取字粒度语义信息,可学习特征维度较低致使模型上限低的问题,以开放领域的中文公共突发事件数据为研究对象,提出了一种基于命名实体识别任务反馈增强的中文突发事件抽取方法FB-Latiice-BiLSTM-CRF.首先,将Lattice(点阵)机...  相似文献   

18.
曾兰兰  王以松  陈攀峰 《计算机应用》2022,42(10):3011-3017
正确识别裁判文书中的实体是构建法律知识图谱和实现智慧法院的重要基础。然而常用的命名实体识别(NER)模型并不能很好地解决裁判文书中的多义词表示和实体边界识别错误的问题。为了有效提升裁判文书中各类实体的识别效果,提出了一种基于联合学习和BERT的BiLSTM-CRF(JLB-BiLSTM-CRF)模型。首先,利用BERT对输入字符序列进行编码以增强词向量的表征能力;然后,使用双向长短期记忆(BiLSTM)网络建模长文本信息,并将NER任务和中文分词(CWS)任务进行联合训练以提升实体的边界识别率。实验结果表明,所提模型在测试集上的精确率达到了94.36%,召回率达到了94.94%,F1值达到了94.65%,相较于BERT-BiLSTM-CRF模型分别提升了1.05个百分点、0.48个百分点和0.77个百分点,验证了JLB-BiLSTM-CRF模型在裁判文书NER任务上的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号