期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张继元钱育蓉冷洪勇侯树祥陈嘉颖《现代电子技术》2024,(6):32-42

命名实体识别是自然语言处理领域的一项关键任务,其目的在于从自然语言文本中识别出具有特定含义的实体,如人名、地名、机构名和专有名词等。在命名实体识别任务中,研究人员提出过多种方法,包括基于知识和有监督的机器学习方法。近年来,随着互联网文本数据规模的快速扩大和深度学习技术的快速发展,深度学习模型已成为命名实体识别的研究热点,并在该领域取得显著进展。文中全面回顾现有的命名实体识别深度学习技术,主要分为四类：基于卷积神经网络模型、基于循环神经网络模型、基于Transformer模型和基于图神经网络模型的命名实体识别。此外,对深度学习的命名实体识别架构进行了介绍。最后,探讨命名实体识别所面临的挑战以及未来可能的研究方向,以期推动命名实体识别领域的进一步发展。相似文献

2.

融合多种使用词信息方法的命名实体识别研究

郭鹏刘俊南《现代信息科技》2021,(6):25-27,31

文章对融合词信息增强中文命名实体识别问题进行了研究,提出一种用于中文命名实体识别的融合词信息神经网络模型系统.首先使用预训练语言模型Bert对字进行编码得到字标识,然后使用SoftLexicon基于统计的方法将词统计语义信息融合进入字表示中,之后使用设计的GraphLexicon根据文本内字、词之间的交互关系图结构,将... 相似文献

3.

基于BiLSTM-CRF的军事命名实体识别方法

高学攀杜楚吴金亮《无线电工程》2020,(12):1050-1054

针对军事领域的命名实体识别问题,提出一种基于BiLSTM-CRF的实体识别方法,旨在识别军事文本中的人名、军用地名、军事机构名、武器装备、设施目标、部队番号等军事命名实体。使用词嵌入方法自动学习中文字符的分布式表示作为模型输入;利用双向长短时记忆(Bi-directional Long-Short Term Memory,BiLSTM)神经网络处理输入的字符向量序列,统筹上下文语义学习任务特征;将学习到的特征接入线性链式条件随机场(CRF)进行军事命名实体标注,获得命名实体识别结果并输出。在人工构建数据集上的实验结果表明,提出的方法能够很好地完成军事命名实体识别任务。相似文献

4.

命名实体识别技术综述

陈曙东欧阳小叶《无线电通信技术》2020,(3):251-260

命名实体识别是自然语言处理中的热点研究方向之一,目的是识别文本中的命名实体并将其归纳到相应的实体类型中。首先阐述了命名实体识别任务的定义、目标和意义,分析提出了命名实体识别的主要难点在于领域命名实体识别局限性、命名实体表述多样性和歧义性、命名实体的复杂性和开放性;然后介绍了命名实体识别研究的发展进程,从最初的规则和字典方法到传统的统计学习方法再到现在的深度学习方法,不断地将新技术应用到命名实体识别研究中以提高性能;接着系统梳理了当下命名实体识别任务中的若干热门研究点,分别是匮乏资源下的命名实体识别、细粒度命名实体识别、嵌套命名实体识别以及命名实体链接;最后针对评判命名实体识别模型的好坏,总结了常用的若干数据集和实验测评指标,并给出了未来的研究建议。相似文献

5.

基于XLNet-BiLSTM的中文电子病历命名实体识别方法

沈宙锋苏前敏郭晶磊《智能计算机与应用》2021,11(8):97-102

中文临床电子病历命名实体识别是实现智慧医疗的基本任务之一.本文针对传统的词向量模型文本语义表示不充分,以及循环神经网络(RNN)模型无法解决长时间依赖等问题,提出一个基于XLNet的中文临床电子病历命名实体识别模型XLNet-BiLSTM-MHA-CRF,将XLNet预训练语言模型作为嵌入层,对病历文本进行向量化表示,解决一词多义等问题;利用双向长短时记忆网络(BiLSTM)门控制单元获取句子的前向和后向语义特征信息,将特征序列输入到多头注意力层(multi-head attention,MHA);利用MHA获得特征序列不同子空间表示的信息,增强上下文语义的关联性,同时剔除噪声;最后输入条件随机场CRF识别全局最优序列.实验结果表明,XLNet-BiLSTM-Attention-CRF模型在CCKS-2017命名实体识别数据集上取得了良好的效果. 相似文献

6.

中文命名实体识别的傅立叶卷积网络

李彪《现代信息科技》2022,(2):104-106

针对transformer编码器架构在中文命名实体识别任务上表现不佳的问题,提出使用无参数化的傅立叶子层替换编码器中自注意力子层,使用卷积神经网络替代前馈神经网络.实验表明,采用结合傅立叶变换和卷积神经网络的transformer encoder架构的算法,可以在较小的字符嵌入和参数量下实现性能提升,且训练过程更快. 相似文献

7.

一种面向自然语言问题的命名实体识别模型

俞阳何玮康雨萌《电子设计工程》2023,(14):29-32+38

在诸如电力客户问题等此类专业技术领域的自然语言问题命名实体识别任务中,由于专业性及用语的地域性导致难以实现大规模标注数据。而采用传统基于有监督学习模型的命名实体识别方法,则较易陷入过拟合。针对上述问题,文中对关系网络中的嵌入模块和关系模块及样本采样、元训练集构建等方面进行了面向命名实体识别任务特点的设计,提出了一种基于关系网络小样本学习方法的实体识别模型。在电力客户问题实体识别数据集上的实验结果表明,该模型的F1等重要指标比常用的有监督识别模型提高了大约10%～40%。相似文献

8.

基于层叠隐马尔可夫模型的中文命名实体识别 总被引：29，自引：0，他引：29

于鸿魁张华平刘群吕学强施水才《通信学报》2006,27(2):87-94

提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。相似文献

9.

基于自然语言处理和图计算的情报分析研究

杨明川胡婕杨哲超《电信技术》2017,(6)

通过自然语言处理技术,可以将海量情报信息中的实体进行结构化提取,并通过图计算的方式进行关联分析,从而为情报部门快速侦破案情提供线索帮助.文中论证研究了通过使用知识表示、基于长短时记忆神经网络的命名实体识别、图数据库等技术,针对情报数据进行信息提取、信息过滤、情报知识库建立,进行关联挖掘和分析. 相似文献

10.

基于动态词典匹配的语义增强中文命名实体识别算法

陈曙东罗超欧阳小叶李威《无线电工程》2021,(7):519-525

在命名实体识别任务中,运用词典匹配的方法能够添加丰富的文本特征,但匹配到的词组信息多使用静态归一化的方法,缺乏自动推理能力.提出了基于动态词典匹配的语义增强中文命名实体识别方法.对输入句子中的字符,在词典中进行动态词组匹配,利用神经网络对词组加权,结合word2vec与ALBERT得到字符的增强特征表示;在序列建模层运... 相似文献

11.

A Novel Dual Pointer Approach for Entity Mention Extraction

LIU Jie PANG Yihe ZHANG Kai LIU Lizhen YU Zhengtao 《电子学报:英文版》2021,30(1):127-133

The named entity extraction task aims to extract entity mentions from the unstructured text, including names of people, places, institutions and so on. It plays an important role in many Natural language processing (NLP) tasks, such as knowledge bases construction, automatic question answering system and information extraction. Most of the existing entity extraction studies are based on the long text data, which are easier to annotate due to the sufficient contextual information. Extracting entities from short texts such as search queries, conversations is still a challenging task. This paper proposes a dual pointer approach for entity mention extraction, it extracts one entities by two position pointers of the input sentence. The end-to-end deep neural networks model based on the proposed approach can extract the entities by serially generating the dual pointers. The evaluation results on the Chinese public dataset show that the model achieves the state-of-the-art results over the baseline models. 相似文献

12.

基于条件随机场的维吾尔语音乐实体识别

阿迪来&#;艾合买提冯向萍《智能计算机与应用》2017,7(2)

命名实体识别在自然语言处理实践中具有高度重要的作用,而且也是信息提取等各种自然语言方式的基础工具.本文采用条件随机场模型(Conditional Random Fields,CRF)对维吾尔语音乐实体识别进行初步的探讨.首先维吾尔语网站上收集数据,进行一系列预处理后得到纯文本,然后制定语料标注规则对实体进行人工标注,再利用上下文、关键字、词典等一系列特征进行训练,制定一个适合的模板来进行音乐实体的识别.实验结果证明,此方法在维吾尔语音乐领域不仅可行、而且有效. 相似文献

13.

基于知识图谱共同邻居排序采样的推荐模型

李世宝张益维刘建航崔学荣张玉成《电子与信息学报》2021,43(12):3522-3529

知识图谱作为辅助信息可以有效缓解传统推荐模型的冷启动问题。但在提取结构化信息时,现有模型都忽略了图谱中实体之间的邻居关系。针对这一问题,该文提出一种基于共同邻居排序采样的知识图谱卷积网络(KGCN-PN)推荐模型,该模型首先基于共同邻居数目对知识图谱中的每个实体邻域进行排序采样;其次利用图卷积神经网络沿着图谱中的关系路径将实体自身信息与接收域信息逐层融合;最后将用户特征向量与融合得到的实体特征向量送入预测函数中预测用户与实体项目交互的概率。实验结果表明该模型在数据稀疏场景下相较其他基线模型性能均获得了相应提升。相似文献

14.

一种基于混合神经网络的命名实体识别与共指消解联合模型

下载免费PDF全文

郜成胜张君福李伟平赵文张世琨《电子学报》2020,48(3):442-448

命名实体识别与共指消解均依赖于对实体相邻文本信息的学习,本文提出一种基于混合神经网络的命名实体识别与共指消解联合模型,共用双向长短时记忆模型LSTM编码层对输入序列中每个词前后方向上下文信息进行编码,并通过训练学习得到上下文信息传递到前馈神经网络FFNN模型以提高共指消解精度,通过将领域文档及篇章语义向量加入FFNN,改进共指消解算法并优化共指消解模型.基于领域文本数据集进行联合模型训练,实验结果表明该联合模型可以有效地提高共指消解精度. 相似文献

15.

中英命名实体识别及对齐中的中文分词优化

下载免费PDF全文

尹存燕黄书剑戴新宇陈家骏《电子学报》2015,43(8):1481-1487

中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词粒度、修正错误分词.分词优化后的结果使得双语命名实体尽可能多地实现一一对应,进而提高中英命名实体翻译抽取和统计机器翻译的效果.实验结果表明了本文优化方法的有效性. 相似文献

16.

结合多特征嵌入和多网络融合的中文医疗命名实体识别

雷松泽刘博王瑜菲单奥奎《电子与信息学报》2023,45(8):3032-3039

在医疗领域中,实体识别能够从大规模电子病历文本中提取有价值信息,由于缺乏定位实体边界的特征以及存在语义信息提取不完整等问题,中文的命名实体识别(NER)实现更加困难。该文提出一种针对中文电子病历的结合多特征嵌入和多网络融合的模型(MFE-MNF)。该模型嵌入多粒度特征,即字符、单词、部首和外部知识,扩展字符的特征表示,明确实体边界。将特征向量分别输入到双向长短期记忆神经网络(BiLSTM)和该文构建的自适应图卷积网络等双通路中,全面深入地捕获上下文语义信息和全局语义信息,缓解语义信息提取不完整问题。在CCKS2019和CCKS2020数据集上进行实验验证,结果表明,相比于传统实体识别模型,该文模型能够准确且有效地提取实体。相似文献

17.

Gradient-based learning applied to document recognition 总被引：69，自引：0，他引：69

Lecun Y. Bottou L. Bengio Y. Haffner P. 《Proceedings of the IEEE. Institute of Electrical and Electronics Engineers》1998,86(11):2278-2324

Multilayer neural networks trained with the back-propagation algorithm constitute the best example of a successful gradient based learning technique. Given an appropriate network architecture, gradient-based learning algorithms can be used to synthesize a complex decision surface that can classify high-dimensional patterns, such as handwritten characters, with minimal preprocessing. This paper reviews various methods applied to handwritten character recognition and compares them on a standard handwritten digit recognition task. Convolutional neural networks, which are specifically designed to deal with the variability of 2D shapes, are shown to outperform all other techniques. Real-life document recognition systems are composed of multiple modules including field extraction, segmentation recognition, and language modeling. A new learning paradigm, called graph transformer networks (GTN), allows such multimodule systems to be trained globally using gradient-based methods so as to minimize an overall performance measure. Two systems for online handwriting recognition are described. Experiments demonstrate the advantage of global training, and the flexibility of graph transformer networks. A graph transformer network for reading a bank cheque is also described. It uses convolutional neural network character recognizers combined with global training techniques to provide record accuracy on business and personal cheques. It is deployed commercially and reads several million cheques per day 相似文献

18.

基于Deep Belief Nets方法的中文名实体分类研究

陈宇郑德权赵铁军《智能计算机与应用》2014,(2):29-31,35

DBN是一种快速全局最优的神经网络分类方法,包含数层无监督学习网络和一层有监督学习网络。本文验证了DBN方法很好地适用于中文名实体分类任务。首先,采用多层RBM方法无监督地从字特征向量提取结构信息,得到更具有表征能力的特征;然后,利用BP方法微调网络参数并对提取后的特征向量进行分类,以此构成分类器进行名实体分类。通过对ACE 04的中文名实体进行的分类测试,准确率达到91.45%,明显高于支持向量机和反向传播神经网络等传统分类算法。相似文献

19.

基于多级神经网络结构的手写体汉字识别 总被引：11，自引：0，他引：11

金连文徐秉铮《通信学报》1997,18(5):21-27

本文提出了一种用于手写体汉字识别的多级神经网络结构（Ｍｕｌｔｉ－ｓｔａｇｅＮｅｕｒａｌＮｅｔｗｏｒｋＡｒｃｈｉｔｅｃｔｕｒｅ，ＭＮＮＡ）模型。在该模型中，我们将多个神经网络和不同的特征提取方法有机地集成在一起而构成一个完整的模式识别系统。我们讨论了设计ＭＮＮＡ的一般原理，并提出了一个基于多层前馈神经网络的三级结构的手写体汉字识别实验系统。三种不同的特征提取方法被应用于各级子系统之中。对１００个汉字１５０００个样本的实验我们得到了９９．３４％的识别率，０．３６％的拒识率和０．３％的误识率，表明该模型是十分可行和有效的相似文献