共查询到18条相似文献,搜索用时 78 毫秒
1.
电力调度领域命名实体识别是电力知识图谱构建步骤中的重要一环,目前存在基于机器学习和深度学习模型被用于通用领域或是其他专业领域的命名实体识别.为了解决电力调度领域命名实体识别的问题,研究Transformer-BiGRU-CRF模型,该模型可以有效的解决电力调度领域中命名实体识别的问题.通过Transformer模型得到语料的字向量,再通过BiGRU和CRF进行命名实体识别。该模型在训练过程中有两种训练方式,第1种方式是只训练BiGRU和CRF部分的参数;第2种方式是训练包括Transformer部分的整个模型的参数.最后发现,第1种方式达到模型的平稳状态需要的时间更少,但是第2种达到平稳状态准确率会高出接近5%. 相似文献
2.
在电力生产的过程中, 往往会产生大量电力相关的文本数据, 但这些数据大多是非结构化数据且体量庞大繁杂, 实现对电力相关数据有效的组织管理可以促进电力企业实现数字资产商品化, 以此为电力企业发掘新的利润增长点. 本文针对将电力行业中的相关规章制度文本进行结构化处理这一问题, 提出了基于字符和二元词组特征的命名实体识别的模型. 在该模型中, 通过使用融合多特征的BERT预训练语言模型得到词嵌入表示, 并使用引入相对位置编码的Transformer模型和条件随机场作为编码层和解码层, 本文提出的模型在实体类型识别的准确率为92.64%, 取得了有效的识别效果. 相似文献
3.
4.
在特定领域的命名实体识别技术中,针对不同领域有各种不同的识别方法。不同领域文本具有其独特的文本特征,这导致已有领域的识别方法难以适应新的特定领域。针对该问题,提出一种基于条件随机场、半监督学习和主动学习相结合的方法,将其形成一个统一的技术框架来适应各个特定领域的命名实体识别。该方法首先选取特定文本的基本通用特征构建特征集合,训练条件随机场对特定领域进行命名实体的初步识别,再通过主动选取置信度低于选定阈值的样本进行人工标注,并迭代扩展训练样本来达到高识别效果。为验证所提方法,针对轨道交通领域文本进行了实验,实验结果表明该方法行之有效,在轨道交通领域取得了较好的识别效果。 相似文献
5.
6.
法律文书命名实体识别是智慧司法领域的关键性和基础性任务。在目前法律文书命名实体识别方法中,存在实体定义与司法业务结合不紧密、传统词向量无法解决一词多义等问题。针对以上问题,该文提出一种新的法律文本命名实体定义方案,构建了基于起诉意见书的法律文本命名实体语料集LegalCorpus;提出一种基于BERT-ON-LSTM-CRF(Bidirectional Encoder Representations from Transformers-Ordered Neuron-Long Short Term Memory Networks-Conditional Random Field)的法律文书命名实体识别方法,该方法首先利用预训练语言模型BERT根据字的上下文动态生成语义向量作为模型输入,然后运用ON-LSTM对输入进行序列和层级建模以提取文本特征,最后利用CRF获取最优标记序列。在LegalCorpus上进行实验,该文提出的方法F1值达到86.09%,相比基线模型lattice LSTM F1值提升了7.8%。实验结果表明,该方法可以有效对法律文书的命名实体进行识别。 相似文献
7.
8.
为了能快速、准确地将分散在Web网页中的音乐实体抽取出来,在全方位了解音乐领域中命名实体的特征的基础上,提出了一种规则与统计相结合的中文音乐实体识别方法,并实现了音乐命名实体识别系统。通过测试发现,该系统具有较高的准确率和召回率。 相似文献
9.
命名实体识别作为实现自然语言理解的关键步骤被广泛研究。传统机器算法需要大量特征工程而且领域自适应能力弱,准确率低。针对该问题,提出一种基于BERT(Bidirectional Encoder Representations from Transformers)模型和深度卷积注意力网络DeepCAN(Deep Convolutional Attention Network)进行中文实体识别。该模型首先通过BERT预训练语言模型得到字的动态嵌入表示;然后,将得到的向量序列输入DeepCAN来获取序列化文本的上下文抽象特征;最后,通过CRF(Conditional Random Field)进行命名实体标注。实验表明,该模型在SIGHAN2006数据集上能够达到93.37%F1值,对比当前在该数据集上最好的实验结果提高了2.73%。 相似文献
10.
11.
传统的命名实体识别方法可以凭借充足的监督数据实现较好的识别效果.而在针对电力文本的命名实体识别中,由于对专业知识的依赖,往往很难获取足够的监督数据,即存在少样本场景.同时,由于电力行业的精确性要求,相比于一般的开放领域任务,电力领域的实体类型更多,因此难度更大.针对这些挑战,本文提出了一个基于主题提示的命名实体识别方法.该方法将每个实体类型视为一个主题,并使用主题模型从训练语料中获取与类型相关的主题词.通过枚举实体跨度、实体类型、主题词以填充模板并构建提示句.使用生成式预训练语言模型对提示句排序,最终识别出实体与对应类型标签.实验结果表明,在中文电力命名实体识别数据集上,相比于几种传统命名实体方法,基于主题提示的方法取得了更好的效果. 相似文献
12.
命名实体识别是信息抽取的重要研究内容,主要包括对组织机构名、地名和人名的自动识别。针对英语和汉语的命名实体识别研究开始较早,主要采用基于规则和基于统计的方法进行识别,但目前国内还少有针对越南语命名实体识别的研究。该文分析了越南语命名实体的语言学特点,对其分类并进行了形式化表达,提出了一种基于规则的越南语命名实体识别方法,实验结果显示,该方法能够达到较高的识别准确率。 相似文献
13.
命名实体识别(Named Entity Recognition,NER)作为自然语言处理领域经典的研究主题,是智能问答、知识图谱等任务的基础技术。领域命名实体识别(Domain Named Entity Recognition,DNER)是面向特定领域的NER方案。在深度学习技术的推动下,中文DNER取得了突破性进展。概括了中文DNER的研究框架,从领域数据源的确定、领域实体类型及规范制定、领域数据集的标注规范、中文DNER评估指标四个角度对国内外已有研究成果进行了综合评述;总结了目前常见的中文DNER的技术框架,介绍了基于词典和规则的模式匹配方法、统计机器学习方法、基于深度学习的方法、多方融合的深度学习方法,并重点分析了基于词向量表征和深度学习的中文DNER方法;讨论了中文DNER的典型应用场景,对未来发展方向进行了展望。 相似文献
14.
15.
领域内命名实体识别通常面临领域内标注数据缺乏以及由于实体名称多样性导致的同一文档中实体标注不一致等问题.针对以上问题,利用生成式对抗网络(generative adversarial network, GAN)可以生成数据的特点,将生成式对抗网络与BiLSTM-Attention-CRF模型相结合.首先以BiLSTM-Attention作为生成式对抗网络的生成器模型,以CNN作为判别器模型,从众包标注数据集中整合出与专家标注数据分布一致的正样本标注数据来解决领域内标注数据缺乏的问题;然后通过在BiLSTM-Attention-CRF模型中引入文档层面的全局向量,计算每个单词与该全局向量的关系得出其新的特征表示以解决由于实体名称多样化造成的同一文档中实体标注不一致问题;最后,在基于信息安全领域众包标注数据集上的实验结果表明,该模型在各项指标上显著优于同类其他模型方法. 相似文献
16.
17.
18.
为了解决命名实体识别任务在面向新兴应用领域时,需要面对烦琐的模型重构过程和语料严重不足的问题,该文提出了一种基于注意力机制的领域自适应命名实体识别方法。首先,在通用领域数据集上构建了基于BERT(bidirectional encoder representations from transformers)预训练语言模型的双向长短时记忆条件随机场(BERT-BiLSTM-CRF)命名实体识别模型;接着,在古代汉语语料集上对原有模型进行微调的同时插入了基于注意力机制的自适应神经网络层;最后,在目标域内应用迁移学习方法训练模型进行对比实验。实验结果表明,自适应迁移学习方法减少了对目标域语料的依赖。该文提出的基于注意力机制的自适应神经网络模型相比通用域BERT-BiLSTM-CRF模型的命名实体识别结果F1值提高了4.31%,相比古代汉语域BERT-BiLSTM-CRF模型的命名实体识别结果F1值提高了2.46%,实验表明,该文方法能够提升源域模型迁移学习的效果,并完成跨领域命名实体识别模型的构建。 相似文献