首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 142 毫秒
1.
本文针对徽派建筑数据异构多源和非结构化的特点,提出一种BiLSTM-CRF模型与徽派建筑词典相结合的命名实体识别方法,利用先验知识的辅助作用,提升实体识别效果,完成对建筑实体进行的识别抽取.利用Neo4j图数据库存储知识,用属性图模型表示知识.最后使用Neo4j图数据库对构建的徽派建筑知识图谱进行了可视化展示.研究结果表明,此方法能够有效地构建徽派建筑领域知识图谱,为今后徽派建筑知识智能化推荐和搜索系统研究奠定基础.  相似文献   

2.
基于信息熵的半监督领域实体关系抽取研究   总被引:1,自引:1,他引:0  
针对监督机器学习方法抽取实体关系受限于标注语料的规模问题,提出采用信息熵方法来不断扩展小规模训练数据的半监督领域实体关系抽取。结合领域词汇选取小规模训练数据,构建了一定准确率的初始最大熵分类器,用来从未标记数据中预测出候选新实例。采用信息熵方法,通过设定不同熵值,多次循环以选取可信度较高的新实例来扩展训练数据。使用扩展后的训练数据重新迭代训练分类器,分类器性能趋于稳定迭代终止,实现了半监督学习的领域实体关系抽取。实验表明,和已有方法相比,本文提出的半监督领域实体关系抽取通过结合信息熵方法,在小规模标注样本环境中取得了较好的学习效果。  相似文献   

3.
军事领域非结构化文本中的大量目标实体往往包含丰富的军事信息和军事知识,对其准确识别是进行军事信息抽取和军事知识组织的基础性关键任务,也是构建军事知识图谱的重要环节。针对军事领域标注数据不足以及军事实体边界模糊的问题,提出基于预训练BERT模型的深度学习识别方法。利用BERT生成基于当前输入语境特征的动态字向量来增强字的语义表示,融合字的含边界词性特征得到特征融合向量,再连接 BiLSTM-CRI神经网络。在自建的军事领域标注数据集上的实验结果表明,相较于另外两种基准方法,该方法在准确率、召回率和F值上获得了更优的表现。  相似文献   

4.
基于医疗类别的电子病历命名实体识别研究   总被引:2,自引:2,他引:0  
基于电子病历命名实体识别对智慧医疗和医疗知识图谱的构建具有重要意义,提出一种基于医疗类别的命名实体识别方法。首先,针对电子病历语料中实体特点进行深度挖掘,将电子病历分为4类医疗类别;然后,对各医疗类别分别构建特征集,并使用条件随机场模型对身体部位、症状和体征、检查与检验、疾病与诊断、治疗等5类命名实体进行命名实体识别;最后,将基于医疗类别特征集识别效果和通用特征集的识别结果进行对比。实验结果表明,基于医疗类别的电子病历命名实体识别效果显著提升,可以满足应用需求。  相似文献   

5.
针对材料领域没有适合材料实体关系抽取技术研究工作的公开数据集这一问题,通过研究高硅铝合金喷射沉积文献提出铝硅合金实体关系抽取数据集的构建方法. 在材料领域专家的指导下制定铝硅合金实体关系抽取数据集的构建标准,并根据构建标准对收集的数据进行实体标注和关系标注. 在标注完成后,通过数据预处理生成铝硅合金实体关系抽取数据集. 通过实体关系联合抽取模型进行实验,验证该数据集可以应用于实体关系抽取任务. 与公开数据集相比,材料数据集句子的语义和语法更为复杂,长句更多,导致实体关系联合抽取模型在材料数据集上的表现略差. 针对上述问题,在实体关系联合抽取模型上加入自注意力机制,使该模型整体的F1值提高了约5.8%. 该数据集的构建方法具有普适性,可以通过该构建方法构建材料数据集.  相似文献   

6.
针对水稻病虫害知识图谱构建所需实体和关系,提出了一种基于FastBert模型的中文实体关系抽取方法. 首先,在中文语料收集的基础上,使用Hanlp工具和农业词典提取了与水稻病虫害相关的领域实体,并依据实体间关系的特点定义了病虫害别名、为害部位、为害地区、防治方法等7种类型. 然后,在词嵌入和句子嵌入的基础上通过FastBert模型实现水稻病虫害关系的抽取. 该模型与Robert、Electra、Distilbert等其它Bert相关模型的关系抽取结果比较显示,基于FastBert模型的中文水稻病虫害关系抽取效果更好,模型获得的实体间关系F1值达0.72,模型精度达0.69. 该方法为中文农业病虫害知识图谱的自动化构建提供了参考.  相似文献   

7.
为解决电网客服领域人力成本过高、业务处理受到时空限制的问题,探究基于行业知识图谱的智能客服查询显示系统.根据电网客服领域的业务需求和数据特点,采用半自动化的方式对源数据进行语义标注与关系抽取,建立行业知识图谱.在实现自动问答系统的语义解析环节,提出一种多模式匹配和相似度度量融合的实体识别算法,提高实体识别模块的性能.通...  相似文献   

8.
军事实体关系抽取是军事信息抽取的主要任务之一,目的在于识别非结构化军事文本中两个命名实体的关系类别.传统的军事关系抽取方法难以解决人工特征不充分、军事领域中文分词不准确以及未能充分利用句子间的实体关系特征等问题.因此,提出了一种融合预训练语言模型(BERT)和注意力机制的军事关系识别方法.该方法能够有效学习上下文语义特...  相似文献   

9.
现有实体对齐方法普遍存在传统方法依赖外部信息和人工构建特征,而基于表示学习的方法忽略了知识图谱中的结构信息的问题。针对上述问题,提出自适应属性选择的实体对齐方法,融合实体的语义和结构信息训练基于两个图谱联合表示学习的实体对齐模型。提出使用基于自适应属性选择的属性强约束模型,根据数据集特征自动生成最优属性类型和权重约束,提升实体对齐效果。两个实际数据集上的试验表明,该方法与传统表示学习方法相比准确率最高提升了约11%。  相似文献   

10.
从文本大数据中快速准确地抽取文本的实体关系信息是构建知识图谱的关键.针对目前主流的远程监督关系抽取方法常常忽略实体对的类型信息和句子语法信息的问题,该文提出了一种基于深度强化学习的文本实体关系抽取方法.首先,利用结合实体周围词注意力机制的双向长短期记忆网络作为句子编码的第一个模块;然后,在此基础上加入实体类型嵌入模块,...  相似文献   

11.
为了改善通用预训练模型不适应医疗领域的命名实体识别任务这一不足,提出了一种融合医疗领域知识图谱的神经网络架构,该架构利用弹性位置和遮盖矩阵使预训练模型计算自注意力时避免语义混淆和语义干扰,在微调时使用多任务学习的思想,利用回忆学习的优化算法使预训练模型均衡通用语义表达和目标任务的学习,最终得到更为高效的向量表示并进行标签预测。实验结果表明:本文提出的命名实体识别架构在医疗领域上取得了优于主流预训练模型的效果,在通用领域也有较为良好的效果。该架构避免了重新训练针对某个领域的预训练模型和引入额外的编码结构从而精简了计算代价和模型大小。此外,通过消融实验对比,医疗领域对于知识图谱的依赖程度较通用领域依赖程度更大,这说明在医疗领域中融合知识图谱方法的有效性。通过参数分析,证明本文使用回忆学习的优化算法可以有效控制模型参数的更新,使模型可以保留更多的通用语义信息并得到更符合语义的向量表达。本文也通过实验分析说明了所提方法在实体数量少的种类上具有更优的表现。  相似文献   

12.
针对汽车领域命名实体识别中汽车属性名识别的准确率和召回率较低的问题,提出了一种基于本体特征的汽车领域命名实体识别方法。通过扩展现有叙词表,基于叙词表构建汽车领域本体,提取语料中的本体特征,利用CRFs模型对汽车领域命名实体进行识别。实验结果表明,本体特征能够有效地识别出汽车属性实体,准确率、召回率和F值分别为75.60%,66.12%和70.54%。  相似文献   

13.
由于缺乏大量已标注数据,在中文医疗命名实体识别中,主要利用外部资源来改善医疗实体识别的性能,这需要大量的时间和有效的规则加入外部资源.为了解决标注数据不足的问题,提出了一种基于生成对抗网络的数据增强算法,自动生成大量标注数据,提高医疗实体识别的性能.实验结果表明,该算法在性能方面优于实验中的基准模型,证明了该算法在医疗实体识别上的有效性.  相似文献   

14.
提出一种基于Attention-BiLSTM(attention-bidirectional long short-term memory)深度神经网络的命名实体识别方法。应用BiLSTM神经网络自动学习文本的隐含特征,可以解决传统识别方法存在长距离依赖等问题;引入注意力机制(attention mechanism)对文本全局特征做重要度计算,获取文本局部特征,解决了传统深度学习方法不能充分提取特征的问题;在预训练过程中加入维基百科知识,进一步提升了命名实体识别系统的性能。实验表明,所提方法在SIGHAN 2006 Bakeoff-3评测数据集上获得了优良的识别性能。  相似文献   

15.
中文电子病历数据专业性强,语法结构复杂,用于自然语言处理(NLP)的命名实体识别(NER)难度大。为了从电子病历数据中精确识别出医疗实体,提出了一种融合语义及边界信息的命名实体识别算法。首先,利用卷积神经网络(CNN)结构提取汉字图形信息,并与五笔特征拼接来丰富汉字的语义信息;然后,利用FLAT模型中的Lattice将医学词典作为字符潜在词组匹配文本信息;最后,将融入语义信息的Lattice模型用于中文电子病历命名实体识别。实验结果表明,该方法在Yidu-S4K数据集上的识别性能超过现有多种算法,且在Resume数据集上F1值可达到96.06%。  相似文献   

16.
陈龙    张水平    王海晖    陈言璞   《武汉工程大学学报》2021,43(6):681-688
针对面部表情分类的模型中参数较复杂、识别准确率较低的问题,提出了一种基于知识图谱辅助识别的多任务学习算法模型(MLAM),该模型由基于深度学习的识别模块与知识图谱嵌入模块两部分构成。首先从输入的数据中提取潜在的人脸局部表情特征,通过知识图谱实现局部表情和个体的复杂交互;然后在MLAM 模型中设计一个交叉压缩单元,关联这两个独立模块,自动学习局部表情和实体特征的高级交互,并在这两个任务之间传递交叉知识转移;最后,在FER2013和CK+的数据集上对比了同类算法,实验结果表明,该模型在上述数据集上分别得到了0.69和0.99的识别率,提高了面部表情识别准确率。  相似文献   

17.
领域本体在信息抽取系统有着重要作用。该文介绍了本体、领域本体的基本概念,并探讨了领域本体与信息抽取的关系。提出了信息抽取系统中领域本体的设计准则和实施步骤,实施步骤包括领域本体需求分析、收集本体信息、构建领域本体框架、形式化编码、确认和评价等。在信息抽取原型系统中实现了显示器领域本体,并将该领域本体应用到信息抽取中的命名实体识别、抽取模式获取和主题概念提取等任务中,应用结果表明该方法、步骤是可行的。  相似文献   

18.
基于编码器?解码器(encoder-decoder)框架的生成式方法在关键词抽取任务上得到了广泛应用并取得了较好的性能,然而该方法面临的主要挑战为建模有效的文档向量表示,及生成覆盖整个文档主题的关键词集合,这些挑战都会直接影响关键词抽取的结果。该文提出了结合邻域知识的文档级关键词抽取模型以应对这些挑战。具体来说,通过给指定文档添加少量的最近邻样本,原文档被扩展为一个文档集合。基于单词之间的距离将文档集合中的每个文档构建成词图,合并集合中的所有词图形成一个大图,然后利用图卷积网络进行编码。解码端引入了上下文修改机制和覆盖机制,使模型能够生成更加多样化的关键词来覆盖文档包含的所有主题。最后在4种数据集上分别与现有的基准模型进行对比,实验结果表明该方法能够有效提升关键词抽取的性能。  相似文献   

19.
受到空洞卷积的启发提出面向二维文本嵌入的列式空洞卷积,设计空洞卷积块架构,基于此架构提出命名实体识别模型并开展进一步试验。在命名实体识别试验中,提出的模型的精密度、召回率和F1超越了其他基线模型,分别达到了0.918 7、0.879 4和0.898 6,表明空洞卷积块架构能够获取包含更多上下文信息的文本特征,从而支持模型对上下文长距离依赖特征的捕获和处理。感受野试验表明需要适当调整空洞率以减轻空洞卷积给模型带来的“网格效应”。提出的基于空洞卷积块架构能有效执行命名实体识别任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号