首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 312 毫秒
1.
陈明  刘蓉  张晔 《计算机工程》2023,(6):314-320
医疗实体识别是从医疗文本中识别疾病、症状、药物等多种类型的医疗实体,能够为知识图谱、智慧医疗等下游任务的发展提供支持。针对现有命名实体识别模型提取语义特征较单一、对医疗文本语义理解能力不足的问题,提出一种基于多重注意力机制的神经网络模型MANM。为捕获文本中更丰富的语义特征,在模型输入中引入医疗词汇先验知识,通过自注意力机制获取医疗文本的全局语义特征,并利用双线性注意力机制获取词汇和字符层面的潜在语义特征,得到包含字词间依赖关系的特征向量。为提高模型的上下文信息捕捉能力,采用改进的长短时记忆网络提取文本时序特征,同时设计多头自注意力机制获取词语间隐含的关联语义特征。最后融合上述多层次语义特征,利用条件随机场进行实体识别。在公开数据集CMeEE、CCKS2019、CCKS2020上进行对比实验,实验结果表明,MANM模型在3个数据集上的F1值分别达到64.29%、86.12%、90.32%,验证了所提方法在医疗实体识别中的有效性。  相似文献   

2.
基于知识图谱的网络安全动态预警方法,能够主动感知和应对网络安全攻击,增强感知的实时性和精准性。然而,在构建网络安全知识图谱的实体抽取过程中,传统的命名实体识别工具和方法无法识别网络安全领域中的特定类别实体,文本中的未登录和中英文混合的网络安全实体也难以被准确识别。网络安全文本中的网络安全命名实体存在中英文混合、单词缩写等问题,仅基于字的命名实体识别方法难以充分表征字或词的语义信息。因此,论文考虑中英文更细粒度的部件语义捕捉字或词的语义特征,提出一种基于部件CNN的网络安全命名实体识别方法(C C-NS-NER),利用部件CNN抽取词语部件特征中的关键语义特征,丰富字词级别的语义信息,并引入BiLSTM-CRF确保抽取字向量和部件特征中的抽象信息,同时获取标签之间的关联信息,识别文本中的网络安全命名实体。在人工标注的网络安全数据集上的实验结果表明,该方法相较于传统模型,能有效获取字或词的部件语义信息,显著提高网络安全命名实体识别的效果。  相似文献   

3.
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势.  相似文献   

4.
针对中文电子病历中医疗嵌套实体难以处理的问题, 本文基于RoBERTa-wwm-ext-large预训练模型提出一种知识增强的中文电子病历命名实体识别模型ERBEGP. RoBERTa-wwm-ext-large采用的全词掩码策略能够获得词级别的语义表示, 更适用于中文文本. 首先结合知识图谱, 使模型学习到了大量的医疗实体名词, 进一步提高模型对电子病历实体识别的准确性. 然后通过BiLSTM对电子病历输入序列编码, 能够更好捕获病历的中上下语义信息. 最后利用全局指针网络模型EGP (efficient GlobalPointer)同时考虑实体的头部和尾部的特征信息来预测嵌套实体, 更加有效地解决中文电子病历命名实体识别任务中嵌套实体难以处理的问题. 在CBLUE中的4个数据集上本文方法均取得了更好的识别效果, 证明了ERBEGP模型的有效性.  相似文献   

5.
基于联合知识表示学习的多模态实体对齐   总被引:1,自引:0,他引:1  
王会勇  论兵  张晓明  孙晓领 《控制与决策》2020,35(12):2855-2864
基于知识表示学习的实体对齐方法是将多个知识图谱嵌入到低维语义空间,通过计算实体向量之间的相似度实现对齐.现有方法往往关注文本信息而忽视图像信息,导致图像中实体特征信息未得到有效利用.对此,提出一种基于联合知识表示学习的多模态实体对齐方法(ITMEA).该方法联合多模态(图像、文本)数据,采用TransE与TransD相结合的知识表示学习模型,使多模态数据能够嵌入到统一低维语义空间.在低维语义空间中迭代地学习已对齐多模态实体之间的关系,从而实现多模态数据的实体对齐.实验结果表明,ITMEA在WN18-IMG数据集中能够较好地实现多模态实体对齐.  相似文献   

6.
作为自然语言处理领域的关键子任务,命名实体识别通过提取文本中的关键信息,帮助机器翻译、文本生成、知识图谱构建以及多模态数据融合等许多下游任务深度理解文本蕴含的复杂语义信息,有效完成任务.在实际生活中,由于时间和人力等成本问题,命名实体识别任务常常受限于标注样本的稀缺.尽管基于文本的小样本命名实体识别方法已取得较好的泛化表现,由于样本量有限,使得模型能提取的语义信息也十分受限,进而导致模型预测效果依然不佳.针对标注样本稀缺对基于文本的小样本命名实体识别方法带来的挑战,本文提出了一种融合多模态数据的小样本命名实体识别模型,首次借助多模态数据提供额外语义信息,帮助模型提升预测效果,进而可有效提升多模态数据融合、建模效果.该方法使用将图像信息转化为文本信息作为辅助模态信息的方式,有效解决了由文本与图像蕴含语义信息粒度不一致导致的模态对齐效果不佳的问题.为了有效考虑实体识别中的标签依赖关系,本文使用CRF框架并使用最先进的元学习方法分别作为发射模块和转移模块.为了缓解辅助模态中的噪声样本对模型的负面影响,本文提出一种基于元学习的通用去噪网络,该去噪网络在数据量十分有限的情况下,依然可以有效评估辅助模态中不同样本的差异性以及衡量样本对模型的有益程度.最后,本文在真实的单模态和多模态数据集上进行了大量的实验. 实验结果验证了本文方法的预测F1值比基准方法提升了至少10个F1值分数点,并具有良好的泛化性.  相似文献   

7.
为了充分发掘中文简历数据中所蕴含的信息,提高构建社交网络知识图谱和档案知识图谱的实体丰富度,提出了基于BERT的中文简历命名实体识别技术.该技术模型首先通过BERT网络将大规模未标注文本生成具有语义特征的字符向量,接着通过嵌入条件随机场(CRF)的双向长短时记忆(BiLSTM)神经网络模型获取输入文本序列的上下文特征,解码标注提取出相应的8个实体类型.实验结果表明,该网络模型在个人中文简历数据集上取得了97.07%的平均F1值,可以运用于中文简历数据的实体识别任务.  相似文献   

8.
Web上实体信息过于分散且缺乏语义,传统基于关键词匹配的搜索引擎往往因缺少上下文等语义信息,无法搜索到精确的结果。为了对Web数据进行精确查找,使用信息网模型(INM)对Web数据进行语义表示和建模,将实体的所有语义信息组织在一个对象中,快速获取实体完整的语义信息。基于INM构建复杂语义数据库,设计实现一个可对教育领域相关实体信息进行精确搜索的TLDW系统。实验结果表明,该系统初次查询时间均在100 ms内,其搜索结果包含实体的上下文关系等多种语义信息,缓存优化后的搜索结果可在20 ms内完成。  相似文献   

9.
针对电力领域科技项目申请书评审工作中存在的项目与专家精准匹配难的问题,提出一种基于层次化语义表示的电力文本命名实体识别模型(Attention-RoBerta-BiLSTM-CRF, ARBC)以及基于语义-象形双特征空间映射的电力项目与电力专家的匹配策略。ARBC模型包括词嵌入模块、双向长短时记忆网络BiLSTM模块以及条件随机场(CRF)模块。其中,词嵌入模块同时使用了电力文本词语、句子和文档3个层面的信息。具体地,首先提取基于RoBerta预训练模型的词嵌入向量,进而通过引入文档层面基于词频-逆文档频率值的注意力机制增强句子的上下文表征能力,最终将词嵌入与句子嵌入进行线性加权融合,形成词语的层次化表征向量。在ARBC模型输出电力文本命名实体基础之上,进一步提出基于语义-象形双特征空间映射的项目文本与领域专家的实体匹配策略,最终实现项目与专家的有效精准匹配任务。实验结果表明,ARBC模型在2000篇电力项目摘要文本命名实体识别测试集上获得83%的F1值,显著高于基于Bert和RoBerta的文本表示方法。此外,基于双特征空间映射的实体匹配策略在电力文本与电力专家匹配任务中准确率达85%。  相似文献   

10.
现有的融合文本或邻居信息的知识补全模型忽略文本和邻居之间的相互作用,难以捕获与实体具有较强语义相关性的信息,加上基于卷积神经网络的模型未考虑实体中的关系相关信息,导致预测性能不佳.因此,文中结合文本信息和拓扑邻居信息,提出基于Triplet注意力的循环卷积神经网络模型.首先,通过语义匹配的方式,选取文本描述中与实体具有较强语义相关性的单词.再与拓扑邻居复合作为实体邻居,增强实体表示.然后,重塑实体的融合表示和关系表示.最后,利用Triplet注意力优化卷积输入,使卷积操作能提取实体中与关系相关的特征,提升模型性能.在多个公开数据集上的链路预测实验表明,文中模型性能较优.  相似文献   

11.
实体链接任务是识别文本中潜在的实体指称,并将其链接到给定知识库中无歧义的实体上。在绝大多数情况下,实体链接可能存在中文短文本缺乏有效上下文信息,导致存在一词多义的歧义现象;同时候选链接过程中,候选实体的不确定相关性也影响候选实体链接精确性。针对上述两个问题,提出深度神经网络与关联图相结合的实体链接模型。模型添加字符特征、上下文、信息深层语义来增强指称和实体表示,并进行相似度匹配。利用Fast-newman算法将图谱知识库聚类划分不同类型实体簇,将相似度计算得分最高候选实体所属实体簇映射到关系平面,构建聚类实体关联图。利用偏向随机游走算法考查候选实体之间语义相关度,计算指称与候选实体的匹配程度,输入链接实体。该模型可以实现短文本到知识图谱目标实体的准确链接。  相似文献   

12.
Semantic entities carry the most important semantics of text data. Therefore, the identification and the relationship integration of semantic entities are very important for applications requiring semantics of text data. However, current strategies are still facing many problems such as semantic entity identification, new word identification and relationship integration among semantic entities. To address these problems, a two-phase framework for semantic entity identification with relationship integration in large scale text data is proposed in this paper. In the first semantic entities identification phase, we propose a novel strategy to extract unknown text semantic entities by integrating statistical features, Decision Tree (DT), and Support Vector Machine (SVM) algorithms. Compared with traditional approaches, our strategy is more effective in detecting semantic entities and more sensitive to new entities that just appear in the fresh data. After extracting the semantic entities, the second phase of our framework is for the integration of Semantic Entities Relationships (SER) which can help to cluster the semantic entities. A novel classification method using features such as similarity measures and co-occurrence probabilities is applied to tackle the clustering problem and discover the relationships among semantic entities. Comprehensive experimental results have shown that our framework can beat state-of-the-art strategies in semantic entity identification and discover over 80% relationship pairs among related semantic entities in large scale text data.  相似文献   

13.
在自然语言问题中,由于知识库中关系表达的多样化,通过表示学习匹配知识库问答的答案仍是一项艰巨任务.为了弥补上述不足,文中提出融合事实文本的知识库问答方法,将知识库中的实体、实体类型和关系转换为事实文本,并使用双向Transformer编码器(BERT)进行表示,利用BERT丰富的语义模式得到问题和答案在低维语义空间中的数值向量,通过数值计算匹配与问题语义最相近的答案.实验表明,文中方法在回答常见的简单问题时效果较优,鲁棒性较强.  相似文献   

14.
实体消歧作为知识库构建、信息检索等应用的重要支撑技术,在自然语言处理领域有着重要的作用。然而在短文本环境中,对实体的上下文特征进行建模的传统消歧方式很难提取到足够多用以消歧的特征。针对短文本的特点,提出一种基于实体主题关系的中文短文本图模型消歧方法,首先,通过TextRank算法对知识库信息构建的语料库进行主题推断,并使用主题推断的结果作为实体间关系的表示;然后,结合基于BERT的语义匹配模型给出的消歧评分对待消歧文本构建消歧网络图;最终,通过搜索排序得出最后的消歧结果。使用CCKS2020短文本实体链接任务提供的数据集对所提方法进行评测,实验结果表明,该方法对短文本的实体消歧效果优于其他方法,能有效解决在缺乏知识库实体关系情况下的中文短文本实体消歧问题。  相似文献   

15.
知识库问答任务是自然语言处理领域中的研究热点之一,目前国内外学者对知识库问答方法的研究大多数是基于英文数据,基于中文数据的研究非常少。由于中文存在语言多变性、语法不明确性、语言歧义性等特点,导致很多英文知识库问答研究方法很难应用于中文数据。针对以上问题,该文提出一种基于信息匹配的中文知识库问答研究方法,探索方法在中文数据上的效果。首先对问题进行主语实体识别和属性值识别;其次将问句中的实体链接到知识库中的实体,使用逻辑回归对候选实体进行筛选;再次抽取其两跳内关系作为候选查询路径,将候选查询路径和问题进行相似度匹配得到匹配度最高的候选路径;最后使用实体拼接来得到多实体情况的查询路径,查询知识库获得最终答案。该方法在CCKS2019 CKBQA测试集上的F值达到了75.6%。  相似文献   

16.
针对心理医学领域文本段落冗长、数据稀疏、知识散乱且规范性差的问题, 提出一种基于多层级特征抽取能力预训练模型(MFE-BERT)与前向神经网络注意力机制(FNNAttention)的心理医学知识图谱构建方法. MFE-BERT在BERT模型基础上将其内部所有Encoder层特征进行合并输出, 以获取包含更多语义的特征向量, 同时对两复合模型采用FNNAttention机制强化词级关系, 解决长文本段落语义稀释问题. 在自建的心理医学数据集中, 设计MFE-BERT-BiLSTM-FNNAttention-CRF和MFE-BERT-CNN-FNNAttention复合神经网络模型分别进行心理医学实体识别和实体关系抽取, 实体识别F1值达到93.91%, 实体关系抽精确率达到了89.29%, 通过融合文本相似度与语义相似度方法进行实体对齐, 将所整理的数据存储在Neo4j图数据库中, 构建出一个含有3652个实体, 2396条关系的心理医学知识图谱. 实验结果表明, 在MFE-BERT模型与FNNAttention机制的基础上构建心理医学知识图谱切实可行, 提出的改进模型所搭建的心理医学知识图谱可以更好地应用于心理医学信息管理中, 为心理医学数据分析提供参考.  相似文献   

17.
近年来,知识表示学习已经成为知识图谱领域研究的热点。为了及时掌握当前知识表示学习方法的研究现状,通过归纳与整理,将具有代表性的知识表示方法进行了介绍和归类,主要分为传统的知识表示模型、改进的知识表示模型、其他的知识表示模型。对每一种方法解决的问题、算法思想、应用场景、评价指标、优缺点进行了详细归纳与分析。通过研究发现,当前知识表示学习主要面临关系路径建模、准确率、复杂关系处理的挑战。针对这些挑战,展望了采用关系的语义组成来表示路径、采用实体对齐评测指标、在实体空间和关系空间建模,以及利用文本上下文信息以扩展KG的语义结构的解决方案。  相似文献   

18.
Clustering Text Data Streams   总被引:2,自引:0,他引:2       下载免费PDF全文
Clustering text data streams is an important issue in data mining community and has a number of applica- tions such as news group filtering,text crawling,document organization and topic detection and tracing etc.However, most methods axe similaxity-based approaches and only use the TF*IDF scheme to represent the semantics of text data and often lead to poor clustering quality.Recently,researchers argue that semantic smoothing model is more efficient than the existing TF*IDF scheme for improving text clus...  相似文献   

19.
针对现有意图识别联合模型在专业领域知识图谱问答中容易发生识别领域实体以及问句分类错误的情况,提出一个结合了领域知识图谱的意图识别联合模型。该模型有三步,将领域知识图谱中实体对应的本体标签以及本体间关系导入训练数据集,形成包含本体标签的知识文本以及额外包含本体关系的知识文本图;通过字符级嵌入和位置信息嵌入将包含了本体标签的知识文本转化成嵌入表示并依据知识文本图创建实体关系可视矩阵,明确知识文本各成分的相关程度;将嵌入表示和实体关系可视矩阵输入模型编码层进行模型的训练。以高速列车领域知识图谱为例,经过准确率和召回率的验证,以该方法训练出的模型在高速列车领域问答数据集的意图识别任务上取得了更好的表现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号