期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

詹飞朱艳辉梁文桐张旭欧阳康孔令巍黄雅淋《计算机工程》2022,48(3):315-320

实体链接是明确文本中实体指称的重要手段,也是构建知识图谱的关键技术,在智能问答、信息检索等领域中具有重要作用,但由于短文本的上下文语境不丰富、表达不正式、语法结构不完整等特点,现有的短文本实体链接方法准确率较低。提出一种新的短文本实体链接方法,将多任务学习方法引入短文本实体链接过程中,从而增强短文本实体链接方法的效果。在此基础上,构建多任务学习模型,将短文本实体链接作为主任务,并引入实体分类作为辅助任务,促使模型学习到更加通用的底层表达,提高模型的泛化能力,优化模型在短文本实体链接任务中的表现。在CCKS2020测评任务2提供的数据集上的实验结果表明,辅助任务的引入能够缓解短文本实体链接过程中信息不充分的问题,且该多任务学习模型的F值为0.894 9,优于基于BERT编码器的单任务实体链接模型。相似文献

2.

基于领域知识图谱的短文本实体链接

下载免费PDF全文

黄金杰赵轩伟张昕尧马敬评史宇奇《计算机工程与应用》2022,58(1):165-174

实体链接任务是识别文本中潜在的实体指称,并将其链接到给定知识库中无歧义的实体上。在绝大多数情况下,实体链接可能存在中文短文本缺乏有效上下文信息,导致存在一词多义的歧义现象;同时候选链接过程中,候选实体的不确定相关性也影响候选实体链接精确性。针对上述两个问题,提出深度神经网络与关联图相结合的实体链接模型。模型添加字符特征、上下文、信息深层语义来增强指称和实体表示,并进行相似度匹配。利用Fast-newman算法将图谱知识库聚类划分不同类型实体簇,将相似度计算得分最高候选实体所属实体簇映射到关系平面,构建聚类实体关联图。利用偏向随机游走算法考查候选实体之间语义相关度,计算指称与候选实体的匹配程度,输入链接实体。该模型可以实现短文本到知识图谱目标实体的准确链接。相似文献

3.

基于词向量语义分类的微博实体链接方法 总被引：1，自引：0，他引：1

冯冲石戈郭宇航龚静黄河燕《自动化学报》2016,42(6):915-922

微博实体链接是把微博中给定的指称链接到知识库的过程,广泛应用于信息抽取、自动问答等自然语言处理任务(Natural language processing,NLP). 由于微博内容简短,传统长文本实体链接的算法并不能很好地用于微博实体链接任务. 以往研究大都基于实体指称及其上下文构建模型进行消歧,难以识别具有相似词汇和句法特征的候选实体. 本文充分利用指称和候选实体本身所含有的语义信息,提出在词向量层面对任务进行抽象建模,并设计一种基于词向量语义分类的微博实体链接方法. 首先通过神经网络训练词向量模板,然后通过实体聚类获得类别标签作为特征,再通过多分类模型预测目标实体的主题类别来完成实体消歧. 在NLPCC2014公开评测数据集上的实验结果表明,本文方法的准确率和召回率均高于此前已报道的最佳结果,特别是实体链接准确率有显著提升. 相似文献

4.

基于词向量的中文微博实体链接方法

《计算机应用与软件》2017,(4)

实体链接是指给定实体指称项和它所在的文本,将其链接到给定知识库中的目标实体上。由于微博内容存在特征稀疏、用语不规范的特点,使用传统的方法效果较差,为了准确地对微博中给定的实体进行链接,提出一种基于词向量的中文微博实体链接方法。首先,对知识库进行扩展,并从中文维基百科抽取同义词构建同义词表;然后,利用词向量解决错别字和外来人名音译的问题;最后,通过词向量计算实体指称项和候选实体的语义相似度来进行实体链接。实验结果表明,该方法在NLP&CC2013评测数据上的微平均准确率达到了91.4%。相似文献

5.

一种基于图模型的维基概念相似度计算方法及其在实体链接系统中的应用

张涛刘康赵军《中文信息学报》2015,29(2):58-67

实体链接是指将文本中具有歧义的实体指称项链接到知识库中相应实体的过程。该文首先对实体链接系统进行了分析,指出实体链接系统中的核心问题—实体指称项文本与候选实体之间的语义相似度计算。接着提出了一种基于图模型的维基概念相似度计算方法,并将该相似度计算方法应用在实体指称项文本与候选实体语义相似度的计算中。在此基础上,设计了一个基于排序学习算法框架的实体链接系统。实验结果表明,相比于传统的计算方法,新的相似度计算方法可以更加有效地捕捉实体指称项文本与候选实体间的语义相似度。同时,融入了多种特征的实体链接系统在性能上获得了达到state-of-art的水平。相似文献

6.

基于关联图和文本相似度的实体消歧技术研究

王章辉吕亚茹张涵婷《计算机与数字工程》2021,49(12):2469-2475

实体链接是指对于文本中提到的实体指称,在知识图谱中找到它所对应的真实实体的过程.利用实体链接技术可以把网络数据和知识库链接起来,在对数据进行处理时就能运用知识库中的结构化信息,很大地促进了自然语言处理领域的发展.论文提出一种将局部消歧和全局消歧相结合的实体消歧方法.在局部消歧方面,利用BiLSTM+Attention模型捕获文本中实体指称的上下文信息,与知识库中的实体信息进行相似性计算得到候选实体的局部消歧得分.在全局消歧方面,构造候选实体之间的关联图,将实体的局部消歧得分作为每个实体节点的初始得分,利用PageRank算法逐步完成整个文档中所有指称项的消歧过程.实验结果表明论文的方法拥有较好的消歧效果. 相似文献

7.

基于CNN和深层语义匹配的中文实体链接模型

吴晓崇段跃兴张月琴闫雄《计算机工程与科学》2020,42(8):1514-1520

实体链接是知识图谱领域的重要研究内容,现有的实体链接模型研究大多集中在对手工特征的选择上,不能很好地利用实体间的语义信息来实现更高效的实体链接效果。故提出一个基于深度语义匹配模型和卷积神经网络的实体链接模型,候选实体生成阶段采用构造同名字典,并基于上下文进行字典扩充,通过匹配来选择候选实体集。通过卷积神经网络来捕获深层语义信息,进行特征提取,并将其作为语义匹配模型的输入,通过模型训练学习选择出最佳参数,并输出语义相似度最高的候选实体作为实体链接的结果。在NLP & CC2014_ERL 数据集上较Ranking SVM模型准确率提升了3.9%,达到86.7%。实验结果表明了提出的新模型性能优于当前的主流模型。相似文献

8.

面向知识库问答的实体链接方法

赵畅李慧颖《中文信息学报》2019,33(11):125-133

面向知识库问答的实体链接是指将自然语言问句中实体指称链接到知识库中实体的方法。目前主要面临两个问题: 第一是自然语言问句短,实体指称上下文不充分;第二是结构化知识库中实体的文本描述信息少。因此,该文提出了分别利用候选实体的类别、关系和邻近实体作为候选实体表示的方法,弥补知识库实体描述信息不足的问题。同时,通过语料训练得到问句指称的相似实体指称作为其背景知识。最后,结合实体流行度,共同作为实体消歧的特征。实验结果表明,上述提到所有特征的线性组合在数据集上高于单个特征的结果,表现最佳。相似文献

9.

面向实体链接的多特征图模型实体消歧方法*

高艳红李爱萍段利国《计算机应用研究》2017,34(10)

实体链接技术是将文本中的实体指称表述项正确链接到知识库中实体的过程。其中,命名实体消歧的准确性直接影响实体链接的准确性。针对中文实体链接中命名实体的消歧,提出一种融合多种特征的解决方案。首先,以中文维基百科为知识库支撑,从实体指称表述项的上下文和候选实体在维基百科的内容描述两个方面,抽取多种语义特征并计算语义相似度;然后将语义相似度融合到构建的图模型中,基于PageRank算法计算该图模型的最终平稳分布;最后对候选实体排序,选取Top1实体作为消歧后的实体链接结果。实验通过与仅仅围绕名称表述特征进行消歧的基线系统相比,F值提升了9%,并且高于其他实体链接技术实验的F值,表明该方法在解决中文实体链接技术的命名实体消歧问题上,取得了较好的整体效果。相似文献

10.

融合多特征的中文集成实体链接方法

冯钧柳菁铧孔盛球《计算机与现代化》2019,(1):69

实体链接技术是将文本中的实体指称项正确链接到知识库中实体对象的过程，对知识库扩容起着关键作用。针对传统的实体链接方法主要利用上下文相似度等表层特征，而且忽略共现实体间的语义相关性，提出一种融合多特征的集成实体链接方法。首先结合同义词表、同名词表产生候选实体集，然后从多角度抽取语义特征，并将语义特征融合到构建的实体相关图中，最后对候选实体排序，选取top1实体作为链接目标。在NLP&CC2013中文微博实体链接评测数据集上进行实验，获得90.97%的准确率，与NLP&CC2013中文微博实体链接评测的最优系统相比，本文系统具有一定的优势。相似文献

11.

融合词向量和主题模型的领域实体消歧^*

马晓军郭剑毅王红斌张志坤线岩团余正涛《模式识别与人工智能》2017,30(12):1130-1137

针对Skip-gram词向量计算模型在处理多义词时只能计算一个混合多种语义的词向量,不能对多义词不同含义进行区分的问题,文中提出融合词向量和主题模型的领域实体消歧方法.采用词向量的方法从背景文本和知识库中分别获取指称项和候选实体的向量形式,结合上下位关系领域知识库,进行上下文相似度和类别指称相似度计算,利用潜在狄利克雷分布(LDA)主题模型和Skip-gram词向量模型获取多义词不同含义的词向量表示,抽取主题领域关键词,进行领域主题关键词相似度计算.最后融合三类特征,选择相似度最高的候选实体作为最终的目标实体.实验表明,相比现有消歧方法,文中方法消歧结果更优. 相似文献

12.

基于异构图注意力的工业设备故障诊断知识图谱补全方法

马亚杰刘洋姜斌冒泽慧刘剑慰刘文静《中国科学:信息科学》2024,(2):354-372

针对工业设备故障诊断知识图谱故障实体属性残缺、故障关系链接缺失的问题,本文提出了一种基于知识图谱异构图注意力网络(knowledge graph heterogeneous graph attention network, KGHAN)模型的工业设备故障诊断知识图谱补全方法,通过对故障实体概念补全和故障关系链接补全完善了工业设备故障诊断知识图谱.所提KGHAN模型在异构图注意力网络模型的基础上,融合了故障知识结构信息和故障图结构信息,有效地表征了故障实体和故障关系的嵌入表示,提高了故障实体概念补全任务的准确率和故障关系链接补全任务的命中率.将所提工业设备故障诊断知识图谱补全方法应用在国内某企业的工业设备故障运维数据上,结果表明,故障实体概念补全任务的准确率提高了约10%,故障关系链接补全任务的命中率提高了约37%,验证了方法的有效性. 相似文献

13.

一种基于BERT的自动文本摘要模型构建方法

岳一峰黄蔚任祥辉《计算机与现代化》2020,(1):63-68

针对传统词向量在自动文本摘要过程中因无法对多义词进行有效表征而降低文本摘要准确度和可读性的问题,提出一种基于BERT(Bidirectional Encoder Representations from Transformers)的自动文本摘要模型构建方法。该方法引入BERT预训练语言模型用于增强词向量的语义表示,将生成的词向量输入Seq2Seq模型中进行训练并形成自动文本摘要模型,实现对文本摘要的快速生成。实验结果表明,该模型在Gigaword数据集上能有效地提高生成摘要的准确率和可读性,可用于文本摘要自动生成任务。相似文献

14.

基于多粒度交互推理的答案选择方法研究

金志凌朱鸿雨苏玉兰唐竑轩洪宇张民《中文信息学报》2023,(1):104-111+120

预训练语言模型已经广泛应用于不同自然语言处理任务，其蕴含的自注意力机制能够在“文本对子”之上形成统一的语义编码表示，从而使BERT模型的输入结构和运算模式理论上适用于处理“目标问题和候选答案”样本。然而，直接应用BERT等语言模型将面临两种局限性：(1)BERT并不侧重词块、短语和子句的独立语义信息表示，使得文本在匹配过程中往往错失不同颗粒度语义相关性的感知；(2)BERT中的多头注意力机制不能在不同粒度的语义结构之间计算交互强度(相关性)。针对上述问题，该文提出一种基于BERT的多粒度交互推理网络，该方法将问题与候选答案的语言信息进行多粒度语义编码，丰富了句子间的语义信息与交互性。此外，该文提出句子级的编码损失策略，借以提高编码过程对关键子句的加权能力。在WPQA数据集上的实验结果显示，该方法有效提高了非事实性问题的答案选择性能。相似文献

15.

基于多维信息融合的知识库问答实体链接

曾宇涛林谢雄靳小龙席鹏弼王元卓《模式识别与人工智能》2019,32(7):642-651

知识库问答实体链接任务需要将问句内容精准链接到知识库中实体.当前方法大多难以兼顾链接实体的召回率和精确率,并且仅能根据文本信息对实体进行区分筛选.因此,文中在合并子步骤的基础上,提出融合多维度特征的知识库问答实体链接模型(MDIIEL).通过表示学习方法,将文本符号、实体和问句类型、实体在知识库中语义结构表达等信息整合并引至实体链接任务中,加强对相似实体的区分,在提高准确率的同时降低候选集的大小.实验表明,MDIIEL模型在实体链接任务性能上具有整体性提升,在大部分指标上取得较优的链接结果. 相似文献

16.

基于BERT的中文简历命名实体识别

郭军成万刚胡欣杰魏展基《计算机应用》2021,41(z1):15-19

为了充分发掘中文简历数据中所蕴含的信息,提高构建社交网络知识图谱和档案知识图谱的实体丰富度,提出了基于BERT的中文简历命名实体识别技术.该技术模型首先通过BERT网络将大规模未标注文本生成具有语义特征的字符向量,接着通过嵌入条件随机场(CRF)的双向长短时记忆(BiLSTM)神经网络模型获取输入文本序列的上下文特征,解码标注提取出相应的8个实体类型.实验结果表明,该网络模型在个人中文简历数据集上取得了97.07％的平均F1值,可以运用于中文简历数据的实体识别任务. 相似文献

17.

基于预训练模型的文博数据命名实体识别方法

赵卓田侃张殊张晨吴涛姜丰游小琳《计算机应用》2022,(S1):48-53

在对文博数据进行知识图谱的构建时,从文本中抽取出有效的三元组尤为重要,因而命名实体识别成为挖掘文博数据的首要任务。传统的中文实体命名识别方法多采用深度神经网络模型,此类方法在对词进行向量化处理时只是将词映射成单一的词向量,并不能很好地表示词的多义性。预训练语言模型能够有效地对字进行向量化表示,将语义信息充分地结合。因此,针对文博数据提出一种基于BERT的预训练实体识别模型,采用BERT预训练模型进行词嵌入,通过利用双向长短期记忆网络（BiLSTM）模型结合上下文信息来增强词向量的语义信息,然后利用条件随机场（CRF）模型进行解码。与传统长短期记忆（LSTM）网络和BiLSTM-CRF模型相比,该模型在微软公开数据集（MSRA）以及自行标注文博知识数据集上表现突出,在文博知识数据集中,模型的准确率达到93.57%,召回率达到75.00%,F1值达到73.58%。相似文献

18.

基于BILSTM_CRF的知识图谱实体抽取方法

翟社平段宏宇李兆兆《计算机应用与软件》2019,36(5)

针对传统知识图谱实体抽取方法需要大量人工特征和专家知识的问题,提出一种基于BILSTM_CRF模型的神经网络结构实体抽取方法。它既能使用双向长短时记忆网络BILSTM(Bidirectional Long Short-Term Memory)提取文本信息的特征,又可利用条件随机场CRF(Conditional Random Fields)衡量序列标注的联系。该方法对输入的文本进行建模,把句子中的每个词转换为词向量;利用BILSTM处理分布式向量得到句子特征;使用CRF标注并抽取实体,得到最终结果。实验结果表明,该方法的准确率和召回率更高,F1值提升约8%,具有更强的适用性。相似文献

19.

基于BERT和BiLSTM-CRF的生物医学命名实体识别

许力李建华《计算机工程与科学》2021,43(10):1873-1879

在生物医学领域,以静态词向量表征语义的命名实体识别方法准确率不高.针对此问题,提出一种将预训练语言模型BERT和BiLSTM相结合应用于生物医学命名实体识别的模型.首先使用BERT进行语义提取生成动态词向量,并加入词性分析、组块分析特征提升模型精度;其次,将词向量送入BiLSTM模型进一步训练,以获取上下文特征;最后通过CRF进行序列解码,输出概率最大的结果.该模型在BC4CHEMD、BC5CDR-chem和NCBI-disease数据集上的平均F1值达到了89.45％.实验结果表明,提出的模型有效地提升了生物医学命名实体识别的准确率. 相似文献

20.

基于主题关系的中文短文本图模型实体消歧

马瑛超张晓滨《计算机工程与科学》2023,45(1):154-162

实体消歧作为知识库构建、信息检索等应用的重要支撑技术,在自然语言处理领域有着重要的作用。然而在短文本环境中,对实体的上下文特征进行建模的传统消歧方式很难提取到足够多用以消歧的特征。针对短文本的特点,提出一种基于实体主题关系的中文短文本图模型消歧方法,首先,通过TextRank算法对知识库信息构建的语料库进行主题推断,并使用主题推断的结果作为实体间关系的表示;然后,结合基于BERT的语义匹配模型给出的消歧评分对待消歧文本构建消歧网络图;最终,通过搜索排序得出最后的消歧结果。使用CCKS2020短文本实体链接任务提供的数据集对所提方法进行评测,实验结果表明,该方法对短文本的实体消歧效果优于其他方法,能有效解决在缺乏知识库实体关系情况下的中文短文本实体消歧问题。相似文献