首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 31 毫秒
1.
为了从海量文本中高效提取知识,提出了一种基于上下文关系和TextRank算法的中文文本关键词提取方法.首先使用传统方法提取出初始关键词,然后利用互信息筛选出在上下文中对关键词依赖程度大的词,将其作为候选关键词,最后利用TextRank算法计算出最能表达文本主题思想的特征关键词.实验结果表明,与传统方法相比,所提算法在查准率、查全率等相关指标上均有提高.  相似文献   

2.
军事领域非结构化文本中的大量目标实体往往包含丰富的军事信息和军事知识,对其准确识别是进行军事信息抽取和军事知识组织的基础性关键任务,也是构建军事知识图谱的重要环节.针对军事领域标注数据不足以及军事实体边界模糊的问题,提出基于预训练BERT模型的深度学习识别方法.利用BERT生成基于当前输入语境特征的动态字向量来增强字的...  相似文献   

3.
提出基于重启随机游走的实体识别和链接方法,在知识库部分实体构成的图结构中进行随机游走,从而获得实体和指称的分布式表示,并由此计算出相似度最高的实体作为链接实体.该方法在2015年Tri-Lingual Entity Discovery and Linking评测任务中的F值为0.665,高于其他参赛系统.实验结果表明,本方法可以有效克服特征稀缺问题,并减轻流行度差异对实验结果造成的影响.  相似文献   

4.
为解决英语命名实体链接问题,提出了一种基于上下文信息和排序学习的实体链接方法. 首先使用上下文信息对实体指称进行扩充,并在维基百科中检索候选实体列表;然后通过抽取实体指称与候选实体之间的各类特征,利用ListNet排序算法对候选实体列表进行排序,选出Top1的候选实体作为链接结果;最后对未找到候选的实体指称即NIL实体,通过实体聚类算法进行关联链接. 实验结果表明,该方法在KBP 2013实体链接数据集上的F值为0.660,比KBP 2013实体链接评测中所有参赛队伍的平均F值高0.092,比系统BUPTTeam2013的F值高0.162.  相似文献   

5.
命名实体识别是自然语言处理的核心任务。在基于深度学习的中文命名实体识别方法中,静态字向量无法表征字的多义性。针对该问题,提出了基于XLnet嵌入的中文命名实体识别方法。该方法首先通过XLnet(Generalized Autoregressive Pretraining for Language Understanding,XLnet)模型获取字级别的上下文表示。其次,利用BiLSTM-CRF模型获取文本依赖信息和标签信息。实验结果表明,该方法在人民日报、MSRA、Boson等3种数据集上分别达到91.9%、89.8%、74%的F1值,均高于其他主流的中文命名实体识别方法。  相似文献   

6.
关键词提取是文本挖掘领域中研究的核心技术之一.针对影响关键词提取质量的一词多义现象、同义词现象、文章主题准确全面表达的难点,提出了一种基于语义的关键词提取方法 KETCLC,将《同义词词林》语义词典和词汇链方法相结合,对文本分别作预处理、多义词词义消歧、同义词合并、词汇链构建、有效特征选取及对权重综合计算改进的处理,提取出的关键词不仅避免了同义词冗余表达,而且较准确全面地覆盖文本的主题.实验结果表明:基于KETCLC方法比基于TFIDF以及基于词汇链的方法具有较优的提取效果,具有一定的实际应用价值.  相似文献   

7.
针对中文医疗电子病历命名实体识别中,传统的字或词向量无法很好地表示上下文语义以及传统RNN并行计算能力不足等问题,提出了一个基于BERT的医疗电子病历命名实体识别模型。该模型中的BERT预训练语言模型可以更好地表示电子病历句子中的上下文语义,迭代膨胀卷积神经网络(IDCNN)对局部实体的卷积编码有更好的识别效果,多头注意力(MHA)多次计算每个字和所有字的注意力概率以获取电子病历句子的长距离依赖。实验结果表明,BERT-IDCNN-MHA-CRF模型能够较好地识别电子病历中的医疗实体,模型的精确率、召回率和F_1值相比于基线模型分别提高了1.80%,0.41%,1.11%。  相似文献   

8.
9.
提出了一种融合卷积神经网络和重启随机游走的实体链接方法.该方法首先对文本中的指称进行识别,然后生成指称的候选实体集,随后使用融合卷积神经网络和重启随机游走的实体链接方法对候选实体进行选择,最后对在知识库中无对应实体的指称进行聚类.该方法在TAC-KBP2016的实体识别与链接评测数据集上的FCEAFm值为0.652,2016年评测第1名的FCEAFm为0.643,实验结果表明,使用融合卷积神经网络和重启随机游走的实体链接方法能够有效地进行实体链接.  相似文献   

10.
为了消除文本中命名实体的歧义,提出了一种结合实体链接与实体聚类的命名实体消歧算法,结合2种方法,可弥补单独使用其中一种方法的局限. 该算法在背景文本中将待消歧实体指称扩充为全称,使用扩充后的全称在英文维基百科知识库中生成候选实体集合,同时提取多种特征对候选实体集合进行排序,对于知识库中没有对应实体的指称使用聚类消歧. 实验结果表明,该算法在KBP2011评测数据上的F值为0.746,在KBP2012评测数据上的F值为0.670.  相似文献   

11.
本文提出一种基于词频统计的关键词抽取方法。利用了TextTiling方法、遗传算法和"成对比较法"进行了算法优化。  相似文献   

12.
为了识别汉语实体,提出了利用模式匹配技术构造一个抽取模型。为了识别该模型的有效性,系统的测试语料采用Internet网上真实语料,语料全部来自新加坡联合早报,主要是新闻领域,经过开放测试,该系统识别实体召回率46.02%,准确率为52.94%。  相似文献   

13.
为了解决在抽取过程中出现的关系三元组重叠问题,提出了一种基于位置辅助标记的实体关系联合抽取模型,使用BERT作为预训练语言模型,并且通过位置辅助矩阵方法,将关系三元组抽取转换成实体和关系的匹配问题,实现实体和关系的联合抽取,在中文数据集DuIE上进行了相关实验。实验结果表明,该模型抽取效果较好,提出的基于位置的辅助标记方法有效解决了关系重叠问题。  相似文献   

14.
介绍了关键词抽取的相关工作,并对基于TFIDF的关键词抽取算法进行了分析。结合词语在文本中的分布均衡程度和首次出现位置等特征,提出了一种改进的TFIDF算法,并给出了相应的计算公式。在文档数量和文档平均长度不同的3个语料上进行了对比实验。实验结果表明,结合词语分布信息的TFIDF关键词抽取方法是可行和有效的。  相似文献   

15.
现有的基于复杂网络的关键词提取算法在构建加权文本网络时没有考虑文本的自然语言特性,且在提取关键词时较少涉及复杂网络领域经典算法。本文引入词频分享权重,利用词频特性为节点之间的连边加权。在此基础上,基于PageRank算法,并结合人类语言习惯特性定义位置权重系数,提出了一个新的新闻关键词提取算法——LTWPR算法,综合考虑了文本网络的局部特征和全局特征。采用新浪新闻语料进行了大量实验,结果表明该算法能够快速有效的覆盖新闻作者标注的关键词,且提取效果更佳。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号