首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 450 毫秒
1.
为了消除文本中命名实体的歧义,提出了一种结合实体链接与实体聚类的命名实体消歧算法,结合2种方法,可弥补单独使用其中一种方法的局限. 该算法在背景文本中将待消歧实体指称扩充为全称,使用扩充后的全称在英文维基百科知识库中生成候选实体集合,同时提取多种特征对候选实体集合进行排序,对于知识库中没有对应实体的指称使用聚类消歧. 实验结果表明,该算法在KBP2011评测数据上的F值为0.746,在KBP2012评测数据上的F值为0.670.  相似文献   

2.
提出了一种融合卷积神经网络和重启随机游走的实体链接方法.该方法首先对文本中的指称进行识别,然后生成指称的候选实体集,随后使用融合卷积神经网络和重启随机游走的实体链接方法对候选实体进行选择,最后对在知识库中无对应实体的指称进行聚类.该方法在TAC-KBP2016的实体识别与链接评测数据集上的FCEAFm值为0.652,2016年评测第1名的FCEAFm为0.643,实验结果表明,使用融合卷积神经网络和重启随机游走的实体链接方法能够有效地进行实体链接.  相似文献   

3.
提出一种基于BERT(bidirectional encoder representations from transformers)和TextRank关键词提取的实体链接方法。将BERT预训练语言模型引入实体链接任务,进行实体指称上下文和候选实体相关信息的关联度分析,通过提升语义分析的效果来增强实体链接的结果。采用TextRank关键词提取技术增强目标实体综合描述信息的主题信息,增强文本相似度度量的准确性,从而优化模型效果。使用CCKS2019评测任务二的数据集对模型效果进行验证,实验结果表明,所提方法的实体链接效果明显优于其他实体链接方法,能有效解决实体链接问题。  相似文献   

4.
提出基于重启随机游走的实体识别和链接方法,在知识库部分实体构成的图结构中进行随机游走,从而获得实体和指称的分布式表示,并由此计算出相似度最高的实体作为链接实体.该方法在2015年Tri-Lingual Entity Discovery and Linking评测任务中的F值为0.665,高于其他参赛系统.实验结果表明,本方法可以有效克服特征稀缺问题,并减轻流行度差异对实验结果造成的影响.  相似文献   

5.
针对细分领域实体识别所面临的实体规模受限、语料样本相对缺乏的挑战,提出了一种融合领域相关度与上下文信息的、无监督的窄域实体识别方法.首先,融合词频及上下文信息,设计了术语-语料库相关性假设,并利用对数似然比计算假设的可能性,获得候选实体的领域区分度;在此基础上,基于候选实体的中心词在语料库中的相对领域占比,构建领域依存度函数,识别候选实体的领域倾向性;最后,绑定领域区分度和领域依存度,计算候选实体的领域相关度,选择领域相关度大于阈值的候选实体作为被识别的窄域实体.实验结果表明:该方法在减少识别过程人工干预的同时能有效提升窄域实体识别的准确率.  相似文献   

6.
刘黎志    张威   《武汉工程大学学报》2017,39(5):508-513
使用MapReduce框架对规范的一对多关系实体进行连接操作时,一方实体的各个属性会在连接的结果中产生大量冗余. 通过对二次排序算法进行优化,重新定义Map阶段的分区过程、Shuffle阶段的排序及分组过程,使得Map阶段的输出为包含一方实体属性值和多方实体排序值的组合键及包含多方实体属性值的集合. Reduce阶段将组合键进行分解,提取一方实体的主码作为HBase表的行健,并将组合键中一方实体的各个属性值及多方实体属性值集合分别写入HBase表中对应的列,从而既实现了连接的语义,又消除了冗余. 实验证明,优化后的算法可以消除一方实体属性值在连接结果中的冗余,提高了对连接结果的查询效率.  相似文献   

7.
传统中文实体关系抽取方法大都采用基于共现实体对的上下文模型,这种模型会遗失很多潜在的实体关系,并且无法对相似的实体关系给出合理的描述信息。针对这一局限性,文章提出一种基于单实体的上下文语言模型。通过对文本集中的所有实体建立上下文语言模型,来计算实体之间的相似度以及上下文词汇的贡献度得分,从而发现相似度较高的实体对,并获得实体关系的描述信息。实验证明,与传统方法相比,本文方法能够发现更丰富的实体关系,描述信息也更加准确。  相似文献   

8.
基于排序正交上三角分解(QR)提出了一种新的列表V-BLAST检测方案,对第1层采用列表检测产生多个候选符号,当候选符号数等于星座大小时,提出了一种修正的排序QR分解算法,后续各层作连续干扰抵消检测,在得到的多组候选符号中做最小欧氏距离(MED)搜索,输出最佳组作为检测结果.分析和仿真表明,与现有算法相比该方案能以较低的复杂度获得很好的性能,当天线数目比较少(5以下)时性能接近于ML检测.为了进一步降低运算复杂度,提出了在MED搜索过程中设置门限的处理方式,并给出了一种门限值的选取方法.结果表明,该方法可以在保证性能损失很小的情况下使运算量减少一半以上.  相似文献   

9.
命名实体识别是自然语言处理的核心任务。在基于深度学习的中文命名实体识别方法中,静态字向量无法表征字的多义性。针对该问题,提出了基于XLnet嵌入的中文命名实体识别方法。该方法首先通过XLnet(Generalized Autoregressive Pretraining for Language Understanding,XLnet)模型获取字级别的上下文表示。其次,利用BiLSTM-CRF模型获取文本依赖信息和标签信息。实验结果表明,该方法在人民日报、MSRA、Boson等3种数据集上分别达到91.9%、89.8%、74%的F1值,均高于其他主流的中文命名实体识别方法。  相似文献   

10.
针对基于规则的信息抽取技术提出了一种互激励实体验证算法.该算法兼顾了信息抽取过程中互激励算法的优点,并在此基础上引入了实体等待队列,用于存储未被成功验证的实体,并以最大Jaccard相似度为原则进行实体验证.实验结果表明,将该算法应用在基于规则的参考文献命名实体抽取中,其抽取的准确率要比SermeX系统高约15%,比Para Tools系统高约40%.  相似文献   

11.
中文电子病历数据专业性强,语法结构复杂,用于自然语言处理(NLP)的命名实体识别(NER)难度大。为了从电子病历数据中精确识别出医疗实体,提出了一种融合语义及边界信息的命名实体识别算法。首先,利用卷积神经网络(CNN)结构提取汉字图形信息,并与五笔特征拼接来丰富汉字的语义信息;然后,利用FLAT模型中的Lattice将医学词典作为字符潜在词组匹配文本信息;最后,将融入语义信息的Lattice模型用于中文电子病历命名实体识别。实验结果表明,该方法在Yidu-S4K数据集上的识别性能超过现有多种算法,且在Resume数据集上F1值可达到96.06%。  相似文献   

12.
基于自扩展与最大熵的领域实体关系自动抽取   总被引:2,自引:2,他引:0  
实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定阈值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56%和81.17%。实验结果表明:在人工干预较少的情况下,加入实体对间的语义词汇能有效提高抽取效果。  相似文献   

13.
为了增加新闻推荐的辅助信息并提高预测精度,提出基于Transformer和知识图谱的新闻推荐方法.为了结合新闻语义信息和实体信息,利用自注意力机制获取新闻单词之间和新闻实体之间的联系,采用加法注意力机制捕捉单词和实体对新闻表示的影响.考虑到用户对新闻的偏好具有时序性特点,引入Transformer以捕捉用户点击新闻间的关联信息及用户兴趣随时间的变化情况.利用知识图谱中的高阶结构信息,融合候选新闻邻接实体,提升候选新闻嵌入向量所含信息的完整性.在2个版本的MIND新闻数据集上与5个典型推荐方法的对比实验表明,注意力机制、Transformer和知识图谱的引入提高了算法在新闻推荐方面的表现.  相似文献   

14.
为了改善通用预训练模型不适应医疗领域的命名实体识别任务这一不足,提出了一种融合医疗领域知识图谱的神经网络架构,该架构利用弹性位置和遮盖矩阵使预训练模型计算自注意力时避免语义混淆和语义干扰,在微调时使用多任务学习的思想,利用回忆学习的优化算法使预训练模型均衡通用语义表达和目标任务的学习,最终得到更为高效的向量表示并进行标签预测。实验结果表明:本文提出的命名实体识别架构在医疗领域上取得了优于主流预训练模型的效果,在通用领域也有较为良好的效果。该架构避免了重新训练针对某个领域的预训练模型和引入额外的编码结构从而精简了计算代价和模型大小。此外,通过消融实验对比,医疗领域对于知识图谱的依赖程度较通用领域依赖程度更大,这说明在医疗领域中融合知识图谱方法的有效性。通过参数分析,证明本文使用回忆学习的优化算法可以有效控制模型参数的更新,使模型可以保留更多的通用语义信息并得到更符合语义的向量表达。本文也通过实验分析说明了所提方法在实体数量少的种类上具有更优的表现。  相似文献   

15.
基于异构信息网络(heterogeneous information networks, HIN)中元图的良好表征特性,提出一种结合隐式反馈和PathSim(meta path-based similarity)的归一化相似性度量(normalized similarity measure of meta graph, NSMG),以解决对异构信息网络中高度可见实体的偏好问题。针对Yelp和Amazon数据集构建Yelp-HIN(heterogeneous information networks in Yelp)和Amazon-HIN(heterogeneous information networks in Amazon),定义不同类型的元图及归一化相似度量,使用矩阵分解和因子分解机来组合计算不同元图上的相似性。试验结果表明,基于NSMG的方法在非常稀疏的数据集上性能表现优于常用的HIN实体推荐方法。  相似文献   

16.
提出了一种基于选择机制的实体间最信任路径发现算法.该算法采用动态规划思想,同时利用乘关系特点和信息反馈,在计算信任路径过程中可过滤掉无关路径,解决了恶意实体干扰问题、信任路径数目爆炸问题以及回路问题.仿真结果显示,本算法能有效隔离恶意实体,同时具有通信量小,收敛性好的优点.  相似文献   

17.
针对开放文本中中文实体关系抽取的一词多义问题,提出一种基于实体消歧的中文实体关系抽取方法。首先,从知网中挖掘出具有潜在语义关系的实体对,并利用贝叶斯分类的语义消歧方法实现从知网到维基百科的实体映射,以获取高质量的关系实例;然后,根据这些关系实例抽取出其对应文本中共现的句子实例,构建基本的抽取模式;最后通过模式合并的方法生成新模式,再使用新模式来抽取新实例。实验结果表明,该方法与没有进行语义消歧和模式合并的方法相比准确率有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号