首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 703 毫秒
1.
数据空间中一种灵活的集合式实体识别框架   总被引:1,自引:0,他引:1  
数据空间是一个异构、动态的环境,具有随时间演化的特性.针对数据空间中随时间演化的、彼此间具有相互关联关系的大量异构实体,提出一个灵活的、基于演化的集合式实体识别框架TE-CER.TE-CER在实体识别过程中考虑时间信息和演化的影响,提出基于时间的blocking算法T-blocking和基于时间演化的聚类算法TE-Clustering.TE-Clustering聚类算法考虑了演化对实体相似度的影响,在相似度度量中引入属性演化系数和关联关系演化系数;在聚类过程中引入簇的时间约束.并且TE-CER提出基于识别顺序依赖图来确定集合式实体识别的识别顺序的策略,这样一种实体的识别结果可以用来后续另一种相关联实体的识别证据,以提高识别的准确率.在真实数据集上的大量实验结果表明所提出方法的有效性.  相似文献   

2.
实体识别是将一个或多个数据源中描述同一现实世界实体的数据对象分到同一组的过程,它 在数据清洗、数据集成、数据挖掘中起着至关重要的作用。然而,实体的特征具有随时间演化的特性,这使得实体识别面临巨大的挑战。传统的实体识别方法解决了特征随着时间规律性的改变问题,但没有考虑到数据的不规律变化。该文提出了基于分类的方法解决特征不规律演化的实体识别问题。该方法首先利用机器学习中改进的随机森林的方法计算记录的相似性,接着提出了一个新型的两阶段 聚类算法完成记录聚类过程,最后通过在真实数据集上的对比试验证明了该算法的有效性。通过在真实数据集上的实验,证明了该方法能够有效提高演化实体的识别准确性。  相似文献   

3.
杨丹  陈默  王刚  孙良旭 《计算机科学》2017,44(3):215-219
已有的传统的实体识别技术大多是以线下、非实时的方式,在静态数据集上进行,对于大数据集的执行通常需要大量的时间和系统资源。对于异构信息空间中具有时间信息、不断演化的异构实体来说,时间感知的查询时实体识别与数据融合越来越成为一种保证数据质量和满足用户需求的发展趋势。针对异构信息空间中使用时间上下文的关键字查询进行的实体搜索,提出一种时间感知的查询时实体识别与数据融合方法TQ-ER,以给用户提供准确的实体概貌(entity profile);提出一种迭代式时间感知的实体候选集生成算法。TQ-ER充分利用查询的时间上下文和实体的时间信息给正确的回答一个给定查询所需要的、最少的实体数据,以进行识别与数据融合。在真实数据集上的大量实验结果表明了TQ-ER的有效性和正确性。  相似文献   

4.
杨丹  陈默  王刚  孙良旭 《计算机科学》2017,44(5):189-192, 205
随着实体搜索成为信息检索的一种新趋势,实体推荐也成为业界和学术界的热门研究问题之一。异构信息空间中的异构实体间彼此相互关联,因此跨类型实体推荐至关重要。此外,异构实体具有时间信息,异构信息空间中的实体不断随时间演化,用户希望得到在时间上最相关的实体推荐。提出一个时间感知的跨类型实体推荐框架T-ERe,利用异构实体间丰富的关联关系和查询日志实现跨类型的实体推荐。T-ERe考虑实体的时间信息和查询的时间上下文, 给用户推荐时间上最相关的多种类型的实体。在真实数据集上的实验结果表明了T-ERe的可行性和有效性。  相似文献   

5.
随着2022年冬奥会的到来,冬奥会新闻数据急剧增加.从冬奥会新闻数据中提取实体并进行可视化,对研究冬奥会进度具有重要作用.针对冬奥会新闻数据实体识别问题,提出基于BERT-BiLSTM-CRF命名实体识别模型.根据实体识别结果,从时间和空间两方面分析冬奥会新闻文本数据,可视化地展示此次冬奥会的相关信息.在时间维度,通过...  相似文献   

6.
杨丹  陈默  申德荣 《计算机科学》2017,44(2):112-116
异构信息空间中的实体和关联关系普遍具有时间信息、多种时间版本的实体数据共存,而传统的实体集成忽略了时间信息,不支持时间维度上的集成。提出一种异构信息空间中时间感知的实体集成框架T-EI,从大量异构实体数据中聚集事实形成干净的、完整的、具有时间信息的实体概貌,进而支持时间感知的实体搜索。T-EI利用实体及关联关系所具有的时间信息提出时间感知的实体识别算法,并通过考虑数据时效性提出时间感知的数据融合算法。在真实数据集上的实验结果表明了T-EI的可行性和有效性。  相似文献   

7.
杨丹  陈默  孙良旭  王刚 《计算机科学》2015,42(4):147-150
面对异构信息空间中具有时间信息的大量相互关联的异构实体数据如作者、论文、产品、电影等,提出一个以实体及关联关系为中心的多层的时态数据模型,即多层的时态实体关联网络MTE-Network,它能有效捕捉异构实体和关联关系的时间信息.基于此时态数据模型,提出了实体搜索的多模态融合的查询模型,其支持用户搜索异构信息空间中的任何类型的实体及相关实体,支持在实体级、实体聚类级和时间轴上的实体搜索,并且满足用户多模态融合实体搜索的信息需求.在真实数据集上的实验结果证明了该时态数据模型和查询模型的可行性和有效性.  相似文献   

8.
信息集成中的实体识别解决方案   总被引:1,自引:0,他引:1  
分析了实体识别过程中存在的问题,并在基于本体的语义信息集成中模式异构和上下文异构已经得到解决的基础上,提出一个基于两阶段特征向量处理的解决方案来提高分布环境下实体识别的效率.最后针对实体识别中比较函数主要考虑英文字符串特点导致中文字符串精度较低的特点设计了一个基于公共子串的比较函数,实验证明该函数与基于编辑距离的比较函数比较,具有更高的查全率、查准率和更低的时间复杂度.  相似文献   

9.
针对在试油气井控专业领域的命名实体识别任务中,由于没有足够的特征标注数据,使得传统通用领域模型无法高效地进行专业的试油气井控专业领域的命名实体识别的问题,提出了一个基于主动学习方法的试油气井控专业领域命名实体识别模型。该模型首先采用对BERT模型进行的条件预训练,在获取名词向量特性信息后进入双向长短期记忆网络(BiLSTM)中,然后再将输出的特征信息经过条件随机场(CRF)对序列标签的相关性进行约束,最后采用主动学习的方法,筛选出合格的样本进行自动标注后放入已标注数据集中,增加训练样本。实验结果表明在多次迭代训练后,该模型可以在少量标注数据的基础上获得较好的命名实体识别效果并获得较高的命名实体识别准确率。  相似文献   

10.
针对现有命名实体识别方法主要考虑单个句子内的上下文信息,很少考虑文档级上下文影响的问题,文中提出基于机器阅读理解的中文命名实体识别方法,利用阅读理解思想,充分挖掘文档级的上下文特征,支撑实体识别.首先,针对每类实体,将实体识别任务转化为问答任务,构建问题、文本及实体答案三元组.然后,将三元组信息通过双向Transformer编码器进行预训练,再通过卷积神经网络捕捉文档级文本上下文信息.最后通过二进制分类器实现实体答案预测.在MSRA、人民日报公开数据集和自建数据集上的命名实体识别对比实验表明,文中方法性能较优,阅读理解思想对实体识别具有较好的作用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号