共查询到20条相似文献,搜索用时 15 毫秒
1.
数据空间是一个异构的环境,并且数据及模式具有随时间演化的特性。已有的实体识别技术很少考虑时间信息在识别中所起的作用,并且没有考虑实体随时间演化的特性。针对数据空间中具有时间信息的实体识别,提出了一个四阶段的时间为中心的集合实体识别策略(time-centered collective entity resolution,T-CER)。T-CER在实体识别过程的不同阶段都考虑了时间信息所起的作用,在识别阶段提出了基于时间的聚类算法(time-based clustering,T-Clustering),并使用基于时间的约束对识别结果进行检查,以获得更精确的识别结果。在真实数据集上的大量实验结果表明了T-CER的可行性和有效性。 相似文献
2.
已有的传统的实体识别技术大多是以线下、非实时的方式,在静态数据集上进行,对于大数据集的执行通常需要大量的时间和系统资源。对于异构信息空间中具有时间信息、不断演化的异构实体来说,时间感知的查询时实体识别与数据融合越来越成为一种保证数据质量和满足用户需求的发展趋势。针对异构信息空间中使用时间上下文的关键字查询进行的实体搜索,提出一种时间感知的查询时实体识别与数据融合方法TQ-ER,以给用户提供准确的实体概貌(entity profile);提出一种迭代式时间感知的实体候选集生成算法。TQ-ER充分利用查询的时间上下文和实体的时间信息给正确的回答一个给定查询所需要的、最少的实体数据,以进行识别与数据融合。在真实数据集上的大量实验结果表明了TQ-ER的有效性和正确性。 相似文献
3.
4.
5.
提出了一种数据空间中的命名实体集成模型(NEIM)及其在异质异构数据源中的集成方法。命名实体模型描述了数据源、实体与实体描述间的关系,能够实现从其中任意一个息查询到其它相关信息。命名实体的集成架构指出了数据空间中命名实体集成要完成的主要任务,包括命名实体的识别、实体的集成映射和实体的统一。集成算法描述了数据空间中异构数据源包含的命名实体及其描述信息的集成方法。针对结构化半结构化数据,它采取构建映射规则,使系统可以在后期持续集成这些数据源中的实体信息,实验验证了集成方法的构建映射规则的有效性。 相似文献
6.
复杂数据上的实体识别技术研究 总被引:4,自引:0,他引:4
复杂数据当前有着广泛的应用.有效地使用复杂数据需要对其质量进行管理.实体识别是数据质量管理的基本操作,用于在数据集合中发现同一实体的不同描述,其在数据质量管理中可以用于错误检测、不一致数据发现等.由于包含复杂的结构信息,复杂数据上的实体识别与传统文本和关系数据上的实体识别不同,带来了新的技术上的挑战.该文介绍了复杂数据... 相似文献
7.
数据空间中数据模型及实体关联关系挖掘的研究 总被引:2,自引:0,他引:2
数据模型的研究是目前数据空间中研究的主要问题之一,是数据空间管理系统提供其它服务的基础.由于数据空间中多种异构性数据资源的共存和松散连接的特点,有必要提出一个有效、简单而且通用的数据模型来描述和管理这些数据.本文提出了分层的图数据模型lgDM来描述数据空间中的各种数据并捕捉实体间和实体类间的语义关联信息;并给出了实体关联关系挖掘的不同策略和对图加权重的方法.lgDM具有较好地通用性和扩展性,实验结果表明所提出模型的可行性和有效性. 相似文献
8.
当前电子商务商品实体算法无法适应具有多源异构性质的电子商务大数据背景,因而研究了大数据背景的电子商务商品实体识别算法,利用分布式处理的基础架构Hadoop平台中的Map-Reduce执行引擎实现大数据任务处理,通过Hadoop平台的Map阶段合并处理同样模式关系相同值;利用Hadoop平台的Reduce阶段比较输入值与... 相似文献
9.
针对企业命名实体的识别任务的过程复杂、学科交叉、实时性差等难点,提出了一种基于并行子空间优化的方法.首先,建立系统的目标-约束方程完成系统级优化;其次,再通过构建文字检测、文字识别两级模型,并考虑现存不同模型的优缺点进行模型选择的方法对涉及学科进行并行优化;随后,再使用图像阈值、灰度化、霍夫变换等算法构建两级模型的衔接;最后,通过仿真实验,验证了本文方法相比其他两级文字检测识别模型的识别准确率提高了9%,推理速度提升约20%. 相似文献
10.
一种基于语义及统计分析的Deep Web实体识别机制 总被引:1,自引:0,他引:1
分析了常见的实体识别方法,提出了一种基于语义及统计分析的实体识别机制(deep Web entity identification mechanism based on semantics and statistical analysis,简称SS-EIM),能够有效解决Deep Web数据集成中数据纠错、消重及整合等问题.SS-EIM主要由文本匹配模型、语义分析模型和分组统计模型组成,采用文本粗略匹配、表象关联关系获取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义信息及约束规则来不断精化识别结果;根据可获取的有限的实例信息,采用静态分析、动态协调相结合的自适应知识维护策略,构建和完善表象关联知识库,以适应Web数据的动态性并保证表象关联知识的完备性.通过实验验证了SS-EIM中所采用的关键技术的可行性和有效性. 相似文献
11.
很多领域都面临实体识别问题,但现有解决框架缺乏通用性。提出了一种基于属性模式的领域无关的实体识别框架。属性的模式代表属性与实体的一种关系,将模式分为四种类型分别处理,针对类型特点提出了更为通用的相似度计算方法。系统根据模式类型决定相似度计算策略,使系统具有更强的扩展性。该框架可以有效综合利用各类属性的特点进行实体识别,结果优于一般的基于属性特征或基于实体关系的方法。 相似文献
12.
针对目前从开源数据中挖掘结构化数据存在的数据繁复,新词多等问题,提出了一种命名实体识别的方法.该方法将文本进行实体规范、去停用词和加入词典特征等数据预处理后形成的信息作为输入,通过BiLSTM-CRF算法实现命名实体的识别.最后通过三种不同的语料对该方法进行了验证,实验结果表明了融合领域特征的命名实体识别达到了91.6... 相似文献
13.
14.
15.
随着XML文档的广泛应用,使用实体识别技术对XML文档数据质量进行管理变得非常重要。 XML中实体识别技术主要用于在XML文档中发现同一实体的不同描述,其在数据质量管理中可以用于错误检测、数据集成等。由于XML文档是半结构化的, XML文档上的实体识别与纯文本和关系数据上的实体识别有着很大不同。文中介绍了XML文档上实体识别的概念和应用,分别讨论了 XML文档上几种实体识别技术的概念和原理,给出了相应的树匹配算法,最后得出结论并展望了未来的研究方向。 相似文献
16.
近年来,我国高校因学业问题无法顺利毕业的学生数量逐年上升,给高校教学管理工作带来极大压力。利用知识图谱技术快速自动解答学业困惑成为亟待解决的重要问题。实体精准识别可有效提取学业管理文本中的关键信息,但该领域尚未存在公开适用的标注数据集,因此开展面向具有普遍性和通识性的高校学业命名实体识别数据集变得极为迫切。依据学业管理专家的领域知识,对某高校13万余字学业文本制定了8类学业数据构建标准,并根据构建标准以及文本特性完成了标注工作。将BiLSTM-CRF等4种识别模型在公开数据集和构建数据集上进行实验测试,结果表明构建的数据集可以应用于高校学业领域的命名实体识别任务,构建方法具有普适性,而且分类标注后的数据集识别效果相较未分类数据集有明显提升,进一步验证了该分类标准的有效性。 相似文献
17.
18.
一种采用多传感器数据融合的目标识别框架 总被引:4,自引:0,他引:4
利用Demtpster-Shafer理论进行目标识别并提出了一种战场平台识别的框架。该框架采用模糊方法来解决基本概率分布问题,并利用递推集中化结构来进行时空信息融合。为增加推理过程的鲁棒性和效率,提出了一种解决矛盾的新策略。初步实验表明该框架是有效的,并值得进一步探讨。 相似文献
19.
《计算机科学与探索》2017,(7):1044-1055
命名实体识别任务能够搭建知识库与自然语言之间的桥梁,为关键字提取、机器翻译、主题检测与跟踪等研究工作提供支撑。通过对目前命名实体识别领域的相关研究进行分析,提出了一套通用的命名实体识别优化方案。首先,设计并实现了利用候选集的增量式扩展方法,降低了对训练集的依赖性;其次,通过点互信息率对实体上下文进行特征选择,大幅度降低了上下文空间,同时提高了标注性能;最后,提出了基于主题向量的二次消歧方法,进一步增强了标注准确率。通过在广泛使用的开源命名实体识别系统DBpedia Spotlight上进行多种比较实验,验证了所提优化方案与已有系统相比具有较优的性能指标。 相似文献
20.
空间实体的存在会对空间聚类结果产生重要的影响。传统的空间聚类算法通常没有考虑空间实体的约束作用,很难保证聚类结果的真实性。针对空间约束中的障碍约束和便利约束,本文提出了一种改进的基于空间拓扑相邻关系的密度聚类算法CD—DBSCAN。该算法充分利用空间对象间的拓扑相邻关系,既考虑了空间障碍的阻隔作用,又兼顾了空间便利的连通作用。聚类结果研究表明,该算法能够有效地挖掘出约束条件下的数据集的聚集特征。 相似文献