共查询到20条相似文献,搜索用时 109 毫秒
1.
《计算机科学与探索》2016,(9):1310-1319
实体关系抽取是指从无结构的自然语言文本中抽取实体之间的语义关系,并以结构化的形式表示出来。传统的实体关系抽取方法只注重一种特定类型的数据源,并需要标注大量的训练数据来训练抽取模型,人工成本高。因此提出了一种综合多种数据源,并结合规则推理引擎的实体关系抽取方法,准确地说就是综合结构化和非结构化两种数据源,在结构化数据提供少量种子的情况下用规则推理引擎推理出更多的实体关系。然后使用远程监督学习方法从无结构的文本中抽取实体关系,通过多次迭代获得最终的实体关系。实验结果证明了该方法的有效性。 相似文献
2.
异构数据源间的模式匹配技术是数据共享应用设计的基本步骤。提出了一种新型的模式匹配方法——基于数据源信息语境的复杂模式匹配方法,它采用考虑数据源的信息语境来计算复杂匹配,能够有效地解决复杂匹配时产生的候选匹配查询空间过大的问题。该方法首先从数据源的信息语境中抽取复杂概念,并将抽取的复杂概念添加到原有数据源中,然后通过模式匹配模块计算数据源间的概念匹配。实验表明,该方法不仅能大大降低候选匹配查询空间的规模,而且能够提高模式匹配的查全率和查准率。 相似文献
3.
基于知识的多数据源DSS的数据抽取技术研究 总被引:3,自引:0,他引:3
目前DSS的研究主要侧重于DSS的结构、解决问题的方法和模型库系统等方面,对多数据源情况下的DSS数据系统研究还不多,本文提出一种基于知识的多数据源DSS的数据抽取技术,通过各数据源属性的描述和数据转换检测规则的表示,由处理机实现对多数据源数据的抽取。 相似文献
4.
5.
何俊杰 《数字社区&智能家居》2007,(19)
本文主要针对目前安全事件管理系统中安全事件信息抽取的问题,提出了基于XML语言的安全事件信息和抽取方法描述的数据抽取框架DS_XML,该框架可以实现跨平台的,分布式的安全事件信息抽取,从而为安全事件管理系统提供可靠的安全事件信息数据源. 相似文献
6.
ETL系统的设计和实现技术研究 总被引:2,自引:0,他引:2
何晨钢 《计算机应用与软件》2009,26(4)
ETL系统是构建数据仓库过程中极其重要的部分.以ETL基本原理和标准出发,从实践角度设计ETL系统的模型框架,包括调度和抽取模型,其中抽取模型是采用抽取-传输-缓冲-合并的方法,有效地解决了异构数据源抽取问题.在以保险行业为背景的项目中进行了应用,并取得较好的效果. 相似文献
7.
Deep Web数据源聚类与分类 总被引:1,自引:0,他引:1
随着Internet信息的迅速增长,许多Web信息已经被各种各样的可搜索在线数据库所深化,并被隐藏在Web查询接口下面.传统的搜索引擎由于技术原因不能索引这些信息--Deep Web信息.本文分析了Deep Web查询接口的各种类型,研究了基于查询接口特征的数据源聚类方法和基于聚类结果的数据源分类方法,讨论了从基于规则与线性文档分类器中抽取查询探测集的规则抽取算法和Web文档数据库分类的查询探测算法. 相似文献
8.
传统的信息集成虚拟方法通常采用Wrapper技术实现结构化异构数据的抽取。针对Wrapper与结构化异构数据源间一对一关系的非灵活性,提出了一种基于公共仓库元模型CWM(Common Warehouse Metamodel)的信息集成架构,利用CWM独立于任何具体实现的优势,在其基础上生成的Wrapper程序可以很好地适用于与之相关的所有结构化异构数据源的抽取。CWM元模型所提供的统一文档类型定义(DTD),使结构化异构数据源拥有了统一的XML表达方式,从而使抽取后的信息可以进行更有效的共享和转换。 相似文献
9.
基于本体的ETL设计研究 总被引:1,自引:0,他引:1
提出了一种基于本体的ETL设计方法,通过建立各数据源的局部本体和目标数据仓库的全局本体以及本体间的映射,得出以OWL表示的各数据源和目标的映射关系.用本体元数据指导数据抽取,转换和加载过程,解决数据源ETL过程中的语义异构问题,实现了企业数据语义程度的集成. 相似文献
10.
11.
WEB数据集成系统中元数据的管理 总被引:4,自引:0,他引:4
在WEB数据集成系统中,对数据源元数据进行有效管理是实现WEB数据集成系统的关键。本文提出了利用XMLSchema设计元数据字典(MDD)的通用模型,依此模型实现对各数据源元数据的有效管理,并进一步分析在模式集成中常见异构性的解决方法。 相似文献
12.
13.
数据中心是云计算的核心,而当前基于电交换器、传统多级交换网络、集中放置与管理的数据中心架构无法满足未来云服务对高性能数据中心在可生存性、高可用性与设计灵活性等方面的要求。以网络可生存性和最小化网络代价为目标,针对数据中心的放置、服务路由及保护进行联合优化设计。首先通过设计ILP获取最优解。该ILP集成了p-cycle、服务量备份以及快速重路由等思想,分别针对单个链路或单个服务器损坏进行快速保护。然后进一步给出一种启发式算法,该算法包含数据中心的放置及服务路由和快速保护两大步骤。ILP和启发式两种方法最终都通过广泛的仿真实验进行了验证。 相似文献
14.
数据仓库系统中源数据的提取与集成 总被引:12,自引:0,他引:12
人们对数据分析的要求的不断提高导致了数据仓库的发展,而在建设数据仓库的过程中非常关键的一步就是从事务数据库或其它的数据源中抽取和集成原始数据。本文在对数据集成方法和数据获取中可能碰到的问题进行全面分析的基础上,较为详细地介绍了我们自行开发的数据仓库系统SEUwarehouse中源数据提取与集成工具的设计与实现. 相似文献
15.
基于GML-XML的多源异构空间数据互操作引擎研究 总被引:6,自引:0,他引:6
在分析了OpenGIS规范和GML1.0规范之后,文章根据空间信息服务的需要扩展了GML1.0的XMLDTD定义,根据扩展后的DTD应用体系成功地开发了一种基于GML-XML的多源异构空间数据互操作引擎,讨论了其结构和功能。该引擎支持OpenGIS技术框架内的空间数据互操作,提供强大的空间服务命令分析功能。使用这种引擎技术,空间信息用户不仅能够进行数据层次的互操作,而且利用其提供的API还可以很容易地开发出自己的空间服务系统。 相似文献
16.
网络的普及和电子商务的发展改变了人们信息获取以及消费的方式.Web已经成为大多数人获取信息的重要来源.与此同时,互联网信息质量问题也逐渐凸显.Web中存在大量过时、错误、虚假、片面的信息.其中,不同网站为相同对象提供冲突信息的问题尤为突出.如何从这些冲突信息中找到正确信息成为亟待解决的问题,这类问题又被称为真值发现问题.通过对现有真值发现问题解决方法的调研,发现现有方法均未考虑数据源分类可信性差异对真值发现的影响.因此,提出基于数据源分类可信性的真值发现问题.提出2种方法探测数据源分类可信性差异,并采用贝叶斯的方法迭代计算数据源分类可信性和属性值准确性.另外,通过考虑数据源覆盖率和对象难度对真值发现的影响,进一步提高真值发现算法的准确性.一个真实数据集的实验结果表明,所提方法可以显著提高真值发现的准确性. 相似文献
17.
半结构化数据查询的处理和优化 总被引:9,自引:0,他引:9
半结构化数据的特点是数据的结构不规则或不完整,其模型都基于带根有向图,因此,查询处理过程本质上是对图的搜索过程.另外,通配路径使查询处理更加复杂化.文章详细介绍了异构数据源集成系统Versatile中采取的半结构数据OIM(model for object integration)对象的查询和优化策略,包括查询计划的生成、路径扩展和路径索引、层次索引和基于数据源知识这3种查询优化方法.文章介绍的方法同样适用于其他的半结构化数据模型. 相似文献
18.
问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据质量问题,通过文献调研和访谈,并基于自有经验对数据进行分析,总结出了9种数据质量问题,覆盖了数据产生、数据收集和数据使用这3个不同的阶段.进一步地,提出了相应的方法以帮助发现和解决数据问题.发现问题是指加强对数据上下文的理解和通过统计分析及数据可视化发现潜在的数据质量问题,解决问题是指利用冗余数据或者挖掘用户行为模式进行修正. 相似文献
19.
20.
异构数据源的集成与访问 总被引:2,自引:1,他引:2
1 引言近年来,Internet/Web技术和计算机硬件的迅速发展对数据库研究领域产生了巨大的影响,提出了新的挑战性问题:一是如何使数据库系统和技术成为Web的有机组成部分,而不仅仅充当Web体系的外围角色;二是如何实现Web动态信息的管理,完成日益增多的新一代Web应用等。人们已认识到Web正在逐渐成为全球性的自主分布式计算环境,Web上的多数站点都具有丰富的数据资源。如果能够把遍及全球的Web数据源集成起来,Web将成为一个全球统一的数据库,由全世界共享。然而Web数据源的集成并非易事,数据源的异构问题是影响Web数据源集成的最大障碍。Web数据源的异构问题主要包括三个方面:第一是模式异构,表现在不 相似文献