首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
李贵  李征宇  陈韶刚  韩子扬  孙平  孙焕良 《计算机科学》2013,40(Z6):157-159,175
面向领域的Web数据挖掘包括领域Web数据抽取和领域Web数据集成。针对领域数据抽取,提出了Web结构数据模型和Web表模式,给出了Web表定位和数据记录抽取的算法,针对领域Web数据集成,提出了基于领域模型的数据集成算法。结合行业领域的实际需求,验证了模型和算法的有效性。  相似文献   

2.
数据集成包括数据的抽取、转换、加载三个过程。针对当前大多数据集成工具适应性差、源数据端和目的数据端的耦合度太紧和数据不易自动更新的问题,基于发布/订阅机制的消息代理模式提出了一种新型的数据集成体系结构,把数据集成划分为源数据处理(抽取转换)和目的数据处理(过滤加载)两个过程,不仅实现了数据的可靠异步传输,而且降低了源数据端和目的数据端的耦合度,增加了数据集成的灵活性,并使数据的抽取转换和过滤加载独立、并行执行。实验结果也证明了提出的数据集成方法有效地提高了数据集成的效率。  相似文献   

3.
为解决异构DeepWeb结果页面中数据区域及数据记录的自动抽取问题,提出一种基于DOM树与领域本体的Web抽取方法。利用数据内容特征以及领域本体库标记DOM树的节点,按照结果页面展示规律定位数据区域,根据改进的简单树匹配算法,定位数据区域及数据记录。实验结果表明,该方法定位数据区域及数据记录的F-measure值比传统的抽取方法高2.93%~6.67%。  相似文献   

4.
流程可定制本体匹配框架:RiMOM2   总被引:1,自引:0,他引:1  
李虎  张啸  仲茜  侯磊  王志春 《计算机科学》2011,38(4):151-158
本体作为语义Web中的语义表示形式,是语义Web体系结构中的核心元素,是实现知识共享、协同工作的关键。然而现实世界中本体自身与生俱来的分布性和异构性,又极大地限制了数据的共享与集成。为了实现知识的共享、数据的集成,近年来针对本体匹配方法的研究得到了广泛的重视。随着本体匹配研究的深入,许多有效的本体匹配方法被提出。RiMOM2正是一种集成了多种有效本体匹配方法的多策略本体匹配框架。它尽可能地向初级用户隐藏不必要的阂值设定和参数设置,而向高级用户提供匹配流程的可定制功能,以期针对不同用户实现一种既能适用于普遍本体匹配任务,操作简易,又能达到具有针对性匹配效果的本体匹配工具。同时该框架具有匹配方法组件的易扩展性。  相似文献   

5.
本文针对企业应用集成中数据集成模式的局限,提出了一种新型的基于构件和消息代理模式的数据集成方案.首先给出该数据集成方案的体系结构,然后对数据集成中的关键技术进行研究.本方案中的数据抽取、转换和加载部分都以构件的形式集成在系统中,使得数据的抽取、转换和加载可以独立、并行执行,加快了数据集成的效率;同时,在数据抽取过程当中运用消息代理模式,通过根据匹配元组的间隔自适应调整窗口大小,有效提高了快照差分算法的效率,并通过消息构件实现数据的可靠异步传输,增强了数据集成的灵活性.实验结果表明了本方案的有效性.  相似文献   

6.
基于本体的ETL设计研究   总被引:1,自引:0,他引:1  
吴飞  邢桂芬  邢玉萍 《计算机工程与设计》2007,28(7):1517-1519,1571
提出了一种基于本体的ETL设计方法,通过建立各数据源的局部本体和目标数据仓库的全局本体以及本体间的映射,得出以OWL表示的各数据源和目标的映射关系.用本体元数据指导数据抽取,转换和加载过程,解决数据源ETL过程中的语义异构问题,实现了企业数据语义程度的集成.  相似文献   

7.
基于实例的Deep Web数据源结果模式匹配技术   总被引:1,自引:0,他引:1       下载免费PDF全文
针对Deep Web数据源结果模式信息的匹配问题,提出了一种基于实例的结果模式匹配的方法。该方法能够匹配并验证数据源的结果模式属性信息,同时记录数据在结果页面中的结构信息。利用基于查询请求松弛的两段模式匹配方法精确地匹配模式属性,并基于模式属性间共现度信息来提高属性匹配的查全率和查准率。从实验结果分析可以看出,基于实例的方法能够有效地识别数据源模式信息,提高模式属性查全率和查准率。  相似文献   

8.
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术.针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果.充分体现了此Web包装器的可行性,并具有一定的高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成.  相似文献   

9.
针对目前在分布异构的大规模软件开发中难以高效地知晓信息和发现知识的问题,将语义网引入软件工程领域,对多源异构数据进行细粒度语义关联,提出本体构建、关联抽取和发现的方法,实现基于本体的软件工程关联数据的自动构建。该方法对软件工程本体进行概念抽取、合并、实例消解和属性消歧,从软件仓库结构化数据集中抽取出完整无冗余的关联数据;并采用同义词、动宾短语和结构关系三个特征利用自然语言处理(NLP)技术和信息检索(IR)技术从软件仓库中发现潜在的关联数据。实验结果表明,所提出的方法能从分布式软件工程数据集中自动构建和融合生成软件工程本体,并有效地发现潜在的关联数据将其扩充到软件工程本体中;与Baseline、Phraing和O-CSTI三种方法相比,关联数据发现的召回率、精准率和F值都有显著提高。  相似文献   

10.
针对电子商务数据异构的特点,研究用本体技术实现异构电子商务的集成平台.通过不同电子商务本体特征的挖掘和抽取,提出异构电子商务集成平台的本体模型构建方法.实现电子商务本体协同的"即插即用"互操作集成模型.  相似文献   

11.
This paper aims at to present the integration of the files of the Brazilian Cervical Cancer Information System (SISCOLO) in order to identify all women in the system. SISCOLO has the exam as the unit of observation and the women are not uniquely identified. It has two main tables: histology and cytology, containing the histological and cytological examinations of women, respectively. In this study, data from June 2006 to December 2009 were used. Each table was linked with itself and with the other through record linkage methods. The integration identified 6236 women in the histology table and 1,678,993 in the cytology table. 5324 women from the histology table had records in the cytology table. The sensitivities were above 90% and the specificities and precisions near 100%. This study showed that it is possible to integrate SISCOLO to produce indicators for the evaluation of the cervical cancer screening programme taking the woman as the unit of observation.  相似文献   

12.
Finding proximity information is crucial for massive database search. Locality Sensitive Hashing (LSH) is a method for finding nearest neighbors of a query point in a high-dimensional space. It classifies high-dimensional data according to data similarity. However, the “curse of dimensionality” makes LSH insufficiently effective in finding similar data and insufficiently efficient in terms of memory resources and search delays. The contribution of this work is threefold. First, we study a Token List based information Search scheme (TLS) as an alternative to LSH. TLS builds a token list table containing all the unique tokens from the database, and clusters data records having the same token together in one group. Querying is conducted in a small number of groups of relevant data records instead of searching the entire database. Second, in order to decrease the searching time of the token list, we further propose the Optimized Token list based Search schemes (OTS) based on index-tree and hash table structures. An index-tree structure orders the tokens in the token list and constructs an index table based on the tokens. Searching the token list starts from the entry of the token list supplied by the index table. A hash table structure assigns a hash ID to each token. A query token can be directly located in the token list according to its hash ID. Third, since a single-token based method leads to high overhead in the results refinement given a required similarity, we further investigate how a Multi-Token List Search scheme (MTLS) improves the performance of database proximity search. We conducted experiments on the LSH-based searching scheme, TLS, OTS, and MTLS using a massive customer data integration database. The comparison experimental results show that TLS is more efficient than an LSH-based searching scheme, and OTS improves the search efficiency of TLS. Further, MTLS per forms better than TLS when the number of tokens is appropriately chosen, and a two-token adjacent token list achieves the shortest query delay in our testing dataset.  相似文献   

13.
用Sql*forms3.0开发Oracle报表应用   总被引:3,自引:2,他引:1  
文章要说明的主要是在Sql*forms3.0中利用附加码进行主从结构报表的设计和开发的方法。该方法的目的是解决主从表结构中主码较多时从表域过多,以及主码项不能修改的问题。这个方法的主要特点在于利用一个附加的域作为主表和从表的唯一约束,每张报表产生一个唯一的值,从表的所有记录通过这个值来标识,而这个域的值的产生又比较容易。通过这一方法,在实际应用中较好地解决了主从表应用中的问题。  相似文献   

14.
许晖  徐鹏 《计算机科学》2005,32(10):16-19
表格作为结构化数据的一种最常用的表现形式,已被各个行业广泛应用在信息管理系统中.表格的自动生成和处理技术也成为应用信息系统设计和实现中的关键技术.随着Internet和Web技术的发展,Web与传统的数据库系统、文档管理系统结合在一起构成了巨大的、异构的、分布式的数据仓库.海量信息和异构信息的处理对表格的数据建模和处理技术提出了新的要求.针对现有技术在表格建模方面存在的模型结构简单,支持的表格类型有限和缺乏对集成异构数据源的支持等缺陷,本文在从设计和实现方面分析现有各种信息系统对表格处理技术的需求基础上,提出了一种面向数据绑定的新型表格建模方法以及相关技术,从而满足数据层和显示层在数据源类型、数据集成和组织方式等方面的多种需求.  相似文献   

15.
基于双目相机的图像拼接   总被引:1,自引:1,他引:0       下载免费PDF全文
吴锦杰  刘肖琳 《计算机工程》2010,36(12):209-212
提出一种基于双目相机的图像拼接方法,对安放在移动机器人上不同位置的2个相机在同一时刻所拍摄到的图像进行拼接,引入自适应的非极大值抑制技术,只在图像的重叠区域进行Harris角点检测,并结合小波变换和对极几何,对图像进行快速特征匹配。在图像融合中,构造一种非线性的过渡函数,使图像重叠区域之间的过渡更平滑。实验结果表明,与传统方法相比,该方法的效率更高。  相似文献   

16.
基于数据分组匹配的相似重复记录检测   总被引:1,自引:0,他引:1       下载免费PDF全文
周丽娟  肖满生 《计算机工程》2010,36(12):104-106
针对数据集成中相似重复记录的识别问题,提出一种数据特征属性优选分组的算法。通过计算特征属性的方差来确定某维属性的权值,基于数据分组思想选择权值大的属性,将数据集分割成不相交的小数据集,并在各小数据集中用模糊匹配算法进行相似重复记录的识别。理论分析和实验结果表明,该方法识别效率和检测精度较高。  相似文献   

17.
介绍用一个ASP程序实现多个数据表显示的方法,而且能够在表格中用表单的文本框形式来显示数据,使表格处于编辑状态,并实现一次性处理多条记录。  相似文献   

18.
Data integration methods enable different data providers to flexibly integrate their expertise and deliver highly customizable services to their customers. Nonetheless, combining data from different sources could potentially reveal person-specific sensitive information. In VLDBJ 2006, Jiang and Clifton (Very Large Data Bases J (VLDBJ) 15(4):316–333, 2006) propose a secure Distributed k-Anonymity (DkA) framework for integrating two private data tables to a k-anonymous table in which each private table is a vertical partition on the same set of records. Their proposed DkA framework is not scalable to large data sets. Moreover, DkA is limited to a two-party scenario and the parties are assumed to be semi-honest. In this paper, we propose two algorithms to securely integrate private data from multiple parties (data providers). Our first algorithm achieves the k-anonymity privacy model in a semi-honest adversary model. Our second algorithm employs a game-theoretic approach to thwart malicious participants and to ensure fair and honest participation of multiple data providers in the data integration process. Moreover, we study and resolve a real-life privacy problem in data sharing for the financial industry in Sweden. Experiments on the real-life data demonstrate that our proposed algorithms can effectively retain the essential information in anonymous data for data analysis and are scalable for anonymizing large data sets.  相似文献   

19.
PowerBuilder中图片存储功能的实现   总被引:3,自引:0,他引:3  
本文对PowerBuilder中将图片信息与数据记录一一对应地存储在数据表中的方法进行讨论。  相似文献   

20.
Recursive formulae for repeated integration of a continuous-time function with uniformly sampled data using Simpson's 1/3 and 3/8 integrating rules are derived. Combined with the recursive algorithm of the least-squares solution, a method for recursive parameter estimation of transfer function matrix models in multiple-input-multiple-output systems is proposed. It is demonstrated that the use of the popular integrating rules for parameter estimation can be as effective as sophisticated methods that use orthogonal functions and the associated operational properties reported in the literature. The proposed algorithm is suitable for on-line applications and computer programming. Three numerical examples are included to illustrate the applicability of the proposed method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号