首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 133 毫秒
1.
信息集成研究综述   总被引:21,自引:0,他引:21  
信息集成所要解决的问题是把位于不同的异构信息源上的数据合并起来,以便为用户提供一个这些数据的统一视图。在当前的实际应用中,设计信息集成系统很重要,并且已经成为数据库领域的研究热点。本文对这一领域的研究做了综述,包括信息集成的方法、逻辑框架、查询处理,以及Web上半结构化数据的集成。最后,对将来的研究主题进行了展望。  相似文献   

2.
在信息和服务迅猛增长的Web上构建信息集成系统是当前的一个研究热点,本文针对web信息集成的目标,结合XML和RDF等主要的Web技术及本体的概念,构建了一个基于本体的查询-应答框架,它通过有效地集成Web上的各种异构数据源来为终端用户提供更为方便的服务和应用。  相似文献   

3.
异构数据源的集成与访问   总被引:2,自引:1,他引:2  
1 引言近年来,Internet/Web技术和计算机硬件的迅速发展对数据库研究领域产生了巨大的影响,提出了新的挑战性问题:一是如何使数据库系统和技术成为Web的有机组成部分,而不仅仅充当Web体系的外围角色;二是如何实现Web动态信息的管理,完成日益增多的新一代Web应用等。人们已认识到Web正在逐渐成为全球性的自主分布式计算环境,Web上的多数站点都具有丰富的数据资源。如果能够把遍及全球的Web数据源集成起来,Web将成为一个全球统一的数据库,由全世界共享。然而Web数据源的集成并非易事,数据源的异构问题是影响Web数据源集成的最大障碍。Web数据源的异构问题主要包括三个方面:第一是模式异构,表现在不  相似文献   

4.
基于JDBC技术的Web数据库集成   总被引:6,自引:1,他引:5  
1 引言这些年,随着网络应用的发展和普及,Web服务器与数据库的连接显得越来越重要,二者的集成技术已成为基于Web的信息管理系统的核心。由于Web浏览器所处理的数据都是HTML文档,而HTML文档目前还没有能力与数据库直接交互,所得到的Web页面必然是静态的,无法满足用户对信息的动态性、实时性和交互性的需求。因此,将Web与数据库连接起  相似文献   

5.
本体论研究综述   总被引:175,自引:3,他引:175  
起源于哲学的本体论(ontology)在信息科学领域受到广泛关注,其重要性已在许多方面表现出来,如知识工程、数据库设计和集成、信息检索与获取、软件工程、自然语言处理等.尤其是本体论在Web上的应用导致了语义Web的诞生,有望解决Web信息共享时的语义问题,实现世界范围的知识级信息集成.综述计算机科学中本体论的研究和应用现状,主要内容包括:本体论的起源和发展,本体论的定义,本体论的描述语言以及构建方法论,本体论与语义Web,以及本体论的应用等.  相似文献   

6.
基于XML的Web数据集成技术的研究   总被引:8,自引:0,他引:8  
本文首先介绍了Web环境下异构数据集成技术产生的背景和研究目的以及相关的概念、技术和方法,然后针对XML作为合适的数据交换格式的特点介绍了基于XML的信息集成的关键因素,基于此,提出了一种基于XML的Web数据集成操作模型,并讨论了该模型在Web数据集成时数据交换和共享过程。最后,给出了集成构架的结构及组成。  相似文献   

7.
基于Web Service的企业数据集成的研究   总被引:4,自引:0,他引:4  
吴昊  邢桂芬 《计算机工程与设计》2005,26(10):2725-2726,2742
由于目前企业普遍存在的信息孤岛林立和数据断层的局面,企业内部以及企业之间的集成日益重要。从企业对信息及时需求的角度出发,在简要分析了Web服务和XML技术基础上,对企业应用集成中的数据集成进行了探讨,对异构数据在企业间的转换和传输做了一些研究,并提出了基于Web服务和XML技术的企业信息交换实现的方式,建立了一个统一高效的企业数据平台。  相似文献   

8.
基于Web Services的面向服务信息集成研究   总被引:12,自引:0,他引:12  
面向服务的信息集成能快速整合资源,构建基于IT环境的信息系统。Web Services提供了面向服务的具体实现技术。文章在分析面向服务的体系结构概念和Web Services特征的基础上,提出了一种基于Web Services的信息集成方案,并对构建过程进行了深入探讨。  相似文献   

9.
1.引言随着Internet的发展和异构信息源(从传统的RDBMS到半结构化信息源)集成技术的提高,对Web环境下的信息进行集成、分析处理并提供决策服务己成为当前的研究热点。Web信息集成最初采取Mediator/Wrapper框架的虚拟方案。Ullman在提交给VLDB‘97的论文中指出,“Media-tor实际上是一个或多个信息源上的视图”。用户通过Media-tor提供的数据模式访问数据源。Wrapper实现Mediator数据模式与源数据的映象。当用户提交一个查询时,Mediator确定哪些数据源与该查询相关,把查询分解为各数据源上的子查询,提交给相应的Wrapper处理。  相似文献   

10.
在信息和服务迅猛增长的Web上构建信息集成系统是当前的一个研究热点.基于分类本体的Web信息集成机制,构建了一个分类本体Web信息集成框架,以基于Portal的集成视图形式展示集成结果,有效地集成Web上的各种异构数据源来为终端用户提供更为方便的服务和应用.  相似文献   

11.
网络已经成为人们获取知识的一个重要途径。然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎返回大量的无关信息.不能满足用户的特定信息检索需求。针对这个问题,Web信息检索领域出现了一个新的研究方向——主题驱动的Web资源发现。介绍了通用搜索引擎的基本结构、工作原理及现状。阐述了主题Web挖掘的研究背景、任务及目前研究技术的进展,并对其未来的发展方向进行了探讨。对通用搜索引擎和主题Web挖掘的关系进行了分析。  相似文献   

12.
Web information fusion: A review of the state of the art   总被引:2,自引:0,他引:2  
In this paper, we introduce and overview advances in the field of Web information fusion and integration. As it is such a broad and diverse topic that is researched in many different fields, we choose to provide a unified view by focusing on selected survey articles that extensively cover earlier research contributions. Given the important role that ontologies are playing in Web information fusion and the emergence and fast development of the Semantic Web and Web 3.0 technologies, a separate section is devoted to the topic of ontology research and the Semantic Web. Then, in the section on Web-based support systems, several applications that are enabled as the result of advances in Web information fusion are discussed.  相似文献   

13.
面向Web对象的细粒度聚类已经成为学术界研究的热点.然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,充分挖掘Web文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对Web对象的细粒度聚类.算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录间的相似度,减少噪音对合并过程的影响.实验结果表明,InfoSigs算法比传统聚类算法—I-Match和Shingling—在F-Measure值上平均约有21.3%的提高,可以有效地运用到多领域Web对象的聚类问题.  相似文献   

14.
Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地。提出一种基于锚文本和标题信息过滤并结合网页内容相关度判断的HITS专题检索策略,利用专题训练集判断主题相关度,很好地解决了只依靠查询字符串判断的弊端。实验表明,此策略能很好地提高专题信息汇聚精确度和检索的准确率,并且减少了非相关URL的下载量。  相似文献   

15.
中文网页信息检索测试集的构建、分析及应用   总被引:1,自引:0,他引:1  
随着WWW的迅速发展,Web信息检索技术成为研究者广泛关注的话题,但缺少合适的测试评测机制制约了中文网页信息检索技术的发展。参考国外测试集的构建经验,我们构建了大规模中文网页信息检索测试集CWT,并组织了SEWM中文网页检索评测,希望在国内外各个研究小组的共同参与下建立并完善CWT,一起推动中文网页信息检索技术的发展。本文在调研和分析国内外现有研究进展的基础上,详细介绍了CWT的构建原则和方法,并对CWT进行了有效的统计分析和实验研究。本文提出的构建测试集的方法为以后的研究提供了参考。  相似文献   

16.
基于潜在语义索引的Web信息预测采集过滤方法   总被引:6,自引:0,他引:6  
Web信息急速膨胀使有效定向采集特定领域信息成为网上信息检索中一个日益重要的研究方向.提出一种基于潜在语义索引的Web信息预测采集过滤方法.在样本文档集潜在语义索引对文档相似计算的基础上,构造出用户兴趣模型,判断页面相关性进行文本过滤.通过对Web站点结构分析、对未知网页的相关性预测来控制信息采集过程.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。  相似文献   

17.
智能Web中文主题信息收集系统IRobot的设计   总被引:4,自引:0,他引:4  
本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性, 系统采用了对待收集URL进行相关度预测为主, 对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中, 深入考虑了Web主题信息结构和组织特性的多种因素, 综合提高了系统的性能。相比已有的研究, 系统的精度和收集效率更高, 且更为稳定, 并能够自动获得主题领域内重要资源的列表。  相似文献   

18.
聚焦爬虫技术研究综述   总被引:50,自引:1,他引:50  
周立柱  林玲 《计算机应用》2005,25(9):1965-1969
因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,W eb数据清洗,以及搜索空间的扩展等。  相似文献   

19.
随着移动互联网的普及以及网络信息指数的增长,如何有效地提取和利用这些信息面临巨大挑战。介绍了主题爬虫的工作原理、分类;回顾了近年来国内外关于主题爬虫的研究状况,分析了各种主题相似度的方法以及搜索策略,得出相比于普通的爬虫系统,基于网页内容和基于链接分析的爬虫系统的查准率、查全率都大幅度地提升;最后分析比较了主题网络爬虫两种动态搜索策略并指出了未来研究方向。  相似文献   

20.
Semantic Web computing in industry   总被引:1,自引:0,他引:1  
The Semantic Web has attracted significant attention during the last decade. On the one hand, many research groups have changed their focus towards Semantic Web research and research funding agencies particularly in Europe have explicitly mentioned Semantic Web in their calls for proposals. On the other hand, industry has also begun to watch developments with interest and a number of large companies have started to experiment with Semantic Web technologies to ascertain if these new technologies can be leveraged to add more value for their customers or internally within the company, while there are already several offers of vendors of Semantic Web solutions on the market. The essence of the Semantic Web is to structure Web-based information to make it more interoperable, machine-readable and thereafter to provide a means to relate various information concepts more easily and in a reusable way. The Semantic Web acts as an additional layer on the top of the Web, and is built around explicit representations of information concepts and their relationships such as ontologies and taxonomies. Furthermore, Semantic Web technologies are not only valuable on an open environment like the Web, but also in closed systems such as in industrial settings. Hence, these technologies can be efficiently deployed for domains including Web Services, Enterprise Application Integration, Knowledge Management and E-Commerce, fulfilling existing gaps in current applications. This paper focuses on this synthesis between Semantic Web technologies and systems problems within industrial applications. There will be a short review of Semantic Web standards, languages and technologies followed by a more detailed review of applications of Semantic Web computing in industry. The paper covers theoretical considerations as well as use cases and experience reports on the topic, and we also present some current challenges and opportunities in the domain.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号