首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
当前几种Web查询语言的分析与比较   总被引:3,自引:0,他引:3  
提出了Web查询语言研究的背景,简明扼要介绍了当前四种Web查询语言及其实现方式,对比总结了各自的数据模式及查询特点。  相似文献   

2.
模式发现在Web抽取中的应用及设计   总被引:3,自引:0,他引:3  
蔡霞  张森  周宇 《控制工程》2003,10(3):227-229,269
WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动数据抽取技术。初步实验结果表明所得的抽取规则能从多数搜索引擎上获得较高的抽取率。该方法对于从搜索引擎的搜索结果等结构化、半结构化网页中自动抽取重复模式具有较好的效果。  相似文献   

3.
Web数据管理研究现状与发展方向   总被引:1,自引:0,他引:1  
万维网(World Wide Web)在世界范围内的飞速发展,使得Web逐渐成为一个主要的计算平台和各类信息发布的重要方式。目前许多研究机构对在国际互联网(Internet)和企业内部互联网(Intranet)环境下的信息搜集、共享和传递产生了兴趣,并展开了广泛的研究。正是由于Web应用的研究受到越来越多的关注,许多针对Web数据表示的标准被制定出来,XML标准便是其中之一。越来越多的人相信在不久的将来,XML将取代HTML成为Web上数据表示的主要标准。届时,大量的Web站点都将通过XML文档的形式来存储和  相似文献   

4.
微软.NET框架下提取在线Web数据的方法   总被引:1,自引:1,他引:0  
本文通过一个在线Web数据提取的实例,介绍了在微软的.NET框架下,使用SgmlReader将HTML文件转换为XHTML,并使用XML的XPath语言和XSLT转换技术提取在线Web数据的方法,文中还给出了核心程序的部分代码.  相似文献   

5.
介绍了PHP技术的优点及其应用前景以及页面刷新的两种技术:Client Pull和Server Push,详细阐述了利用PHP技术实现Web页面无闪动刷新的技术。  相似文献   

6.
7.
介绍一个Web数据提取与发布工具,内容包括系统结构、功能设计、数据组织、界面设计和实现技术。该工具已用于多个部门信息网站建设和信息系统开发之中。  相似文献   

8.
网上监测系统Web数据网关设计与实现   总被引:3,自引:0,他引:3  
周强  闫大顺  张永平 《计算机工程》2001,27(11):129-131
在分析网上监测系统结构及实时数据处理的基础上,提出了一种通用实时监测Web数据网关设计方案。该Web数据网关采用多线程机制,在线采集工业控制的实时数据,通过浏览器可视化组件动态发布设备运转及生产状况信息。方案具有完善的页面请求、客户请求、以及数据对象的管理和服务功能,其结构灵活,系统维护性强。  相似文献   

9.
XWIS中基于预定义模式的包装器   总被引:3,自引:0,他引:3  
目前,从HTML文档中有效的抽取数据是一个值得研究的问题。文中提出了一种基于预定义模式的方法来构造HTML包装器,并将它运用到XWIS(基于XML的Web信息查询系统)中。这种方法下,由用户定义模式并给出模式与HTML页面的映射关系,接着系统推导出规则同时生成包装器。  相似文献   

10.
工业监控环境下Web页面实时数据的自动更新   总被引:4,自引:0,他引:4  
周震  虞鹤松 《计算机应用》2001,21(11):89-90
就目前工业监控环境中实现Web页面上实时数据自动更新进行了分析,对不同的要求采用不同的方式提出了三种解决的途径,并对TimeLines设计时控件的使用进行了比较详细的说明。  相似文献   

11.
基于多中间件的数据集成方案   总被引:1,自引:0,他引:1  
张德文  徐孟春  马慧 《计算机工程与设计》2007,28(21):5081-5083,5107
为了实现分布的异构数据集成,解决"信息孤岛"问题,结合J2EE架构的优势和许多成功的数据集成方案,提出了基于数据访问中间件、消息中间件、数据源集成中间件的数据集成方案.详细讲述了该集成方案的架构和实现,实现结果表明该方案明显提高了数据集成的效率.最后,结合最新技术发展趋势对数据集成的研究前景做出了展望.  相似文献   

12.
针对现有网上论坛信息抽取的不足,提出一种基于后缀树的论坛信息抽取方法.将标准化后的HTML文档转换为后缀树,查找出其中的重复模式并产生分装器,将分装器转换为NFA(非确定型有穷自动机)达到抽取论坛信息的目的.该方法运用构造后缀树的技术来抽取论坛信息,较好地解决了现有的抽取方法准确性较差、通用性不强的问题.实验结果表明,该方法具有较高的准确性和实用性.  相似文献   

13.
针对模板生成网页的一种数据自动抽取方法   总被引:5,自引:0,他引:5  
当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽取出来.给出了模板检测问题的形式化描述,并深入分析模板产生网页的结构特征.提出了一种新颖的模板检测方法,并利用检测出的模板自动地从实例网页中抽取数据.与其他已有方法相比,该方法能够适用于"列表页面"和"详细页面"两种类型的网页.在两个第三方的测试集上进行了实验,结果表明,该方法具有很高的抽取准确率.  相似文献   

14.
针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。  相似文献   

15.
网页数据自动抽取系统   总被引:6,自引:0,他引:6  
在Internet中存在着大量的半结构化的HTML网页。为了使用这些丰富的网页数据,需要将这些数据从网页中重新抽取出来。该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOMbasedAutomaticExtraction),将HTML网页数据转换为XML数据,在提取的过程中基本上不需要人工干预,因而实现了抽取过程的自动化。该方法可以应用于信息搜索agent中,或者应用于数据集成系统中等。  相似文献   

16.
基于Web服务的数据集成框架   总被引:1,自引:0,他引:1  
为了给用户和第三方应用提供更方便的接口支持并扩展数据集成产品的功能,提出基于Web服务的数据集成(Web Services Based Data Integration,WSDI)框架,并详细描述其框架结构及关键技术.WSDI可以提高数据集成产品的内部管理和扩展能力,在数据集成产品OnceDI中进行应用,效果良好.  相似文献   

17.
一种面向服务的数据集成平台   总被引:1,自引:0,他引:1  
提出一种松散耦合的数据集成解决方案,将异构数据源作为服务提供者从集成系统中分离出来,采用目前较为流行的基于中介器/包装器的数据集成方法,自底向上地将数据源集成为统一的数据视图——集成处理包,并初步实现了一个原型系统。重点介绍了该系统的体系构架,以及数据集成处理包的结构设计和创建过程,最后,通过实例验证了此方案的灵活性和有效性。  相似文献   

18.
针对多信息源网站中化学物质信息的获取与数据库的更新查询问题,运用网络爬虫技术和包装器方法实现数据的抽取;采用自定义XML文件的方式,提出了任务分割、动态更新检查、失败重试机制方法,实现了动态信息源网站中化学物质信息的持续、实时抽取,并进行异常处理和监控。将抽取的数据运用正则表达式和排序算法进行预处理并构建全面而准确的化学品环境安全数据库,最终实现了对原有数据的更新查询,在一定程度上保证了可靠性、可用性、可扩展性、可维护性。  相似文献   

19.
Many modern applications(e-commerce,digital library,etc.)require integrated access to various information sources(from tr5aditional RDBMS to semistructured Web repositories).Extracting schema from semistructured data is a prereuisite to integrated heterogeneous information sources.The traditional method that extracts global schema may require time (and space)to increase exponentially with the number of objects and edges in the source.A new method is presented in this paper.which is about extracting local schema,In this method,the algorithm controls the scale of extracting schema within the “schema diameter“ by examining the semantic distance of the target set and using the Hash class and its path distance operation.This method is very efficient for restraining schema from expanding.The prototype validates the new approach.  相似文献   

20.
包装器是一种能够从网页中自动抽取数据并将其转换为结构化数据的软件程序。现有的包装器生成系统多是半自动化的,需要用户具有关于目标页面的先验知识,而且大多只能处理简单结构数据,而不能很好地处理具有嵌套结构的数据。提出了一种基于后缀树的包装器自动生成方法,生成的包装器不仅可以处理简单结构数据,还可以处理嵌套结构数据,具有较低的时间复杂度,有一定的实用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号