共查询到20条相似文献,搜索用时 93 毫秒
1.
2.
3.
Web数据管理研究现状与发展方向 总被引:1,自引:0,他引:1
万维网(World Wide Web)在世界范围内的飞速发展,使得Web逐渐成为一个主要的计算平台和各类信息发布的重要方式。目前许多研究机构对在国际互联网(Internet)和企业内部互联网(Intranet)环境下的信息搜集、共享和传递产生了兴趣,并展开了广泛的研究。正是由于Web应用的研究受到越来越多的关注,许多针对Web数据表示的标准被制定出来,XML标准便是其中之一。越来越多的人相信在不久的将来,XML将取代HTML成为Web上数据表示的主要标准。届时,大量的Web站点都将通过XML文档的形式来存储和 相似文献
4.
微软.NET框架下提取在线Web数据的方法 总被引:1,自引:1,他引:0
本文通过一个在线Web数据提取的实例,介绍了在微软的.NET框架下,使用SgmlReader将HTML文件转换为XHTML,并使用XML的XPath语言和XSLT转换技术提取在线Web数据的方法,文中还给出了核心程序的部分代码. 相似文献
5.
介绍了PHP技术的优点及其应用前景以及页面刷新的两种技术:Client Pull和Server Push,详细阐述了利用PHP技术实现Web页面无闪动刷新的技术。 相似文献
7.
介绍一个Web数据提取与发布工具,内容包括系统结构、功能设计、数据组织、界面设计和实现技术。该工具已用于多个部门信息网站建设和信息系统开发之中。 相似文献
8.
9.
10.
工业监控环境下Web页面实时数据的自动更新 总被引:4,自引:0,他引:4
就目前工业监控环境中实现Web页面上实时数据自动更新进行了分析,对不同的要求采用不同的方式提出了三种解决的途径,并对TimeLines设计时控件的使用进行了比较详细的说明。 相似文献
11.
基于多中间件的数据集成方案 总被引:1,自引:0,他引:1
为了实现分布的异构数据集成,解决"信息孤岛"问题,结合J2EE架构的优势和许多成功的数据集成方案,提出了基于数据访问中间件、消息中间件、数据源集成中间件的数据集成方案.详细讲述了该集成方案的架构和实现,实现结果表明该方案明显提高了数据集成的效率.最后,结合最新技术发展趋势对数据集成的研究前景做出了展望. 相似文献
12.
针对现有网上论坛信息抽取的不足,提出一种基于后缀树的论坛信息抽取方法.将标准化后的HTML文档转换为后缀树,查找出其中的重复模式并产生分装器,将分装器转换为NFA(非确定型有穷自动机)达到抽取论坛信息的目的.该方法运用构造后缀树的技术来抽取论坛信息,较好地解决了现有的抽取方法准确性较差、通用性不强的问题.实验结果表明,该方法具有较高的准确性和实用性. 相似文献
13.
针对模板生成网页的一种数据自动抽取方法 总被引:5,自引:0,他引:5
当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽取出来.给出了模板检测问题的形式化描述,并深入分析模板产生网页的结构特征.提出了一种新颖的模板检测方法,并利用检测出的模板自动地从实例网页中抽取数据.与其他已有方法相比,该方法能够适用于"列表页面"和"详细页面"两种类型的网页.在两个第三方的测试集上进行了实验,结果表明,该方法具有很高的抽取准确率. 相似文献
14.
15.
网页数据自动抽取系统 总被引:6,自引:0,他引:6
在Internet中存在着大量的半结构化的HTML网页。为了使用这些丰富的网页数据,需要将这些数据从网页中重新抽取出来。该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOMbasedAutomaticExtraction),将HTML网页数据转换为XML数据,在提取的过程中基本上不需要人工干预,因而实现了抽取过程的自动化。该方法可以应用于信息搜索agent中,或者应用于数据集成系统中等。 相似文献
16.
17.
一种面向服务的数据集成平台 总被引:1,自引:0,他引:1
提出一种松散耦合的数据集成解决方案,将异构数据源作为服务提供者从集成系统中分离出来,采用目前较为流行的基于中介器/包装器的数据集成方法,自底向上地将数据源集成为统一的数据视图——集成处理包,并初步实现了一个原型系统。重点介绍了该系统的体系构架,以及数据集成处理包的结构设计和创建过程,最后,通过实例验证了此方案的灵活性和有效性。 相似文献
18.
针对多信息源网站中化学物质信息的获取与数据库的更新查询问题,运用网络爬虫技术和包装器方法实现数据的抽取;采用自定义XML文件的方式,提出了任务分割、动态更新检查、失败重试机制方法,实现了动态信息源网站中化学物质信息的持续、实时抽取,并进行异常处理和监控。将抽取的数据运用正则表达式和排序算法进行预处理并构建全面而准确的化学品环境安全数据库,最终实现了对原有数据的更新查询,在一定程度上保证了可靠性、可用性、可扩展性、可维护性。 相似文献
19.
Many modern applications(e-commerce,digital library,etc.)require integrated access to various information sources(from tr5aditional RDBMS to semistructured Web repositories).Extracting schema from semistructured data is a prereuisite to integrated heterogeneous information sources.The traditional method that extracts global schema may require time (and space)to increase exponentially with the number of objects and edges in the source.A new method is presented in this paper.which is about extracting local schema,In this method,the algorithm controls the scale of extracting schema within the “schema diameter“ by examining the semantic distance of the target set and using the Hash class and its path distance operation.This method is very efficient for restraining schema from expanding.The prototype validates the new approach. 相似文献
20.
包装器是一种能够从网页中自动抽取数据并将其转换为结构化数据的软件程序。现有的包装器生成系统多是半自动化的,需要用户具有关于目标页面的先验知识,而且大多只能处理简单结构数据,而不能很好地处理具有嵌套结构的数据。提出了一种基于后缀树的包装器自动生成方法,生成的包装器不仅可以处理简单结构数据,还可以处理嵌套结构数据,具有较低的时间复杂度,有一定的实用价值。 相似文献