首页 | 本学科首页   官方微博 | 高级检索  
 共查询到18条相似文献,搜索用时 125 毫秒
杨晶  周双娥 《计算机科学》2017,44(Z11):414-417
XML作为半结构化的语言,因其能预先定义标记等优势被普遍应用于非结构化到结构化信息的转换中。利用POI技术把网络上繁杂的非结构化数据转化为XML半结构化数据,把半结构化数据转化为结构化数据,使用户能够简便地查询所需信息。通过实验对SAX,DOM的解析效率进行了对比,实验表明解析相同大小的XML文件,SAX比DOM效率更高,而且此种差距会随着XML文件的增大而逐渐增大。  相似文献   

基于XML数据模型及面向Web数据挖掘技术   总被引:2,自引:0,他引:2  
本文主要对Web上的数据结构特征及其数据挖掘技术进行分析,并就把XML作为一种半结构化的数据模型实施查询与模型抽取,从而完成面向Web数据挖掘的方法,且结合SQLSwrver2000的应用及实现智能查询应答的思想进行探讨。  相似文献   

基于OIL和RDFS的语义化Web逻辑扩展   总被引:1,自引:0,他引:1  
1 引言 Web的发展使得Internet能够迅速地普及.通过Web人们可以得到各种各样的服务。随着新的应用不断加入到Web应用,Web的发展面临着应用标准不兼容、语义定义不严格、有效性和结构化缺乏等大量问题。这些问题使得针对Web资源难以进行机器自动查询、检索。Web上现有的信息完全是非结构化或半结构化的信息,即使通过CGI从数据库中得到了结构化的数据,插入到Web页面中也失去了其原有的语义属性。要使得Web能够象数据库管理系统甚至知识库系统一样支持诸如描述、搜索、管理、交换和更新等准确的处理,就需要处理Web的元信息,把元信息以某种方式结构化。  相似文献   

集成Web 数据的系统框架与实现方法   总被引:5,自引:0,他引:5  
基于我们正在研究和开发的项目Panorama,本文提出了一个基于XML和CORBA的Web数据集成系统框架,该框架可以集成来自Web上多个异构的数据源,包括关系数据库、面向对象数据库,HTML和XML文档及结构化文本文件。在系统实现中,把Web看作是一个巨大的虚拟数据库,以CORBA作为分布式对象模型,以XML作为公共誓据模型,并且以XML-QL作为全局查询语言来完成Web上的数据查询和集成。文中还详细分析和描述了系统框架中的一些主要模块的实现方法,具有很好的可操作性。  相似文献   

齐金山 《福建电脑》2006,(11):130-131
XML数据本质上是一种自描述的半结构化数据,不同于以往的关系模型,现有的数据库技术和查询语言都不能用来直接处理XML数据。XQuery是W3C的一个候选标准,专门用于处理XML数据的查询。文章通过研究XQuery,设计了一种基于XQuery的通用的XML查询。  相似文献   

裴松  武彤 《微型机与应用》2013,32(17):56-59
为从企业生产线上XML半结构化数据中抽取富有意义数据,分析了XML半结构化数据和关系数据库中结构化数据特点,以及XML半结构化数据在关系数据库中的存储方法。针对实际应用,提出采用扩展哈弗曼前缀编码方法,对XML文档树进行唯一编码,实现XML文档与关系数据库映射,同时给出最长前缀匹配策略,支持数据查询,以提高查询效率。  相似文献   

基于Web的UML建模系统   总被引:2,自引:0,他引:2       下载免费PDF全文
针对目前异构网络环境下的异地开发和信息查询需求,结合MVC模式,设计并实现基于Web的UML建模系统。为了便于表示UML建模过程中的结构化数据和半结构化数据,将建模信息保存为XML文件,使系统具有更好的可扩展性、开放性、灵活性、自我描述性、可操作性及规范的层次结构。通过建立基于XML的信息查询提高了查询效率。  相似文献   

在对现有半结构化数据模型分析的基础上,针对这些模型作为Web数据模型的不足,提出一种新的基于XML的Web数据模型——XWDM,它主要解决了Web数据名称异构问题和查询回路问题。  相似文献   

传统Deep Web数据集成研究侧重满足用户的即时查询需求,对数据分析应用缺乏充分支持,提出一个面向分析的Deep Web数据集成系统DWDIS,能够在较少人工参与下对大量Web数据库进行高质量数据获取、抽取和整合,为分析型应用提供优质全面的结构化数据.DWDIS支持领域模型的自动演化;通过自动识别和理解查询接口,采用查询词采新率模型以较小代价最大限度地获取Deep Web页面;充分利用集成系统已有数据中隐含的数据特征,对Deep Web页面进行有效页面抽取和语义标注;结合Web数据源特征,使用机器学习方法对来自大量Web数据库的数据实现高准确率的重复记录检测和数据融合.  相似文献   

由于半结构化数据缺乏模式信息,因而半结构化数据的存储与查询将是一个十分重要且具有挑战性的研究课题。利用关系数据库存储半结构化数据可以重用数据库的查询优化器和事务处理机制,能够保证半结构化数据的一致性和完整性。该文提出一种实现半结构化数据存储与查询的新方法,该方法使用关系数据库系统来实现半结构化数据的存储与查询。给出了把基于半结构化数据的查询重写为基于关系的查询的算法,同时介绍一个可视化查询程序。  相似文献   

The large volume and nature of data available to the casual users and programs motivate the increasing interest of the database community in studying flexible and efficient techniques for extracting and querying semistructured data. On the other hand, efficient methods have been discovered for solving the so-called model-checking problem for some modal logics. The aim of this paper is to show how some of these methods can be used for querying semistructured data. For doing that we show that semistructured data can be naturally seen as Kripke Transition Systems. To keep the presentation independent of a specific language, we introduce a graphical query language that includes some of the features of the query languages based on graphs and patterns. We show how to associate CTL formulas to queries of this language. This allows us to see the problems of solving a query as an instance of the model-checking problem for CTL that can be solved in polynomial time. We have tested the method by using a model-checker, and have studied the applicability of the method to some existing languages for semistructured databases.  相似文献   

构造Web文档中半结构化信息的技术   总被引:3,自引:0,他引:3  
为了对Web上不规则的、动态的信息按照数据库的方式集成和查询,采用对象交换模型(OEM)建立了Web上信息模型。为了将页面中各个部分表示为应用的OEM对象,设计了半结构化信息的抽取算法,并给出测试结果。该方法可以抽取结构化和半结构化的信息,比现有的抽取方法通用性更强。  相似文献   

Web数据管理研究综述   总被引:54,自引:1,他引:53  
综述了Web数据管理技术,对Web数据管理的研究给出了定义,就Web数据管理的几个重要问题给出了阐述,在此基础上提出了一种基于XML的Web数据管理系统的框架和待研究的问题。  相似文献   

Current query languages for the Web (e.g., W3QL, WebLog and WebSQL) explore the structure of the Web. However, usually, the structure of the Web has little to do with the semantics of the data. Therefore, it is practically difficult to pose database queries over the Web. We introduce a new type of tags for denoting the semantics of data stored in HTML pages. These semantic tags (implemented as HTML comments) superimpose on HTML pages semistructured objects in the style of the OEM model. The paper discusses two implemented tools for fully utilizing the semantics. The first is a visualization tool for displaying both the HTML reading of Web pages and the OEM reading of Web pages. The second tool is a query language, similar to LOREL, that can query the HTML structure and/or the OEM reading. The above formalism and tools provide data-modeling capabilities for the Web that fit its heterogeneous nature. Real database queries, taking the OEM point of view, can be formulated, including queries about the schema as well as queries about the HTML structure of Web pages. Therefore, the query language is not restricted to portions of the Web in which semantic tags are used.  相似文献   

Path queries have been extensively used to query semistructured data, such as the Web and XML documents. In this paper we introduce weighted path queries, an extension of path queries enabling several classes of optimization problems (such as the computation of shortest paths) to be easily expressed. Weighted path queries are based on the notion of weighted regular expression, i.e., a regular expression whose symbols are associated to a weight. We characterize the problem of answering weighted path queries and provide an algorithm for computing their answer. We also show how weighted path queries can be effectively embedded into query languages for XML data to express in a simple and compact form several meaningful research problems.  相似文献   

A rapidly increasing number of Web databases are now become accessible via their HTML form-based query interfaces. Query result pages are dynamically generated in response to user queries, which encode structured data and are displayed for human use. Query result pages usually contain other types of information in addition to query results, e.g., advertisements, navigation bar etc. The problem of extracting structured data from query result pages is critical for web data integration applications, such as comparison shopping, meta-search engines etc, and has been intensively studied. A number of approaches have been proposed. As the structures of Web pages become more and more complex, the existing approaches start to fail, and most of them do not remove irrelevant contents which may affect the accuracy of data record extraction. We propose an automated approach for Web data extraction. First, it makes use of visual features and query terms to identify data sections and extracts data records in these sections. We also represent several content and visual features of visual blocks in a data section, and use them to filter out noisy blocks. Second, it measures similarity between data items in different data records based on their visual and content features, and aligns them into different groups so that the data in the same group have the same semantics. The results of our experiments with a large set of Web query result pages in di?erent domains show that our proposed approaches are highly effective.  相似文献   

基于XML中间件的分布式数据库的数据分片策略   总被引:6,自引:1,他引:5  
XML技术由于其鬼好的数据描述能力,在数据库系统的数据交换中得到广泛应用。为了降低并行查询的困难程度和提高并行查询的准确度,提出一种基于XML的分布式数据交换中间件模型,给出了该模型的体系结构和功能定义,并根据此中间件讨论了一种分布式数据库的数据分片技术。  相似文献   

随着越来越多的信息隐藏在Deep Web中,针对用户查询找出最相关的Web数据库成为亟待解决的问题。提出了一种基于Web数据库主题分布的方法用于Deep Web数据集成中的Web数据库选择。获取主题覆盖度形式的Web数据库内容描述,而后利用选定的Web数据库获取查询主题,最终由查询主题和主题分布矩阵来选择Web数据库。在真实Web数据库上的实验结果表明,该方法既取得了较高的查询召回率,也可有效降低数据库内容描述建立的代价。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号