首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
随着Web数据和数据集成技术的飞速发展,半结构化数据越来越引起人们的重视。半结构化数据是指那些具有隐含结构或结构不严谨的自描述数据。它不同于传统数据中的模式,它是先有数据后有模式,而且半结构化数据的模式是用于描述数据的结构信息而不是对数据结构进行强制约束。为此,半结构化数据的模式发现就成为知识发现的首要步骤。采用了层次数据的概念,提出了分层事务数据库和“累加变换”的计数原则,并据此提出了基于SHDP-tree树结构的SHDP-mine算法和挖掘出半结构、层次数据的基本模式。最后从理论和实验分析和验证了它的有效性和高效性。  相似文献   

2.
XM L数据的组织和管理存在多种方法。描述XM L数据、模式以及半结构化XM L数据特点,介绍XM L数据库与XM L数据存储方法,讨论XM L数据在关系数据库中的组织策略;基于编码机制,将半结构化XM L 编码分成次序编码、路径编码、混合编码和支持更新的扩展编码,分析总结半结构化XM L数据编码技术,展望XM L数据组织技术的发展趋势,为进一步进行XM L数据组织技术研究提供基础。  相似文献   

3.
文章主要描述了WEB页数据挖掘的基本任务,包括内容、结构、使用等。针对Web数据的复杂性和特殊性。Web的数据挖掘除日志等一小部分可以用常用的数据挖掘方法外,必须对Web页做必要的数据处理,使之达到结构化数据的挖掘要求,或使用XML技术来构造半结构数据模式再进行数据挖掘。  相似文献   

4.
一种基于XML的半结构数据模型   总被引:2,自引:0,他引:2  
半结构数据的模型是对半结构数据进行了有效管理的基础,也是基于XML半结构数据管理系统的基础,首先探讨了半结构数据的表示形式,然后对XML数据模型进行了研究,最后,在以上研究的基础实现了一种基于XML的半结构数据模型。  相似文献   

5.
通过分析半结构化数据的特点,以实际的采购退货数据(BokeDataInfo .xml)为例,利用DOM 对象对基于XML的半结构化的数据进行抽取,设计并实现了一个基于半结构数据的数据仓库ETL工具,解决了商用ETL工具不能直接加载抽取XM L文件进行数据仓库数据加载的弊端,为XM L半结构化数据的抽取并装载到数据仓库当前细节级中的这一问题的解决进行了有益的探索。  相似文献   

6.
关系模式下的XML数据存取技术研究   总被引:7,自引:0,他引:7  
XML数据具有自描述性和半结构化特征,所以它能够从自身得到能够描述自己的类似于数据库的数据模式,并且对XML数据进行数据库存取。本文对利用关系模式来映射XML模式从而在关系数据库中存取XML数据的技术,进行了研究和初步应用。  相似文献   

7.
基于XML的生活饮用水水质卫生规范描述语言的设计与实现   总被引:1,自引:0,他引:1  
介绍了基于XML的生活饮用水水质卫生规范标记语言DwqML的设计与实现。DwqML充分运用XML的可扩展性和半结构化数据描述能力,解决了饮用水卫生标准的结构描述复杂性问题,并且详细叙述了DwqML Schema的设计过程。  相似文献   

8.
基于结构分析和实体识别的信息集成   总被引:4,自引:0,他引:4  
针对海量的web数据,提出了一种基于文档结构分析和实体识别的web信息提取和集成方法,利用XML强大的数据描述能力,灵活组织集成的web文档信息内容.方法首先将半结构化的HTML文档转化成具有模式结构的XML文档,然后使用实体识别的技术对不同主题区域进一步抽取出格式良好的数据,最后将得到的多数据类型的信息集成到数据库中,以支持进一步的分析和查询.实验结果证明了该方法的实用和有效性.  相似文献   

9.
XML已经成为Web上表示结构化和半结构化数据的标准格式,为了描述XML数据的结构和内容,业界已经提出了多个XML模式语言。虽然XML模式对ValidatingXML文档非常有用,但它不适用于要求表示数据有关语义知识的任务,对这样的任务最好使用概念模式。针对XML模式的概念建模,介绍了一种扩展实体关系模型及将用XML模式语言定义的模式转换成扩展实体模式的过程。  相似文献   

10.
陈渝  夏军  杨学军  钱方  陈福接 《计算机学报》2000,23(10):1040-1050
提出一种新的数据访问空间描述-偏序线性存取域描述PLARD,它简化了复杂访问模式下对数据访问空间的描述,能够简单、精确地描述大多数访问模式下线性数据访问空间。文中首先给出了科学计算并行程序的特点,然后对LARD,PLARD和BPLARD数据访问空间描述的概念进行了定义,并对它们的特性和构造原理进行了分析和证明,文中对基于BPLARD的合并简化和相关性分析进行了阐述,为将LPARD技术应用于编译优化  相似文献   

11.
由于半结构化数据缺乏模式信息,因而半结构化数据的存储与查询将是一个十分重要且具有挑战性的研究课题。利用关系数据库存储半结构化数据可以重用数据库的查询优化器和事务处理机制,能够保证半结构化数据的一致性和完整性。该文提出一种实现半结构化数据存储与查询的新方法,该方法使用关系数据库系统来实现半结构化数据的存储与查询。给出了把基于半结构化数据的查询重写为基于关系的查询的算法,同时介绍一个可视化查询程序。  相似文献   

12.
We describe a method for generating queries for retrieving data from distributed heterogeneous semistructured documents, and its implementation in the metadata interface DDXMI (distributed document XML metadata interchange). The proposed system generates local queries appropriate to local schemas from a user query over the global schema. The system constructs mappings between global schema and local schemas (extracted from local documents if not given), path substitution, and node identification for resolving the heterogeneity among nodes with the same label that often exist in semistructured data. The system uses Quilt as its XML query language. An experiment is reported over three local semistructured documents: ‘thesis’, ‘reports’, and ‘journal’ documents with ‘article’ global schema. The prototype was developed under Windows system with Java and JavaCC.  相似文献   

13.
Semistructued data are specified in lack of any fixed and rigid schema,even though typically some implicit structure appears in the data.The huge amounts of on-line applications make it important and imperative to mine the schema of semistructured data ,both for the users(e.g.,to gather useful information and facilitate querying)and for the systems (e.g.,to optimize access).The critical problem is to discover the hidden structure in the semistructured data.Current methods in extracting Web data structure are either in a general way independent of application background,or bound in some concrete environment such as HTML,XML etc.But both face the burden of expensive cost and difficulty in keeping along with the frequent and complicated variances of Web data.In this paper,the problem of incremental mining of schema for semistructured data after the update of the raw data is discusses.An algorithm for incrementally mining the schema of semistructured data is provided,and some experimental results are also given,which show that incremental mining for semistructured data is more efficient than non-incremental mining.  相似文献   

14.
Many modern applications(e-commerce,digital library,etc.)require integrated access to various information sources(from tr5aditional RDBMS to semistructured Web repositories).Extracting schema from semistructured data is a prereuisite to integrated heterogeneous information sources.The traditional method that extracts global schema may require time (and space)to increase exponentially with the number of objects and edges in the source.A new method is presented in this paper.which is about extracting local schema,In this method,the algorithm controls the scale of extracting schema within the “schema diameter“ by examining the semantic distance of the target set and using the Hash class and its path distance operation.This method is very efficient for restraining schema from expanding.The prototype validates the new approach.  相似文献   

15.
半结构化数据库没有固定的库模式,用户对其结构难以产生清晰的认识,从而无法有效地查询所需的内容.提出了一种基于本体的柔性查询,用户通过了解数据库本体语义信息而发出的查询不必遵循严格的数据库模式也能得出结果.由于在半结构化数据库上直接查找效率很低,故在其上生成描述结构模式的概念本体库.查询模块先在本体库上评估能否得出查询结果,再在数据库上执行查询.然而由于本体库可能是图的形式,其查询代价仍然很高,本质上是NP问题,进一步研究了将图转化为树的方法,并给出了相应的算法.  相似文献   

16.
半结构化数据的模式抽取   总被引:1,自引:1,他引:1  
模式抽取在半结构化数据研究领域中具有重要意义。论文结合同类对象集和标签路径的概念,提出了一种从OEM模型中抽取模式的新方法。算法的基本思想是:在用OEM模型表示的半结构化数据中查找同类对象集,并通过构造模式表的方法来实现模式抽取。这种方法不但能从层次结构数据中抽取模式,而且还能从包含环路的OEM数据中进行模式抽取,克服了其它一些算法不能从带有环路的数据中进行模式抽取的缺点。  相似文献   

17.
Hierarchical semistructured data arise frequently in the Web, or in biological information processing applications. Semistructured objects describing the same type of information have similar but not identical structure. Usually they share some common ‘schema’. Finding the common schema of a collection of semistructured objects is a very important task and due to the huge amount of such data encountered, data mining techniques have been employed.In this paper, we study the problem of discovering frequently occurring structures in semistructured objects using the notion of association rules. We identify that discovering the frequent structures in the early phases of the mining procedure is the dominant cost and we provide a fast algorithm addressing this issue. We present experimental results, which demonstrate the superiority of the proposed algorithm and also its efficiency in reducing dramatically the processing cost.  相似文献   

18.
一个基于模式的XML存储模型   总被引:4,自引:0,他引:4  
XML基于半结构化数据模型,而半结构化数据很难统一存储和管理。文章提出了一个基于模式的XML存储模型SBSM,并定义了如何在该模型上进行相关的操作,该模型克服了对象-关系映射模型的局限性,并支持直接在模型上进行查询操作。  相似文献   

19.
The rapid growth of the World Wide Web has resulted in more data being accessed over the Internet. In turn there is an increase in the use of semistructured data, which plays a crucial role in many web applications particularly with the introduction of XML and its related technologies. This increase in use makes the design of good semistructured data structures essential. The Object Relationship Attribute model for Semistructured data (ORA-SS) is a graphical notation for designing and representing semistructured data. In this paper, we demonstrate an approach to formally validate the ORA-SS data models in order to enhance the correctness of semistructured data design. A mathematical semantics for the ORA-SS notation is defined using the Z formal language, and further validation processes are carried out to check the correctness of the semistructured data models at both the schema and instance levels.  相似文献   

20.
Representation and processing of XML data in Scheme are considered. Scheme is a functional programming language belonging to the LISP family. The SXML specification is discussed, which defines methods for representing XML data in the form of S-expressions in Scheme. Possibilities of extending this specification are considered. Methods of parsing and representing XML data are analyzed, possibilities of applying Scheme to the development of XML applications are discussed, and a survey of the relevant literature is given. Functional methods for processing semistructured data are discussed, and examples of using Scheme for processing SXML data are given. Methods for extracting a schema of semistructured data (DataGuide) and application of those methods are considered, and functional algorithms for the construction of DataGuide are proposed.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号