共查询到18条相似文献,搜索用时 140 毫秒
1.
2.
web信息抽取是对html文本中包含的信息进行结构化处理,抽取出有用的信息。本文提出了一种web信息抽取方法,通过清洗半结构化的HTML页面信息将其转化为结构化的XHTML格式信息,再利用DB29的SQL/XML语言,实现web信息的抽取。实验表明,该方法能够准确地提取数据块,正确抽取块内信息。 相似文献
3.
通过分析半结构化数据的特点,以实际的采购退货数据(BokeDataInfo .xml)为例,利用DOM 对象对基于XML的半结构化的数据进行抽取,设计并实现了一个基于半结构数据的数据仓库ETL工具,解决了商用ETL工具不能直接加载抽取XM L文件进行数据仓库数据加载的弊端,为XM L半结构化数据的抽取并装载到数据仓库当前细节级中的这一问题的解决进行了有益的探索。 相似文献
4.
5.
为从企业生产线上XML半结构化数据中抽取富有意义数据,分析了XML半结构化数据和关系数据库中结构化数据特点,以及XML半结构化数据在关系数据库中的存储方法。针对实际应用,提出采用扩展哈弗曼前缀编码方法,对XML文档树进行唯一编码,实现XML文档与关系数据库映射,同时给出最长前缀匹配策略,支持数据查询,以提高查询效率。 相似文献
6.
半结构化数据的模式抽取 总被引:1,自引:1,他引:1
模式抽取在半结构化数据研究领域中具有重要意义。论文结合同类对象集和标签路径的概念,提出了一种从OEM模型中抽取模式的新方法。算法的基本思想是:在用OEM模型表示的半结构化数据中查找同类对象集,并通过构造模式表的方法来实现模式抽取。这种方法不但能从层次结构数据中抽取模式,而且还能从包含环路的OEM数据中进行模式抽取,克服了其它一些算法不能从带有环路的数据中进行模式抽取的缺点。 相似文献
7.
半结构化数据的模式抽取对于半结构化数据查询、优化及异构数据的集成具有重要的意义.结合标签路径及标签路径的目标集概念,提出了基于OEM(Object Exchange Model)模型的半结构化数据最小化模式抽取新方法,并给出了与标签路径目标集、支持度计算相关的两个定理.算法的基本思路:依据文中的两个定理,采用宽度优先自顶向下的遍历策略依次求出各标签路径的最后一个标签的目标集及支持度,标签支持度大的目标集优先映射为对应的模式节点.对同一半结构数据实例,算法抽取的模式与其他算法得到的模式相比规模小、算法执行时间短.算法适用于层次型及包含环路的OEM半结构化数据模式抽取. 相似文献
8.
XML作为半结构化的语言,因其能预先定义标记等优势被普遍应用于非结构化到结构化信息的转换中。利用POI技术把网络上繁杂的非结构化数据转化为XML半结构化数据,把半结构化数据转化为结构化数据,使用户能够简便地查询所需信息。通过实验对SAX,DOM的解析效率进行了对比,实验表明解析相同大小的XML文件,SAX比DOM效率更高,而且此种差距会随着XML文件的增大而逐渐增大。 相似文献
9.
10.
半结构化页面的数据记录间存在结构相似性,在先序遍历DOM树生成的标记序列中表现为重复出现的模式,可利用后缀树进行挖掘。由于标记序列可以在块粒度和文本粒度两个级别上展现,而不同粒度下产生的最佳抽取模式在抽取效果方面又表现出不确定性,因此提出一种自动粒度选择的半结构化页面信息抽取方法。算法从后缀树获取的重复模式中选取最大重复和串联重复构成候选模式集,通过特征参数确定两个粒度各自的最佳模式集,最后引入抽取结果规则度参数并进行综合评价,以确定抽取模式完成半结构化页面数据记录的自动抽取。 相似文献
11.
基于OEM模型的半结构化数据的模式发现 总被引:1,自引:1,他引:0
随着Web数据和数据集成技术的飞速发展,半结构化数据越来越引起人们的重视。半结构化数据是指那些具有隐含结构或结构不严谨的自描述数据。它不同于传统数据中的模式,它是先有数据后有模式,而且半结构化数据的模式是用于描述数据的结构信息而不是对数据结构进行强制约束。为此,半结构化数据的模式发现就成为知识发现的首要步骤。采用了层次数据的概念,提出了分层事务数据库和“累加变换”的计数原则,并据此提出了基于SHDP-tree树结构的SHDP-mine算法和挖掘出半结构、层次数据的基本模式。最后从理论和实验分析和验证了它的有效性和高效性。 相似文献
12.
13.
14.
XML作为SGML标记语言的一个子集,由于它能很好地表示结构化和半结构化数据,而逐渐成为Internet上或应用程序间数据交换和信息表示的标准。分析和处理XML文档的场合也越来越多,其方法和工具也有很多,然而,对于很大的文档,传统的处理方法存在着很多的缺点和不足之处。文中提出了一种新的分析处理XML文档的方法,即利用NativeXML Database(NXD),以提高分析处理的性能。 相似文献
15.
在Web信息集成系统中,为解决数据源之间数据模型的异构性,提供一个有效的公共数据模型是一个常用的解决方法.在分析两种半结构化数据模型OEM和OIM的基础上,针对OEM模型表达XML文档存在的缺陷,将OIM的有向图结构与XML语言的相关特性相结合.提出了一种面向XML的公共数据模型XCDM.并补充了OIM对象代数的六种代数操作,XCDM充分考虑了XML语法表达的灵活性,可以为用户提供多级视图,完全符合公共数据模型的几点准则。 相似文献
16.
OLAP cubes enable aggregation-centric analysis of transactional data by shaping data records into measurable facts with dimensional characteristics. A multidimensional view is obtained from the available data fields and explicit relationships between them. This classical modeling approach is not feasible for scenarios dealing with semi-structured or poorly structured data. We propose to the data warehouse design methodology with a content-driven discovery of measures and dimensions in the original dataset. Our approach is based on introducing a data enrichment layer responsible for detecting new structural elements in the data using data mining and other techniques. Discovered elements can be of type measure, dimension, or hierarchy level and may represent static or even dynamic properties of the data. This paper focuses on the challenge of generating, maintaining, and querying discovered elements in OLAP cubes.We demonstrate the power of our approach by providing OLAP to the public stream of user-generated content on the Twitter platform. We have been able to enrich the original set with dynamic characteristics, such as user activity, popularity, messaging behavior, as well as to classify messages by topic, impact, origin, method of generation, etc. Knowledge discovery techniques coupled with human expertise enable structural enrichment of the original data beyond the scope of the existing methods for obtaining multidimensional models from relational or semi-structured data. 相似文献
17.
为了克服半结构化数据存储的不确定性,基于半结构化数据的结构信息可由其模式来描述的思想,提出一种动态树存储模型。在对对象交换模型OEM(Object Exchange Model)进行深度优先遍历,找出所有最大简单路径表达式基础上,采用累加计数原则将得到的最大路径表达式依次添加到一个动态树中,从而生成存储模型。最后将此模型映射到关系表中,实现了半结构化数据在关系数据库中的存储与查询。以村镇土地审批处理系统为实例来说明这种存储模型的有效性。 相似文献
18.
IDEF1X has provided a formal framework for consistent modeling of the data necessary for the integration of various functional areas in computer integrated manufacturing (CIM). The basic idea has been extensively applied in current manufacturing industry. Imprecise and uncertain information, however, is generally involved in many engineering activities. It is especially true for constructing intelligent manufacturing systems. This paper provides extensions to the IDEF1X, which makes it possible to represent fuzzy information. 相似文献