首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 684 毫秒
1.
罗凌 《微计算机信息》2007,23(12):221-223
XML标记语言提供了对文本数据极好的支持,但在Internet中经常需要传输和处理大量的二进数据文件,xml对这一类型的数据处理能力有限,因此必须有效实现二进制数据和xml文档的集成。.NET提供了对xml完美的内置支持,在研究了二进制数据和xml文档集成的方法和.NET中实现数据集成的关键技术的基础上,在实际应用中实现了两者的有效集成和二进制文件的重构。  相似文献   

2.
本文着重阐述了在.NET下对xml的内置支持,进而研究了二进制数据和xml文档集成的方法和.NET中实现数据集成的关键技术,这对实际应用中实现二进制数据和xml文档集成和.NET中实现数据集成的有效结合重构是一个大胆的应用性尝试。  相似文献   

3.
面向软件Agent的XML文档集成   总被引:1,自引:0,他引:1  
当前,XML已经成为一种可广泛应用于Internet数据存储和交换的半结构伦数据文档信息管理技术,但是,即使是在DTD的说明配合下,Internet上普遍存在的不同XML数据源之间的集成与连接操作对于广大程序员而言,依然是一项极其复杂和繁琐的工作,本文根据XML文当的DTD语义特点,提出并实现了一种基地软件Agent来辅助进行DTD文档分析的XML文档的集成系统框架,有关的研究与应用实践表明,通过采用软件Agent的来引导和辅助XML文档的DTD语义分析与集成,能够在增加处理工作的自动化程度的基础上,极大的提高XML文档与数据的集成和交换自动化程度,有效的减缓软件人员的工作强度。  相似文献   

4.
随着信息技术的发展,任何一个独立单位都有可能成为一个异构的数据源。为实现企业异构数据库间信息的共享和集成,对数据集成的原理以及主要技术进行了研究,重点分析了 XML 与数据库之间的映射、XML 文档存储模式、将 XML 查询转化为 SQL 的查询转换问题以及如何将关系数据发布为 XML 文档。该方案简单易行,保证了各系统仍然按照原来的方式运行,只是在需要进行信息交换时通过转换接口把本地数据库数据转换成 XML 文档即可。  相似文献   

5.
为提高元数据系统实现中算法结构的直观性、兼容性以及转换效率,通过分析比较XML的两种模式XML Schema和XML.DTD,整合关系数据库以及XML文档各自的优点,提出了在系统中将其两者相结合的方法.利用了XML进行各项操作,同时又采用关系数据库进行系统数据的存储,既保证了系统的高效性,也保证了数据存储的安全性.并通过树型结构图实现了XML文档与关系数据库数据之间的双向转换算法,极大地提高了元数据系统实现中算法的直观性、兼容性和转换效率.  相似文献   

6.
将集成学习方法应用到XML文档聚类中来改进传统聚类算法的不足。提出一种标签与路径相结合的XML文档向量模型,基于这个模型,首先对原始文档集进行多次抽样,在新文档集上进行K均值聚类,然后对得到的聚类中心集合进行层次聚类。在人工数据集和真实数据集上的实验表明,该算法在召回率和精确率上优于K均值算法,并且增强了其鲁棒性。  相似文献   

7.
为了改善单一聚类算法的聚类性能,提出一种基于量子遗传算法的XML文档聚类集成解决方法。该方法首先利用KNN分类算法将XML文档划分成k个差异性的聚类成员;其次根据聚类成员的关系获得内联相似度矩阵,并通过多次分割、向下、向上、双向收缩的QR算法分解特征值对应的特征向量来实现矩阵的维数缩减;然后在映射空间上用量子遗传算法实现聚类集成,把每一个样本判别到最优的聚类类别中。这样减少了数据差异性对聚类结果的影响,提高了聚类质量。实验结果表明,在真实的数据集上,该聚类集成算法比其他聚类集成算法具有更好的效果。  相似文献   

8.
9.
XML已经成为Internet环境下数据表示、数据交换以及数据集成的标准.它独立于现有的数据库和编程语言,具有异构性、可扩展性以及灵活性等优势.由于XML不是一个概念化的模型,因此,如何把从现实世界中抽象出的数据模型转换成XML逻辑模型,进而设计出优良的XML文档成为研究热点.文中主要提出了一系列从扩展ER的概念模型到XML模式的转换规则,并设计了转换算法,以此实现自动操作.实验证明,该算法自动生成的XML Schema文档能够真实反应扩展E-R模型,并具有一定的通用性.  相似文献   

10.
为了实现异构环境中数据集成的目标,提出了基于XML、B/S三层架构的企业异构数据库之间数据共享的实施方案,设计和实现了一个通用的异构数据集成系统。文章介绍了该系统的核心体系结构、工作流程和各模块的功能;阐述了XML文档模式的验证和提取、XML文档间的映射、XML文档模式和数据库关系模式之间的映射等关键模块的设计和实现;最后简要说明了实现系统所采用的相关Java技术。  相似文献   

11.
As XML data becomes more and more prevalent and as larger quantities of data find their way into XML documents, the need for quality XML data organization only increase. One standard way of structuring data well is to reduce and, if possible, eliminate redundancy, while at the same time making the storage structures as compact as possible. In this paper, we present a methodology to generate XML storage structures where conforming XML documents are redundancy-free, and for most practical cases, are also fully compact. Our methodology assumes the input is a conceptual-model hypergraph. For the special case that every edge in the hypergraph is binary, we present a simple algorithm, guaranteed to always generate redundancy-free storage structures. We show, however, that generating a minimum number of redundancy-free storage structures is NP-hard. We therefore provide heuristics to guide the process and observe that these heuristics result in satisfactory solutions, which are often optimal. We then present a general algorithm for n-ary edges and show that it generates redundancy-free storage structures. The general algorithm must overcome several problems that do not arise in the special case.  相似文献   

12.
基于XML Schema的数据有效性验证   总被引:1,自引:0,他引:1  
XML可作为行业内数据交换的标准表示。XML文档的有效性验证是检查该文档是否遵循行业规定的XML文档格式。在进行数据交换时,首先必须对XML文档表示的数据进行有效性验证。文中主要讨论.NET框架下利用XMLSchema对XML文档进行有效性验证的算法。  相似文献   

13.
An efficient and scalable algorithm for clustering XML documents by structure   总被引:11,自引:0,他引:11  
With the standardization of XML as an information exchange language over the Internet, a huge amount of information is formatted in XML documents. In order to analyze this information efficiently, decomposing the XML documents and storing them in relational tables is a popular practice. However, query processing becomes expensive since, in many cases, an excessive number of joins is required to recover information from the fragmented data. If a collection consists of documents with different structures (for example, they come from different DTDs), mining clusters in the documents could alleviate the fragmentation problem. We propose a hierarchical algorithm (S-GRACE) for clustering XML documents based on structural information in the data. The notion of structure graph (s-graph) is proposed, supporting a computationally efficient distance metric defined between documents and sets of documents. This simple metric yields our new clustering algorithm which is efficient and effective, compared to other approaches based on tree-edit distance. Experiments on real data show that our algorithm can discover clusters not easily identified by manual inspection.  相似文献   

14.
XML文档聚类是高效管理XML文档的重要手段,XML文档相似度计算正是其中的关键步骤。pq-gram算法是解决XML文档相似度计算问题的有效手段,但忽略了XML文档结点的有序性。带权重的pq-gram算法是在此基础上,依据XML文档的结构性,首先为结点赋予相应权重,然后基于结点的权重对pq-gram赋予权重,最后将设定的权重应用到XML文档相似度计算中。实验结果表明,带权重的pq-gram算法更好地描述结点在XML文档相似度计算中的贡献度,提高了XML文档相似度计算的精度。  相似文献   

15.
在可扩展标记语言(XML)无线数据广播中,数据以XML文档为基本单位进行广播,然而XML文档间的冗余信息会降低带宽资源的利用率。为解决该问题,提出一种有效的调度算法,分析文档合并对数据广播的性能影响,得出文档间亲密度的衡量标准,并将亲密度高的文档进行合并以减少冗余信息。实验结果证明,该算法可以提高无线数据广播性能,节约带宽资源。  相似文献   

16.
The methods most heavily used by search engines to answer conjunctive queries on binary relations (such as one associating keywords with web-pages) are based on computing the intersection of postings lists stored as sorted arrays and using variants of binary search. We show that a succinct representation of the binary relation permits much better results, while using less space than traditional methods. We apply our results not only to conjunctive queries on binary relations, but also to queries on semi-structured documents such as XML documents or file-system indexes, using a variant of an adaptive algorithm used to solve conjunctive queries on binary relations.  相似文献   

17.
基于代价模型的不一致XML 数据修复启发式计算   总被引:1,自引:1,他引:0  
在实际应用中,为不一致的XML 文档计算最优修复意义重大.但求解最优修复是一个NP 完全问题,特别是在XML 文档同时违反函数依赖约束和主键约束时.提出一个基于代价模型的、可以在多项式时间内完成的启发式修复求解算法.该算法首先借助索引表,在一遍扫描原始XML 文档的情况下寻找不一致数据集,然后为每一类约束的不一致数据集构造候选修复,同时计算其修复代价,最后启发式地求解一个代价最小的修复方案.实验结果表明,该算法的时间复杂度不超过冲突类的3 次方,即便是在不一致数据量很大、噪声比例很大以及涉及多类语义约束时,也能较快地完成修复.  相似文献   

18.
存在多值依赖的XML DTD规范化研究   总被引:1,自引:0,他引:1  
丘威  张立臣 《计算机科学》2007,34(2):149-151
XML DTD文档中可能包含由非函数依赖引起的数据冗余和操作异常,首先从消除DTD文档内数据冗余的角度出发研究了文档的规范化的问题,讨论了在DTD文档中存在多值依赖的情况下,如何规范XML文档,提出了以DTD为模式的XML文档的多值依赖的概念。然后基于多值依赖的概念,提出了XML文档的一种多值依赖范式MXNF。最后在此基础上提出了把一个XML文档的DTD无损联接地分解成为符合MXNF的规范化算法,来规范存在多值依赖的XML DTD文档,并给出了该算法的分析说明。  相似文献   

19.
XML数据B树存储索引研究   总被引:2,自引:0,他引:2  
XML正逐渐成为WWW数据表示和交换的标准,如何有效实现对于XML数据的存储、查询及更新等操作是XML相关技术研究中的一个重要领域。论文首先提及了几种对XML文档的编码机制;然后给出了改进的扩展编码方式,使用改进的B+树构造算法存储XML文档并对其进行查询、更新等操作,分析了执行效率;最后对系统的可扩展性进行了分析。  相似文献   

20.
XML文档聚类在众多数据应用领域都具有重要作用。基于特征偏好的XML文档聚类算法是对XML文档进行特征选择,将XML文档描述为[n]维特征向量,再结合CFP(Clustering with Feature order Preference)算法,根据特征偏好为其赋予权重,每次迭代聚类过程中进行权重的更新。实验结果表明当CFP算法中的特征偏好权重和XML文档向量化时所用的层次权重设定相结合时,可弥补XML文档向量化时的弊端,提高了XML文档聚类的精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号