首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
XML作为SGML标记语言的一个子集,由于它能很好地表示结构化和半结构化数据,而逐渐成为Internet上或应用程序间数据交换和信息表示的标准。分析和处理XML文档的场合也越来越多,其方法和工具也有很多,然而,对于很大的文档,传统的处理方法存在着很多的缺点和不足之处。文中提出了一种新的分析处理XML文档的方法,即利用NativeXML Database(NXD),以提高分析处理的性能。  相似文献   

2.
关于处理大型XML数据的NXD方法研究   总被引:2,自引:0,他引:2  
XML作为SGML标记语言的一个子集,由于它能很好地表示结构化和半结构化数据,而逐渐成为Internet上或应用程序间数据交换和信息表示的标准。分析和处理XML文档的场合也越来越多,其方法和工具也有很多,然而,对于很大的文档,传统的处理方法存在着很多的缺点和不足之处。文中提出了一种新的分析处理XML文档的方法,即利用Native XML Database(NND),以提高分析处理的性能。  相似文献   

3.
三、超文本标记语言(HTML) 标准通用化标记语言(SGML,即Standard General-ized Markup Language)是一种元语言,即用来描述标记语言的语言。它是一种国际标准,发布于1986年。而超文本标记语言(HTML,即Hyper Text Markup Lan-guage)是SGML的一种应用,它继承了SGML的许多特征。HTML语法是用SGML文档类型定义而成。 HTML拥有一套规范Web文档格式的规则。利用HTML,就可以创建Web文档。用HTML创建的Web文档可以被运行在不同硬件和不同操作系统上的应用程序(如浏览器)所识别,电就是说,HTML文档是与系统平台和应用程序无关的。  相似文献   

4.
随着网络技术的发展,可扩展标记语言XML得到了极大的进步.与超文本标记语言HTML不同,XML实现了文档数据内容与显示的分离,具有很强的自我描述能力、可扩展性好等特点,从而有利于信息共享和查询,已经被广泛的应用在各个方面,包括定义行业数据标准、数据交换和数据集成.本文在分析XML技术的基础上,采用XML结合Java语言以及流行的数据库系统作为解决方案,设计并实现了一个包括数据查询功能的Web文档处理系统.  相似文献   

5.
1.引言当前,在Internet上主要是以HTML形式传递信息,但使用HTML存在以下的缺点: (1)HTML的标签大多是设计用来呈现格局和外观的;它对布局、外观方面很擅长,却极度缺乏对内容,也就是对信息涵义的表达能力; (2)由于HTML是一个固定的元素集而受限制,它不可扩展,不支持自定制的元素; (3)它不具备任何高层次标记语言能力,它不能理解文档的概念,仅知道页面而已。HTML不具备结构化,用于信息存储效果差。  相似文献   

6.
透视XML XML是什么,让我们先看看标准的说法: 可扩展标记语言,缩写为XML,描述了一类称为XML文档的数据对象,同时也部分地描述了处理这些数据对象的计算机程序的行为。XML是SGML(标准通用标记语言[ISO 8879]针对应用的一个子集,或者说是SGML的一种受限形式。根据定义,XML文档是合乎规范的SGML文档。 今天Internet已经取得了长足的发展,这也许是得益于两个事物,HTML和浏览器。HTML是一种表示数据形式的标志语言,不能用来表示数据的内容和逻辑关系。这样我们就会发现一个“奇怪”的现象:我们利用Internet来收集数据,收集来的数  相似文献   

7.
《程序员》1999,(3)
浏览器是硬盘上的应用软件,就象一个字处理程序一样(如WordPerfect或Microsoft Word)。它把你在Internet上找到的HTML文档翻译成网页。网页可以包含图形、音频和视频,还有文本。 HTML是Internet,所用的格式化语言。HTML文档看起来与网页在浏览器上的显示大不相同。你在屏幕上看到的网页已经过了浏览器对HTML文档的翻译。  相似文献   

8.
1 引言 Internet,特别是万维网WWW的迅猛发展,为访问巨大数量的信息,尤其是以超文本标记语言(HyperText Make-up Language,简称HTML)书写的文档成为可能。WWW在信息定位和定界上存在着单步定位和偏差定界的问题,这既造成了信息获取困难,也造成了冗余信息传输的浪费。目前这一问题已成为关注的焦点之一。有许多工作(例如文[5])通过引入智能机制来提高信息检索效率,但所关心的对象是对象数据库这样的良结构信息。  相似文献   

9.
XML数据文档及其处理技术探讨   总被引:11,自引:1,他引:10  
1.引言目前Internet上描述网页信息的HTML语言的元素类型是通用和描述性的,既不具备可扩展性,也不能有效地表示信息的结构和意义。这也就是许多搜索引擎往往针对用户输入的关键词却返回大量垃圾数据的根源。XML的出现给了人们一条解决这一问题的途径。XML是用于描述结构化数据的元标记语言,是结构化文档和数据的统一格式,提供了一个对数据的内容进行更精确声明,及为对多个松散的应用进行更有意义的搜索,得到精准的结果集提供了一个标准。  相似文献   

10.
扩展标记语言(XML)以其结构规范,扩展性强,数据存储和表现分离,自定义标签等特点而备受世人注目,自从其问世以来,发展的步伐一刻也没有停止。目前其应用已经延伸到信息发布、多媒体展示、电子商务、通用数据交换、图形的矢量化表示等多种领域。但是,由于该语言不象HTML那样有许多开发工具支持,目前在Web信息发布方面还不是非常普及,但由于其优良特性,取代HTML成为新一代的数据交换标准和Internet语言,已经是大势所趋。下面我们就用该语言来实现一个显示图像的XML程序,和大家交流和学习。  相似文献   

11.
随着XML在各个领域的广泛应用,XML数据规模急剧增加,查询处理也日趋复杂。集中式环境由于单机存在的I/O瓶颈问题,在处理日益复杂的查询操作时已渐渐不能满足应用需求。因此,高性能的并行数据库在XML处理方面的研究,必将为XML数据库的。存储和查询处理带来新的曙光。本文讨论了一种对XML文档的基于节点轮循法进行分片的设计原理及实现算法。实验结果证明该方法具有很好的加速比和缩放比性能。  相似文献   

12.
混合P2P环境下有效的查询扩展及其搜索算法   总被引:6,自引:0,他引:6  
张骞  张霞  刘积仁  孙雨  文学志  刘铮 《软件学报》2006,17(4):782-793
查询扩展是解决信息获取领域中用词歧义性问题的关键技术,并被广泛应用于搜索引擎中,获得了巨大的成功.然而,由于P2P(peer-to-peer)系统是一个分散的、动态的系统,在P2P环境下进行有效的查询扩展具有一定的挑战性.首先,利用查询与文档的关联关系构建了LEM(local expansion method)查询扩展方法;然后,基于查询与文档用词的直接关联,提出了HEM(history_based expansion method)查询扩展方法.在此基础上,提出了一种基于查询扩展的混合P2P环境下的搜索算法.实验及分析结果表明,查询扩展及其搜索算法能够极大地提高搜索的效果.  相似文献   

13.
In the era of big data, the vast majority of the data are not from the surface Web, the Web that is interconnected by hyperlinks and indexed by most general purpose search engines. Instead, the trove of valuable data often reside in the deep Web, the Web that is hidden behind query interfaces. Since numerous applications, like data integration and vertical portals, require deep Web data, various crawling methods were developed for exhaustively harvesting a deep Web data source with the minimal (or near-minimal) cost. Most existing crawling methods assume that all the documents matched by queries are returned. In practice, data sources often return the top k matches. This makes exhaustive data harvesting difficult: highly ranked documents will be returned multiple times, while documents ranked low have small chance being returned. In this paper, we decompose this problem into two orthogonal sub-problems, i.e., query and ranking bias problems, and propose a document frequency based crawling method to overcome the ranking bias problem. The rational of our method is to use the queries whose document frequencies are within the specified range to avoid the effect of search ranking plus return limit and significantly reduce the difficulty of crawling ranked data source. The method is extensively tested on a variety of datasets and compared with two existing methods. The experimental result demonstrates that our method outperforms the two algorithms by 58 % and 90 % on average respectively.  相似文献   

14.
一种支持异构数据集成的Web服务合成方法   总被引:1,自引:0,他引:1  
全立新  岳昆  刘惟一 《计算机应用》2007,27(6):1438-1441
基于“协作者”数据集成架构,以网络环境中的数据查询为基本Web服务、关系数据库和XML文档为异构数据源的典型代表,并以其上已有的查询处理和XML数据绑定技术为基础,给出了Web服务环境下的数据集成模型。通过定义该模型上的基本操作(服务),利用有向图结构描述服务合成过程,提出了支持异构数据集成的Web服务合成方法和相应的优化策略。  相似文献   

15.
Query expansion by mining user logs   总被引:9,自引:0,他引:9  
Queries to search engines on the Web are usually short. They do not provide sufficient information for an effective selection of relevant documents. Previous research has proposed the utilization of query expansion to deal with this problem. However, expansion terms are usually determined on term co-occurrences within documents. In this study, we propose a new method for query expansion based on user interactions recorded in user logs. The central idea is to extract correlations between query terms and document terms by analyzing user logs. These correlations are then used to select high-quality expansion terms for new queries. Compared to previous query expansion methods, ours takes advantage of the user judgments implied in user logs. The experimental results show that the log-based query expansion method can produce much better results than both the classical search method and the other query expansion methods.  相似文献   

16.
Together with advanced positioning and mobile technologies, P2P query processing has attracted a growing interest number of location-aware applications such as answering kNN queries in mobile ad hoc networks. It not only overcomes drawbacks of centralized systems, for example single point of failure and bottleneck issues, but more importantly harnesses power of peers’ collaboration. In this research, we propose a pure mobile P2P query processing scheme which primarily focuses on the search and validation algorithm for kNN queries. The proposed scheme is designed for pure mobile P2P environments with the absence of the base station support. Compared with centralized and hybrid systems, our system can reduce energy consumption more than six times by making use of data sharing from peers in a reasonable mean latency of processing time for networks with high density of moving objects as can be seen in the simulation results.  相似文献   

17.
Web 信息检索是指从大量Web 文档集合中找到与给定的查询请求相关的、恰当数目的文档子集。为了更准确地找到相似文档,借助于两个页面的单词覆盖程度,提出一种改进的Web 页面检索度量方法,并在KNN分类实验中得到验证。  相似文献   

18.
深网查询在Web上众多的应用,需要查询大量的数据源才能获得足够的数据,如多媒体数据搜索、团购网站信息聚合等.应用的成功,取决于查询多数据源的效率和效果.当前研究侧重查询与数据源的相关性而忽略数据源之间的重叠关系,使得不同数据源上相同结果的数据被重复查询,增加了查询开销及数据源的工作负载.为了提高深网查询的效率,提出一种元组水平的分层抽样方法来估计和利用查询在数据源上的统计数据,选择高相关、低重叠的数据源.该方法分为两个阶段:离线阶段,基于元组水平对数据源进行分层抽样,获得样本数据;在线阶段,基于样本数据迭代地估计查询在数据源上的覆盖率和重叠率,并采用一种启发式策略以高效地发现低重叠的数据源.实验结果表明,该方法能够显著提高重叠数据源选择的精度和效率.  相似文献   

19.
Natural-language understanding has evolved from its earliest days in which scientists use an early approach to parsing, to more sophisticated techniques that enable systems to extract information from open-domain text sources to fill data bases automatically. Natural language processing has many potential applications, such as translating foreign-language documents on the Web; automatically routing questions to an appropriate expert at a help/service telephone number; fully automatic question answering; delivering answers to a Web query, as opposed to delivering pointers to Web pages; and automatically filling a structured database with desired information from text or speech sources.  相似文献   

20.
部分整体关系获取是知识获取中的重要组成部分。Web逐步成为知识获取的重要资源之一。搜索引擎是从Web中获取部分整体关系知识的有效手段之一,我们将Web中包含部分整体关系的检索结果集合称为部分整体关系语料。由于目前主流搜索引擎尚不支持语义搜索,如何构造有效的查询以得到富含部分整体关系的语料,从而进一步获取部分整体关系,就成为一个重要的问题。该文提出了一种新的查询构造方法,目的在于从Web中获取部分整体关系语料。该方法能够构造基于语境词的查询,进而利用现有的搜索引擎从Web中获取部分整体关系语料。该方法在两个方面与人工构造查询方法和基于语料库查询构造查询方法所获取的语料进行对比,其一是语料中含有部分整体关系的语句数量;二是从语料中进一步获取部分整体关系的难易程度。实验结果表明,该方法远远优于后两者。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号