首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
针对Web中数据密集型的动态页面,文本数据少,网页结构化程度高的特点,介绍了一种基于HTML结构的web信息提取方法。该方法先将去噪处理后的Web页面进行解析,然后根据树编辑距离计算页面之间的相似度,对页面进行聚类,再对每一类簇生成相应的提取规则,对Web页面进行数据提取。  相似文献   

2.
随着智能家庭概念的发展与推广,出现了大量面向电视机用户的Web应用。由于用户与电视机之间通过遥控的方式进行交互,一方面使得网页浏览代价受页面元素排布的影响较大,而另一方面,电视机网页元素类型和数量少的特点,使得对其进行自动优化成为可能。考虑到包括按键式遥控器、手势、触屏等电视机交互方式,根据不同的交互方式的特点提出了页面浏览代价的计算方法;考虑到元素类型、位置、大小、内容关键字、网页结构等信息,提出了一种页面元素可替换性评估方法;在这两种方法的基础上,基于网页浏览代价全局最小化的原则,提出了根据页面的访问情况动态对网页进行自动重构的方法。在一个包含116个页面的电视机Web应用中采用该方法进行的实验验证了方法的正确性和有效性。  相似文献   

3.
随着Web信息的爆炸性增长,如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰人们的一大问题.Web信息采集系统就是分析页面在Web上的分布特征,利用网站和网页版面元素以及页面之间的关系,并将这些关系转换成所需要数据的过程.  相似文献   

4.
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。  相似文献   

5.
在目前数据爆发的互联网时代,论坛舆论走向对于社会的影响越来越大,对舆论进行监控引导已经不可避免,在数据如此巨大的环境中,有效地监控舆论信息成为一个难题.论坛网页中标题、内容等关键信息是舆论监控中的主要以及重点信息.为了提取论坛网页中的标题、内容、作者等与舆情相关的信息,文章提出了一种基于VIPS算法和智能模糊字典匹配相结合的网页内容提取方法.VIPS算法是利用Web页面的视觉提示背景颜色,字体的颜色和大小,边框、逻辑块和逻辑块之间的间距等,结合DOM树进行页面语义分块.智能模糊字典采用AC BM匹配算法把VIPS分块的语义块与数据库里的标签相匹配,提取出匹配正确的字段.两者的结合可以提取出帖子的标题、内容、作者、发帖时间等信息.该方法具体步骤是首先利用VIPS算法将网页页面块进行提取,再用分隔条检测设置分隔条,然后重构语义块,检测后将分割后的网页保存为xml格式文件,再将xml文件中的语义块与字典进行匹配,提取出匹配成功的内容.最后,文章通过实验证明了该方法的有效性.  相似文献   

6.
基于Web标准的页面分块算法研究   总被引:1,自引:0,他引:1  
页面分块在文档分类,信息抽取,主题信息采集,以及搜索引擎优化等方面具有重要的作用.首先提出了一种基于Web标准的页面分块算法,通过对网页进行解析和布局分析,利用Web标准对网页进行分块.实验证明该算法在对遵循Web标准的网页进行分块时,在分块准确性和复杂页面适应性方面得到了提高.  相似文献   

7.
熊忠阳  蔺显强  张玉芳  牙漫 《计算机工程》2013,(12):200-203,210
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。  相似文献   

8.
Web页面信息通常包含大量无关结构和HTML标记,而页面主题信息通常淹没其中,如何快速获取Web页面主题信息。本文提出了一种抽取策略,首先判定是否为主题型页面,然后提取网页正文信息,最后利用正则表达式滤除内容块中HTML标记和无关文字。实验结果表明:该方法能准确地完成主题型网页的正文抽取任务。  相似文献   

9.
随着网络的高速发展,如何在海量信息中找到用户需求的高质量信息变得非常重要,技术难度较大.网页在搜索结果中排名是否靠前与巨大的商业利润相关联,这使得大量的垃圾网页出现在网络中.过滤Spam页面、给用户提供高质量的搜索结果成为当前Web搜索引擎的面临的一个巨大挑战.大量研究工作显示Spam页面之间存在着勾结的现象,分析Spam页面链接结构特性成为过滤Spam页面的重要方法.根据Spam网页链接结构存在的共性,提出了一种基于链接分析的Web Spam过滤方法.在标准检测数据集上进行实验,并与相关工作进行比较.实验结果表明,提出的方法能有效地对Spam网页进行过滤,提高搜索结果的质量.  相似文献   

10.
Web作为巨大的数据源,从Web中提取知识是当前信息研究的热点之一.主要研究针对HTML和XML页面如何生成Wrapper程序以便能够自动地从特定网页中提取有用信息,并成为将来进行Web挖掘的基础.  相似文献   

11.
一个基于XML的WEB数据收集模型的研究   总被引:15,自引:0,他引:15  
目前研究的热门领域Web数据挖掘是从WWW资源上抽取信息(或知识)的过程,是对Web资源中蕴含的、未知的、有潜在应用价值模式的提取。其一般的过程可表示为:信息的发现、信息的选择和预处理、分析过程、产生结果犤1犦。WEB上的数据收集是对WEB数据挖掘的一种支持技术,是WEB数据挖掘的第一步。该文提出了一种基于XML技术的WEB数据收集模型,并实现了其中的一些主要功能。同时针对模型系统的不足做了一些有意义的改进探索。  相似文献   

12.
在对Web页面数据存储与显示的高度一致的结构分析基础上,提出了设计一种将HTC行为技术与XML相结合的Web组件,用于解决Web界面元素复用性和频繁页面刷新等问题。本文重点对基于XML的Web数据处理流程和HTC中实现行为的机制进行了研究,通过编写和引用HTC内容设计了常用的Web组件,并应用该Web组件给出了一个网上考试系统中页面的实例。  相似文献   

13.
基于XML的通用异构数据交换模型   总被引:1,自引:1,他引:1  
为了改进传统数据交换共享平台缺乏通用性和扩展性的问题,实现企业之间业务流数据的安全交换,设计了一种基于Web服务架构的可扩展通用数据交换平台.该平台充分利用了可扩展标记语言、简单对象访问协议、统一描述、发现和集成协议及Web服务描述语言的优点,采用对称密码及非对称密码技术对企业业务数据加密,建立了Web服务器体系统结构和基于企业B2B(企业间电子商务)集成解决方案的数据交换模型,并以.NET及C#语言实现.该平台实现了企业之间异构数据独立于平台的交互,数据交换过程中具有较高的安全性.  相似文献   

14.
目前在web环境下的异构数据集成研究,已经利用XML解决了结构的异构问题,但是未能有效解决语义的异构问题.引入本体提出利用本体解决语义异构的方法,给出一个本体驱动的web数据集成的体系结构,可以较好地解决语义异构问题.  相似文献   

15.
随着网络通信技术的快速发展与成本的不断降低,越来越多的信息都被发布到网络上.但是,由于Web数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向Web的数据挖掘成了一个新的课题.介绍了Web数据挖掘的分类以及当前的发展状况,并将XML技术应用在Web数据挖掘中,介绍了一个自动挖掘的模型,应用于股票信息自动采集系统,展示了Web数据自动挖掘方法的可行性与优越性.同时,也指出了Web数据自动挖掘尚存的不足及其发展前景.  相似文献   

16.
Web数据挖掘中数据集成问题的研究   总被引:3,自引:0,他引:3  
在分析Web环境下数据源特点的基础上,对Web数据挖掘中的数据集成问题进行了深入的研究,给出了一个基于XML技术的集成方案.该方案采用Web数据存取方式将不同数据源集成起来,为Web数据挖掘提供了统一有效的数据集,解决了Web异构数据源集成的难题.通过一个具体实例介绍了Web数据集成的过程.  相似文献   

17.
An XML-enabled data extraction toolkit for web sources   总被引:7,自引:0,他引:7  
The amount of useful semi-structured data on the web continues to grow at a stunning pace. Often interesting web data are not in database systems but in HTML pages, XML pages, or text files. Data in these formats are not directly usable by standard SQL-like query processing engines that support sophisticated querying and reporting beyond keyword-based retrieval. Hence, the web users or applications need a smart way of extracting data from these web sources. One of the popular approaches is to write wrappers around the sources, either manually or with software assistance, to bring the web data within the reach of more sophisticated query tools and general mediator-based information integration systems. In this paper, we describe the methodology and the software development of an XML-enabled wrapper construction system—XWRAP for semi-automatic generation of wrapper programs. By XML-enabled we mean that the metadata about information content that are implicit in the original web pages will be extracted and encoded explicitly as XML tags in the wrapped documents. In addition, the query-based content filtering process is performed against the XML documents. The XWRAP wrapper generation framework has three distinct features. First, it explicitly separates tasks of building wrappers that are specific to a web source from the tasks that are repetitive for any source, and uses a component library to provide basic building blocks for wrapper programs. Second, it provides inductive learning algorithms that derive or discover wrapper patterns by reasoning about sample pages or sample specifications. Third and most importantly, we introduce and develop a two-phase code generation framework. The first phase utilizes an interactive interface facility to encode the source-specific metadata knowledge identified by individual wrapper developers as declarative information extraction rules. The second phase combines the information extraction rules generated at the first phase with the XWRAP component library to construct an executable wrapper program for the given web source.  相似文献   

18.
Studying the XML Web: Gathering Statistics from an XML Sample   总被引:1,自引:0,他引:1  
XML has emerged as the language for exchanging data on the web and has attracted considerable interest both in industry and in academia. Nevertheless, to date, little is known about the XML documents published on the web. This paper presents a comprehensive analysis of a sample of about 200,000 XML documents on the web, and is the first study of its kind. We study the distribution of XML documents across the web in several ways; moreover, we provided a detailed characterization of the structure of real XML documents. Our results provide valuable input to the design of algorithms, tools and systems that use XML in one form or another. An erratum to this article is available at .  相似文献   

19.
RSS与语义网研究   总被引:2,自引:0,他引:2  
RSS正在把信息荻取的主动权还给用户,并在网络信息构建中得到越来越广泛的应用,这也标志着个性化信息聚合时代的来临.作为现有Web的扩展,语义网提供了一个通用的框架,允许跨越不同应用程序.企业和团体共享和重用数据.深入探讨了RSS及语义网的研究背景、特点与应用、相互间的关系、发展方向及可能面临的问题和挑战.  相似文献   

20.
可扩展标记语言XML的产生与应用技术   总被引:11,自引:2,他引:9  
可扩展标记语言 XML是一项新兴的网络技术,它由 W3C制订并于 1998年正式发布。 XML的产生源于 HTML和SGML,文章对这一背景给予了简要的讨论,并从可扩展性、结构描述和有效性确认三个主要方面介绍了XML的优点.文章重点讨论了基于 XML的网络应用,给出了一个通用的应用模式,详细探讨了其中的若干关键技术问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号