首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于规则模型的网页主题文本提取方法   总被引:1,自引:1,他引:0  
通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法.该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到有效提取网页主题文本的目的.实验结果表明,该方法对于各类型网页主题文本的提取均具有较高的准确卒,通用性强.  相似文献   

2.
一种全自动生成网页信息抽取Wrapper的方法   总被引:4,自引:2,他引:4  
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。  相似文献   

3.
Web的迅速发展,使其日益成为人们查找有用数据的重要来源,但是Web站点主题各异、形式多样、结构不同,其页面组织结构很难用系统的方法来有效抽取目标数据.文中将使用Asp. Net技术开发一种基于Web内容的数据自动抽取方法.首先选择目标数据源并自动调用获取其静态html文档内容,然后根据约定规则生成网页描述文件,分析html文档,设定目标锚,最后利用正则表达式和c#技术自动抽取目标数据并生成所需Web页面.这种数据自动抽取方法可以使Web用户快捷地从结构化、半结构化网页中抽取其所需的数据信息  相似文献   

4.
针对现有Web信息抽取技术存在的准确率不高,自动化程度较低以及通用性较弱等诸多不足,结合林产品贸易Web信息推送中对信息源进行结构化存储的需要,提出一种新的基于语义的林产品贸易Web信息抽取算法;充分分析并利用林产品贸易Web信息的特征,结合语义识别的基本原理,构建林产品贸易语义词典,同时利用所需抽取的目标信息在网页中的布局特征,结合信息熵理论提出了基于语义信息熵的目标信息自动定位抽取方法,以抽取需要的目标信息,并以一种结构化的形式存储于数据库中。通过实验对实际林产品贸易Web信息网页的抽取,证明了该算法能够降低人工干预,在林产品贸易信息推送中对信息源的处理具有较好的应用价值。  相似文献   

5.
模式发现在Web抽取中的应用及设计   总被引:3,自引:0,他引:3  
蔡霞  张森  周宇 《控制工程》2003,10(3):227-229,269
WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动数据抽取技术。初步实验结果表明所得的抽取规则能从多数搜索引擎上获得较高的抽取率。该方法对于从搜索引擎的搜索结果等结构化、半结构化网页中自动抽取重复模式具有较好的效果。  相似文献   

6.
基于关键词聚类和节点距离的网页信息抽取   总被引:2,自引:0,他引:2  
大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中。  相似文献   

7.
基于无秩树自动机的信息抽取技术研究   总被引:1,自引:0,他引:1  
针对目前基于网页结构的信息抽取方法的缺陷,提出了一种基于无秩树自动机的信息抽取技术,其核心思想是通过将结构化(半结构化)文档转换成无秩树,然后利用(k,l)-contextual树构造样本自动机,依据树自动机接收和拒绝状态来对网页进行数据的抽取.该方法充分利用结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则.实验结果表明,该方法与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高.  相似文献   

8.
鉴于传统方法在赌博网站检测上时效性低、准确度低,提出基于PAM概率主题模型的赌博网站检测方法.抽取网站及其关联网页的文本内容,并参考网站的结构化信息给不同的文本内容赋予不同的权重;利用PAM模型对网页文本信息进行主题挖掘,分析其是否大概率倾向于"赌博"主题;综合计算所抽取的各个网页的主题信息,判断该网站是否属于赌博网站,从而实现对赌博网站的有效检测.通过实验分析,该方法在赌博网站检测上的准确度达到72.3%.  相似文献   

9.
提出一种从科技文献等文档中自动抽取元数据的方法,将自动归纳法和相似特征度算法结合起来,基于特征相似的归纳学习算法自动生成抽取规则,并对文档进行元数据的自动抽取。这种方法利用文档自身某些特有属性,对文档的内容进行分块,利用归纳法自动生成抽取规则,并结合特征相似度对生成规则进行匹配,然后对文档元数据信息进行自动抽取,提高了自动生成规则的效率和抽取元数据信息的准确率。  相似文献   

10.
采用树自动机推理技术的信息抽取方法   总被引:1,自引:1,他引:0       下载免费PDF全文
提出了一种利用改进的k-contextual树自动机推理算法的信息抽取技术。其核心思想是将结构化(半结构化)文档转换成树,然后利用一种改进的k-contextual树(KLH树)来构造出能够接受样本的无秩树自动机,依据该自动机接收和拒绝状态来确定是否抽取网页信息。该方法充分利用了网页文档的树状结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则。实验证明,该方法与同类抽取方法相比,样本学习时间以及抽取所需时间上均有所缩短。  相似文献   

11.
空间元数据系统的研究与设计   总被引:7,自引:0,他引:7  
本文介绍了空间元数据的基本概念,分析了空间元数据标准和空间元数据系统研究的现状和面临的困难,提出了一种有效的空间元数据系统模型,用于采集、管理、维护和发布空间元数据,并实现空间元数据的快速查询和准确定位。  相似文献   

12.
随着远程教育的不断发展,如何进行信息资源共享已经成远程教育发展中迫切需要解决的重要任务.在对远程教育中学习对象元数据应用和关键技术分析的基础上,研究在远程教育信息资源共享中如何有效利用学习对象元数据.  相似文献   

13.
数字地球中的元数据管理模型研究   总被引:8,自引:0,他引:8       下载免费PDF全文
元数据是营数字地球的关键技术之一,是数字地球中实现空间信息共享的主要解决途径之一,它与空间信息的共享是密不可分的。从数字地球的角度出发,对空间元数据的定义,在数字地球中的重要作用,管理模型及其解决方案和应用等方面进行了较为详细的研究,并给出了基于一种 方案的具体实现和示范系统,为数字地球中的信息共享提供了可行有效的解决途径。  相似文献   

14.
基于元数据目录服务的地理空间数据共享   总被引:10,自引:0,他引:10  
在元数据标准的基础上,通过论述元数据目录服务的框架结构以及建立在元数据目录服务基础上的GIS Portal的模型,为更好的数据共享提供解决方案,使得用户能够快速准确地获取所需地理空间数据。  相似文献   

15.
16.
This paper describes the system design and the components of a web-based multimedia interactive Telelearning system (MITS) with emphasis on metadata and media content management mechanisms. Metadata model is defined and exploited in designing the overall architecture to support courseware creating, management, delivery, and learner performance evaluation. Multimedia document architecture is used to describe the media contents which represent the course material. Metadata and media contents are generated, stored, and utilized to facilitate the search and on-demand presentation of learning objects. Learner preference, performance and progress information is maintained by profile database to make courseware presentation adaptable and more interactive. The system provides a multimedia interactive learning environment with easy-to-search and highly reusable learning objects.  相似文献   

17.
元数据(Meta Data)是用来描述应用中数据结构的数据或文档,即关于数据的数据,处在数据ETL系统的核心位置。分析了元数据在ETL中的作用,设计了元数据模型,提出了元数据管理系统的设计原则和步骤,使其具有广泛的适应性、很好的扩展性和可重用性。  相似文献   

18.
数据仓库中的元数据与CWM规范   总被引:2,自引:0,他引:2  
Metadata plays a very important role in data warehouse. Metadata helps developers and administrators develop, maintain and manage data warehouse, it also helps end users understand, acquire and analyze data. In this paper contents and functions about metadata are introduced,and CWM specification advanced by OMG is discussed.  相似文献   

19.
系统集成是信息化建设的必然趋势。所谓系统集成就是对多个异构系统进行集成,能在多个数据源中查询信息,给用户提供统一的查询接口。本文提出了基于元数据的异构系统集成设计方案,给出了相应的元数据集成思想和系统设计框架,并对其中系统实现的关键技术进行了探讨。  相似文献   

20.
WEB数据集成系统中元数据的管理   总被引:4,自引:0,他引:4  
在WEB数据集成系统中,对数据源元数据进行有效管理是实现WEB数据集成系统的关键。本文提出了利用XMLSchema设计元数据字典(MDD)的通用模型,依此模型实现对各数据源元数据的有效管理,并进一步分析在模式集成中常见异构性的解决方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号