首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。  相似文献   

2.
web论坛中蕴含着海量的信息资源,抽取论坛数据意义重大,因此本文提出了一种基于DOM树的通用论坛抽取方法,通过统计页面中的div标签频率,抽取出分布于各楼层中的主题信息。该方法无需人工干预,能够实现完全的自动化抽取。实验结果证明,该方法在bbs论坛网页抽取中具有较高的准确率和通用性。  相似文献   

3.
一种全自动生成网页信息抽取Wrapper的方法   总被引:6,自引:2,他引:4  
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。  相似文献   

4.
目前多数抽取方法主要针对主题信息块的提取,未深入到各单独信息块。为此,设计一种基于DOM树的视频元数据抽取系统。通过改进Heritrix的链接过滤功能和URL队列管理策略,结合网页DOM树节点类型,从各单独信息块中抽取网页元数据。实验结果表明,该系统的网页平均查准率为95.7%,平均抽取准确率为98.4%,高于同类系统。  相似文献   

5.
基于数据区域发现的信息抽取规则生成方法   总被引:2,自引:2,他引:0       下载免费PDF全文
提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有较高的抽取准确率和查全率。  相似文献   

6.
Web页面信息通常包含大量无关结构和HTML标记,而页面主题信息通常淹没其中,如何快速获取Web页面主题信息。本文提出了一种抽取策略,首先判定是否为主题型页面,然后提取网页正文信息,最后利用正则表达式滤除内容块中HTML标记和无关文字。实验结果表明:该方法能准确地完成主题型网页的正文抽取任务。  相似文献   

7.
张昕  鄂海红  宋美娜  杨俊 《软件》2014,(9):16-20
随着网络技术的发展,互联网上出现了大量的就业信息,但信息数据零散的以不同的呈现方式展现在各种就业信息网站中。为了解决传统的Web信息抽取方法中准确率和效率相矛盾的问题,本文通过采用基于网页视觉特征的模板生成方法,提出了一种基于网页视觉特征的就业信息页面抽取方法,在保证抽取准确率的同时,尽可能减少人工干预。该方法通过分析网页视觉特征自动生成初始模板,并通过人工配置,生成最终网页抽取模板。通过此方法,实现了将互联网上零散的就业数据转换为统一的数据格式存储下来。实验结果表明,本文提出的抽取方法抽取的准确率和召回率都很高,取得了比较好的抽取结果。  相似文献   

8.
在信息检索领域,数据抽取技术已成为研究重点之一。提出一种基于DOM树的Web数据对象自动抽取方法。该方法首先将网页解析为DOM树,然后将结构相似的子树抽取出来作为候选数据对象,接着再计算候选数据对象的内容相似度,内容相似度低的则为数据对象。实验证明该方法能够有效地将各种Web数据对象从网页中抽取出来,召回率和准确率都比较高,且该方法独立于领域,独立于Web数据对象的表示形式,较好地解决了Web数据对象的抽取问题。  相似文献   

9.
针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。  相似文献   

10.
网页的半结构化特点与新闻的自身特征为选择性抽取网页内容创造了条件。我们在前人的研究基础上,挖掘Web页面结构特征、充分利用Html标记与新闻特征,重点从Web页面编者对文本修饰角度出发,提出了基于网页内容分割的主题内容抽取方法。实验结果表明该方法能有效地抽取新闻各要素,测试的抽取准确率在96%以上。  相似文献   

11.
随着互联网的发展,网络论坛中蕴涵着数量巨大且质量较好的知识资源。因此对论坛信息进行有效地检索具有重要应用价值。该文研究适合于论坛数据的检索模型,以期能够充分利用论坛平台累积的海量数据来满足用户的信息需求。针对论坛页面和普通新闻页面的区别,该文提出关键帖抽取算法和论坛线索重构算法来选择论坛中信息含量丰富的帖子,并利用得到的帖子构建检索系统。实验表明该文提出的方法能够有效地提升论坛检索系统的效果。  相似文献   

12.
彭方 《电脑学习》2009,(4):114-115
在信息技术教学中,许多资源都会放在网络中,以供学生浏览和提供学生交流的论坛。因此需要架设WED服务器,本文以机房实际的应用为主,阐述了Linux下如何架设WED服务器。  相似文献   

13.
随着3G移动通信等无线传输技术的迅猛发展,越来越多的用户开始利用无线设备上网获取所需信息。现有的WEB系统信息量大、费流量,版面复杂,不利于手机浏览。作为面向无线环境定制的一套协议,WAP解决了以上问题。而针对所有现有互联网信息重新构造WAP系统将花费大量的人力物力。本文通过构造一种有效的WEB到WAP的转换机制来实现现有互联网系统向手机应用的迁移,包括网页分块、广告去噪、语义关联、页面重组等步骤,这一解决方案保证了转换后内容的连贯与页面布局的合理。通过实验证明是一种行之有效的转换机制。  相似文献   

14.
通过分析现有财务管理信息系统和教务管理信息系统的异构性,结合Web服务跨平台的技术优势,提出了基于Web服务的"共享数据中心"学分制实时收费模型.该模型充分利用现有资源,有效整合已有系统,较好地解决了学年制到学分制收费改革所带来的软件升级问题,提出的基于角色的Web服务访问权限控制和基于Web服务调用日志的数据库恢复策略,提高了系统的安全性和可靠性.  相似文献   

15.
刘雅娟 《计算机时代》2009,(7):48-49,52
目前高校内各部门的管理信息系统都拥有独立的记录登录日志和读取登录日志的模块,从而造成了业务逻辑的重复和数据的冗余。针对这种情况提出了一种基于WebServices的系统登录日志技术,使各异构系统能够统一调用登录日志的WebServices。这种方案充分利用了现有的网络资源,有效地避免数据与业务逻辑的冗余,实现了模块和数据的重用。  相似文献   

16.
基于网页布局及关键词组的垂直搜索技术   总被引:3,自引:0,他引:3  
提出了基于网页布局及关键词组的垂直搜索技术.在对特定信息进行抽取时,根据Web页面的布局特性,对页面采取分而治之的策略,同时在信息抽取时考虑各块之间的联系,以关键词组确定的关键节点为中心,与其他信息节点组成星形脉络图.实验结果表明,该方法具有较强的网页垂直搜索能力.  相似文献   

17.
表格布局是网页教学中页面布局的入门方法,而DIV+CSS是目前网页设计中比较流行的一种页面布局方式。针对网页布局的应用变化,介绍了DIV+CSS布局方式的使用方法,并通过一些实例说明DIV+CSS布局的基本用法及使用技巧,同时提出了引入DIV+CSS布局引起的网页设计教学的变化。  相似文献   

18.
Web信息抽取是当前的一个研究热点,本文分析分布在互联网上众多生物信息数据库资源现状,以分布式异构数据库Mediator/Wrapper集成方式为基础提供具体查询应用解决方案,实现用户访问的集成检索与分析功能.  相似文献   

19.
随着网络的迅速发展,基于互联网的生物信息数据库也得到了快速的发展。浏览和查询机制的效率太低,如何采取对这些资源的充分的使用是一个大问题。文章提供一种以分布式异构数据库Mediator/Wrapper集成方式为基础提供具体查询应用解决方案,实现用户访问的集成检索与分析功能。  相似文献   

20.
分析分布在互联网上众多生物信息数据库资源现状,以分布式异构数据库Mediator/Wrapper集成方式为基础提供具体查询应用解决方案,实现用户访问的集成检索与分析功能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号