共查询到20条相似文献,搜索用时 234 毫秒
1.
Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。 相似文献
2.
web论坛中蕴含着海量的信息资源,抽取论坛数据意义重大,因此本文提出了一种基于DOM树的通用论坛抽取方法,通过统计页面中的div标签频率,抽取出分布于各楼层中的主题信息。该方法无需人工干预,能够实现完全的自动化抽取。实验结果证明,该方法在bbs论坛网页抽取中具有较高的准确率和通用性。 相似文献
3.
一种全自动生成网页信息抽取Wrapper的方法 总被引:6,自引:2,他引:4
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。 相似文献
4.
5.
6.
万文兵 《计算机光盘软件与应用》2015,(1):15-16
Web页面信息通常包含大量无关结构和HTML标记,而页面主题信息通常淹没其中,如何快速获取Web页面主题信息。本文提出了一种抽取策略,首先判定是否为主题型页面,然后提取网页正文信息,最后利用正则表达式滤除内容块中HTML标记和无关文字。实验结果表明:该方法能准确地完成主题型网页的正文抽取任务。 相似文献
7.
随着网络技术的发展,互联网上出现了大量的就业信息,但信息数据零散的以不同的呈现方式展现在各种就业信息网站中。为了解决传统的Web信息抽取方法中准确率和效率相矛盾的问题,本文通过采用基于网页视觉特征的模板生成方法,提出了一种基于网页视觉特征的就业信息页面抽取方法,在保证抽取准确率的同时,尽可能减少人工干预。该方法通过分析网页视觉特征自动生成初始模板,并通过人工配置,生成最终网页抽取模板。通过此方法,实现了将互联网上零散的就业数据转换为统一的数据格式存储下来。实验结果表明,本文提出的抽取方法抽取的准确率和召回率都很高,取得了比较好的抽取结果。 相似文献
8.
在信息检索领域,数据抽取技术已成为研究重点之一。提出一种基于DOM树的Web数据对象自动抽取方法。该方法首先将网页解析为DOM树,然后将结构相似的子树抽取出来作为候选数据对象,接着再计算候选数据对象的内容相似度,内容相似度低的则为数据对象。实验证明该方法能够有效地将各种Web数据对象从网页中抽取出来,召回率和准确率都比较高,且该方法独立于领域,独立于Web数据对象的表示形式,较好地解决了Web数据对象的抽取问题。 相似文献
9.
10.
网页的半结构化特点与新闻的自身特征为选择性抽取网页内容创造了条件。我们在前人的研究基础上,挖掘Web页面结构特征、充分利用Html标记与新闻特征,重点从Web页面编者对文本修饰角度出发,提出了基于网页内容分割的主题内容抽取方法。实验结果表明该方法能有效地抽取新闻各要素,测试的抽取准确率在96%以上。 相似文献
11.
12.
在信息技术教学中,许多资源都会放在网络中,以供学生浏览和提供学生交流的论坛。因此需要架设WED服务器,本文以机房实际的应用为主,阐述了Linux下如何架设WED服务器。 相似文献
13.
随着3G移动通信等无线传输技术的迅猛发展,越来越多的用户开始利用无线设备上网获取所需信息。现有的WEB系统信息量大、费流量,版面复杂,不利于手机浏览。作为面向无线环境定制的一套协议,WAP解决了以上问题。而针对所有现有互联网信息重新构造WAP系统将花费大量的人力物力。本文通过构造一种有效的WEB到WAP的转换机制来实现现有互联网系统向手机应用的迁移,包括网页分块、广告去噪、语义关联、页面重组等步骤,这一解决方案保证了转换后内容的连贯与页面布局的合理。通过实验证明是一种行之有效的转换机制。 相似文献
14.
通过分析现有财务管理信息系统和教务管理信息系统的异构性,结合Web服务跨平台的技术优势,提出了基于Web服务的"共享数据中心"学分制实时收费模型.该模型充分利用现有资源,有效整合已有系统,较好地解决了学年制到学分制收费改革所带来的软件升级问题,提出的基于角色的Web服务访问权限控制和基于Web服务调用日志的数据库恢复策略,提高了系统的安全性和可靠性. 相似文献
15.
目前高校内各部门的管理信息系统都拥有独立的记录登录日志和读取登录日志的模块,从而造成了业务逻辑的重复和数据的冗余。针对这种情况提出了一种基于WebServices的系统登录日志技术,使各异构系统能够统一调用登录日志的WebServices。这种方案充分利用了现有的网络资源,有效地避免数据与业务逻辑的冗余,实现了模块和数据的重用。 相似文献
16.
17.
表格布局是网页教学中页面布局的入门方法,而DIV+CSS是目前网页设计中比较流行的一种页面布局方式。针对网页布局的应用变化,介绍了DIV+CSS布局方式的使用方法,并通过一些实例说明DIV+CSS布局的基本用法及使用技巧,同时提出了引入DIV+CSS布局引起的网页设计教学的变化。 相似文献
18.
Web信息抽取是当前的一个研究热点,本文分析分布在互联网上众多生物信息数据库资源现状,以分布式异构数据库Mediator/Wrapper集成方式为基础提供具体查询应用解决方案,实现用户访问的集成检索与分析功能. 相似文献
19.
随着网络的迅速发展,基于互联网的生物信息数据库也得到了快速的发展。浏览和查询机制的效率太低,如何采取对这些资源的充分的使用是一个大问题。文章提供一种以分布式异构数据库Mediator/Wrapper集成方式为基础提供具体查询应用解决方案,实现用户访问的集成检索与分析功能。 相似文献
20.
分析分布在互联网上众多生物信息数据库资源现状,以分布式异构数据库Mediator/Wrapper集成方式为基础提供具体查询应用解决方案,实现用户访问的集成检索与分析功能。 相似文献