首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
每个网页中都存在许多超链接,很多网页的有用信息都存在于超链接中,如何有效地获取这些超链接成为Web挖掘的一个重要步骤。提出了利用HTMLParser开源工具实现Web页面解析,提取网页的超链接,从而获取有用信息,为下一步开发搜索引擎做准备。  相似文献   

2.
基于XML的网页信息自动抽取   总被引:4,自引:0,他引:4  
周津  朱明  郑全 《计算机应用》2004,24(Z1):225-227
文章提出了一种基于XML的网页信息自动抽取的方法和框架,通过利用网页中信息的结构相似性和词法相似性,自动学习出网页信息的记录模式并归纳出相应的词法模式,从而避免了繁重的人为样本收集与标记工作,也免去了人工给定模式的工作,具备很强的自动性.同时自动归纳出的词法模式还可以应用到其他网站和非结构化文本中.  相似文献   

3.
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。  相似文献   

4.
基于网页结构特征的网页主要文本信息抽取策略   总被引:1,自引:0,他引:1  
根据网页文本信息的存储特点,提出一种网页文本信息抽取策略,有效地实现了对文本丰富型网页中主要文本信息的抽取工作.该抽取方法具有较强的空阃适应性和时间适应性.  相似文献   

5.
随着互联网的快速发展,网络中的信息正在爆炸式地增长,网页作为网络中信息表达的方式之一,其结构也变得越来越复杂。而如何精确、高效地从网页中获取目标信息成为一个问题。本文总结现有的针对网页的信息抽取方法并加以分类,同时分析其优缺点,最后对未来的研究内容进行展望。  相似文献   

6.
基于多知识的Web网页信息抽取方法   总被引:10,自引:1,他引:9  
从Web网页中自动抽取所需要的信息内容,是互联网信息智能搜取的一个重要研究课题,为有效解决网页信息抽取所需的信息描述知识获取问题,这里提出了一个种基于多知识的Web网页信息抽取方法(简称MKIE方法)。该方法将网页信息抽取所需的知识分为二类,一类是描绘网页内容本身表示特点,以及识别各网信息对象的确定模式知识,另一类则描述网页信息记录块,以及各网页信息对象的非确定模式知识,MKIE方法根据前一类知识,动态分析获得后一类知识;并利用这两类知识,最终完全从信息内容类似担其表现形式各异的网页中,抽取出所需要的信息,美大学教员论文网页信息抽取实验结果表明,MKIE方法具有较强的网而信息自动识别与抽取能力。  相似文献   

7.
由于网页信息具有异构和动态的特点,致使现有的大多数网页信息抽取方法都存在适用性差的问题。为此,将传统的文本分类器和隐式马尔可夫学习策略结合起来,提出了一种基于多学习策略的网页信息抽取方法。该方法在获得网页文本记录的局部最优分类抽取结果基础上,还利用了整个网页文本结构信息对抽取结果进行进一步优化。实验结果表明,该方法不需要对新的站点进行学习,就能获得较高的信息召回率和抽取精度,具有较强的适用性。  相似文献   

8.
文章提出了一种基于DOM(文档结构模型)和网页模板的Web信息提取方法.参照DOM的定义,通过构造HTML解析树来描述网页结构.在抽取网页之前,先通过归纳网页模板来过滤网页中的噪音信息.然后,使用基于相对路径的抽取规则来进行信息抽取.最后,本文给出了归纳网页模板和抽取网页信息的实验结果.实验结果表明本文提出的归纳网页模板方法和信息抽取方法是正确的和高效的.  相似文献   

9.
Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。  相似文献   

10.
基于DOM的网页主题信息的抽取   总被引:1,自引:0,他引:1  
随着Internet的发展,Web页面信息量不断加大,信息密集程度不断加强。但Web页面的主题信息通常不太明确,抽取主题信息也比较困难。针对这一难题,提出一种算法:构建文档对象模型DOM(Document Object Model)树,然后针对HTML半结构特征的不足,为DOM添加显示、语义(链接数、非链接文字数、高度、宽度)等属性,并提出一种聚类规则来对其进行分块,最后对其进行剪枝,删除掉无用的信息,提取主题信息。实验表明,该方法能够准确抽取主题信息。  相似文献   

11.
基于HTMLParser和HttpClient的网络爬虫原理与实现   总被引:2,自引:0,他引:2  
张亮 《电脑编程技巧与维护》2011,(20):94+103-94,103
介绍了网络爬虫的技术原理,给出了使用HTMLParser、HttpClient和Java实现简单网络爬虫的程序框架,对同类研究有一定的参考作用.  相似文献   

12.
无论是通用搜索还是垂直搜索,其关键的核心技术之一就是网络爬虫的设计.本文结合HTMLParser信息提取方法,对生活类垂直搜索引擎中网络爬虫进行了详细研究.通过深入分析生活类网站网址的树形结构的构架,开发了收集种子页面URL的模拟搜索器,并基于HTMLParser的信息提取方法,从种子页面中提取出与生活类主题相关的目标URL.经实验测试证明该爬虫的爬准率达93.552%,爬全率达96.720%,表明该网络爬虫是有效的,达到中等规模的垂直搜索企业级应用的要求.  相似文献   

13.
BT流量对校园网络造成的影响及其对策   总被引:3,自引:1,他引:3       下载免费PDF全文
本文只要针对BT流量在高校校园网络上应用所造成的影响和对策进行探讨,以抛砖引玉.  相似文献   

14.
为了实时获取BT客户端的信息,为分析BT客户端的下载行为提供数据,设计了一个BT客户端下载信息自动获取系统。系统采用了窃取BT进程内存数据的技术和自动控制BT客户端的技术来获取下载信息和控制BT客户端,通过写入远程数据库实现数据的汇总。  相似文献   

15.
BitTorrent网络在Internet中有着广泛的应用,网络中的节点有着匿名性和自由性的特点,比较有利于进行身份的隐藏,以及隐秘信息的传输。利用Lehmer code算法构建一个基于插件技术的BT网络隐藏传输系统,其功能是在一个正常的BT网络应用中,部分有特殊身份的用户在不暴露身份的情况下,能够发现网络中具有相同身份的用户并进行通信,同时不影响网络的正常运行,达到隐藏身份和隐秘通信的目的。  相似文献   

16.
随着Internet的迅猛发展,Web上的网页数目呈现指数级的爆炸性增长趋势,在Web上检索及发现有价值的信息已成为了一项重要的任务,"噪音"的出现往往会降低基于页面处理的各种算法的效率。因此,如何删除页面的噪音,提取页面中的主要内容是Web挖掘中的重要问题。给出了抽取网页中各种分类有效的文本的具体实现。  相似文献   

17.
黄捷  古辉 《计算机系统应用》2011,20(5):51-54,149
通过计算机自动实现对程序的理解是目前国内外研究的热点内容。以面向对象程序为研究对象,提出了一种从面向对象程序中抽取类信息的规则,利用该规则可以将程序中的类以及其它程序信息抽取出来,并以UML类图形式表示出来,进而为计算机自动实现对程序的理解奠定基础。在本文中描述了产生UML类图中的各类规则,包括了类、属性、操作、对象、关系、继承、关联和接口等。最后介绍了该规则的一个应用实例。  相似文献   

18.
针对从Web页面获取信息的广泛需求,分析了从中提取信息的关键技术如URL地址、HTML页面和HtmlParse解析库;以从Google Map中获取企业黄页信息为例,根据从中自动提取数据的技术和步骤,设计和实现了该系统原型,并指出的相关问题及其解决办法.  相似文献   

19.
BitTorrent(BT)是中心索引式的P2P系统。节点要进行下载必须从中心索引服务器获取一个扩展名为torrent的索引文件,中心索引服务器成为系统的瓶颈。文章提出一种基于Merkle树的torrent文件优化策略,使torrent文件大幅减小,减轻中心索引服务器的负担,改善BT的可扩展性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号