首页 | 本学科首页   官方微博 | 高级检索  
     

HTMLParser提取网页超链接研究
引用本文:郎凤举.HTMLParser提取网页超链接研究[J].电脑编程技巧与维护,2010(2):74-75.
作者姓名:郎凤举
作者单位:中国海洋大学信息科学与工程学院,青岛,266100
摘    要:每个网页中都存在许多超链接,很多网页的有用信息都存在于超链接中,如何有效地获取这些超链接成为Web挖掘的一个重要步骤。提出了利用HTMLParser开源工具实现Web页面解析,提取网页的超链接,从而获取有用信息,为下一步开发搜索引擎做准备。

关 键 词:HTMLParser  页面解析  信息提取

HTMLParser Extract Web Page Hyperlink Research
LANG Fengju.HTMLParser Extract Web Page Hyperlink Research[J].Computer Programming Skills & Maintenance,2010(2):74-75.
Authors:LANG Fengju
Affiliation:School of Information Science and Engineering;Ocean University of China;Qingdao 266100
Abstract:There are many hyperlinks in each Web page,many pages of useful information exist the hyperlink,how to effectively access to these hyperlinks as an important step in Web mining.We propose the use of open source tools to achieve Web page HTMLParser parse,extract web page hyperlink in order to gain useful information for further development of search engine preparation.
Keywords:HTMLParser  page analysis  information extraction  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号