首页 | 本学科首页   官方微博 | 高级检索  
     

基于网站拓扑的网页内容精化算法
引用本文:李锋.基于网站拓扑的网页内容精化算法[J].计算机工程,2007,33(21):50-51,5.
作者姓名:李锋
作者单位:华南理工大学工商管理学院,广州,510640
基金项目:国家自然科学基金 , 广东省广州市社会科学基金
摘    要:通过对网页中无关信息分布特点和模式的分析,提出了一种新颖的网页内容精化算法——基于网站拓扑信息的网页无关内容识别与剔除算法。该算法在对网页内容进行分区后,认定与父节点网页具有相同内容的分区为该网页无关信息内容分区并将其删除。测试结果表明,该算法具有较高的识别率及精度。

关 键 词:网页内容精化  信息提取  网站拓扑
文章编号:1000-3428(2007)21-0050-12
修稿时间:2006-11-11

Web Content Refining Algorithm Based on Website Topological Information
LI Feng.Web Content Refining Algorithm Based on Website Topological Information[J].Computer Engineering,2007,33(21):50-51,5.
Authors:LI Feng
Affiliation:School of Business Administration, South China University of Technology, Guangzhou 510640
Abstract:Based on the observation and analysis of occurrence of the type of trivial information inside Web pages, this paper proposes a website topology based Web content refining algorithm. The algorithm partitions the content of web page into five sections, and then prunes the sections which have the same contents with the father node of Web page in website graph representation. Experimental results show the algorithm has a high ratio of precise and recall.
Keywords:Web content refinement  information retrieval  website topology
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号