首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于单模型的网页净化方法
引用本文:干文敏,李俊,李剑.一种基于单模型的网页净化方法[J].计算机与现代化,2012(2):128-130.
作者姓名:干文敏  李俊  李剑
作者单位:[1]南京航空航天大学计算机科学与技术学院,江苏南京210016 [2]南昌陆军学院战斗实验室,江西南昌330103
摘    要:为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树。因网页子内容块具有相当明显的数值特征,可以通过BP神经网络建立网页噪音信息过滤模型。这样使得网页净化更加模型化,也能够取得更加好的效果。

关 键 词:网页净化  DOM树  内容块  神经网络

A Method of Web Page Purification Based on Single Model
GAN Wen-min,LI Jun,LI Jian.A Method of Web Page Purification Based on Single Model[J].Computer and Modernization,2012(2):128-130.
Authors:GAN Wen-min  LI Jun  LI Jian
Affiliation:1.College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China; 2.Battle Laboratory,Nanchang Army College,Nanchang 330103,China)
Abstract:In order to obtain and handle with the information in Web pages effectively,this paper proposes the algorithm of Web page purification based on improved DOM tree and BP neural network.This algorithm establishes block tree by DOM tree and Web content using HTMLParser.Because of the evident numerical characteristics in sub-blocks of Web-pages,it can establish noisy purify-model by BP neural network.As a result,it can make the Web-page purification more modelling,also it can get a more effective result.
Keywords:Web page purification  DOM tree  content block  neural network
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号