首页 | 本学科首页   官方微博 | 高级检索  
     

基于分块的网页内容提取算法的研究
引用本文:杨丽萍.基于分块的网页内容提取算法的研究[J].数字技术与应用,2012(12):99-100,102.
作者姓名:杨丽萍
作者单位:三江学院 江苏南京 210012
摘    要:目前针对于网页分块的正文提取方法很多。一些学者提出,利用标签的数量来判断目标网页采用何种标签对网页进行结构布局,然后针对某一单一标签,对网页进行分块,这种方法针对与大多数利用标准化XHTML排版的网页是可行的,但是对于很多利用松散标准的HTML网页,其排版布局的标签分布不均,很难准确的提取正文内容;利用预先设置的搜索窗口,准确的分离正文段落和相邻的非正文段落。

关 键 词:网页正文提取  分块  网页标题  网页
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号