基于分块的网页内容提取算法的研究 |
| |
引用本文: | 杨丽萍.基于分块的网页内容提取算法的研究[J].数字技术与应用,2012(12):99-100,102. |
| |
作者姓名: | 杨丽萍 |
| |
作者单位: | 三江学院 江苏南京 210012 |
| |
摘 要: | 目前针对于网页分块的正文提取方法很多。一些学者提出,利用标签的数量来判断目标网页采用何种标签对网页进行结构布局,然后针对某一单一标签,对网页进行分块,这种方法针对与大多数利用标准化XHTML排版的网页是可行的,但是对于很多利用松散标准的HTML网页,其排版布局的标签分布不均,很难准确的提取正文内容;利用预先设置的搜索窗口,准确的分离正文段落和相邻的非正文段落。
|
关 键 词: | 网页正文提取 分块 网页标题 网页 |
本文献已被 CNKI 万方数据 等数据库收录! |
|