基于网页DOM树节点路径相似度的正文抽取 Content extraction based on the similarity of the Web pages' DOM tree nodes path期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于网页DOM树节点路径相似度的正文抽取

作者单位：	;1.福州大学数学与计算机科学学院;2.福建库易信息科技有限责任公司

摘要：	由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。
关键词：	DOM树信息抽取 HTML标签网页去噪正文抽取
Content extraction based on the similarity of the Web pages' DOM tree nodes path

Abstract:

Keywords: