首页 | 本学科首页   官方微博 | 高级检索  
     

基于网页DOM树节点路径相似度的正文抽取
作者单位:;1.福州大学数学与计算机科学学院;2.福建库易信息科技有限责任公司
摘    要:由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。

关 键 词:DOM树  信息抽取  HTML标签  网页去噪  正文抽取

Content extraction based on the similarity of the Web pages' DOM tree nodes path
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号