首页 | 本学科首页   官方微博 | 高级检索  
     

基于树先剪枝的网页正文抽取方法研究
作者姓名:王亮  高屹
作者单位:西藏民族学院信息工程学院,陕西咸阳712082
摘    要:本文提出了基于树先剪枝技术和信息熵的抽取网页正文新方法。该方法通过对网页上的各种模板和正文进行分析,提取按照信息熵定位的正文网页,把该正文网页转化成DOM树,再删除噪音节点,生成抽取公共路径,抽取相关网页。经过试验验证,该方法降低了搜索的复杂度,提高了搜索的准确度,提高了搜索效率。

关 键 词:剪枝技术  信息熵  DOM树  网页
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号