首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于结构分析的网页主题区域发现方法
引用本文:伊政,徐武平,徐爱萍.一种基于结构分析的网页主题区域发现方法[J].计算机工程与应用,2015(6):227-230,259.
作者姓名:伊政  徐武平  徐爱萍
作者单位:武汉大学 计算机学院,武汉,430072
摘    要:随着互联网的发展,We b数据挖掘在帮助人们获取主题信息方面越来越具有重要意义。本研究基于树结构,将We b网页解析为标签树;在树匹配算法的基础上,提出了数据区域挖掘和语义链接块识别算法,实现了去链接的预处理;提出了文本结构权重的概念,并采用文本结构权重的计算结果发现主题区域,去噪后获得主题信息。实验表明该研究结果对新闻、博客类网页具有很好的识别效果。

关 键 词:信息抽取  主题区域  文本结构权重  去噪

Discovery method of webpage subject area based on structural analysis
YI Zheng , XU Wuping , XU Aiping.Discovery method of webpage subject area based on structural analysis[J].Computer Engineering and Applications,2015(6):227-230,259.
Authors:YI Zheng  XU Wuping  XU Aiping
Affiliation:YI Zheng;XU Wuping;XU Aiping;Computer School of Wuhan University;
Abstract:
Keywords:information extraction  subject area  text structure weight  denoising
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号