首页 | 本学科首页   官方微博 | 高级检索  
     

基于视觉的网页重要变化检测方法
引用本文:史存会,俞晓明,刘悦,靳小龙,程学旗. 基于视觉的网页重要变化检测方法[J]. 模式识别与人工智能, 2020, 33(11): 1004-1012. DOI: 10.16451/j.cnki.issn1003-6059.202011005
作者姓名:史存会  俞晓明  刘悦  靳小龙  程学旗
作者单位:1.中国科学院计算技术研究所 网络数据科学与技术重点实验室 北京 100190;
2.中国科学院大学 计算机科学与技术学院 北京 100049
基金项目:国家重点研究计划;国家自然科学基金;国家自然科学基金
摘    要:检测网页重要变化,判断页面核心内容是否发生变化,可有效降低数据采集中重复索引的数量,因此,文中提出基于视觉的网页重要变化检测方法,用于检测页面不同语义区域的变化,可将页面压缩表示为一个低维向量.从用户视觉的角度,理解页面不同区块语义重要度的差异.相比现有方法,文中方法独立于基于HTML类基础文档的分析方法,在新媒体,如移动互联网上,也有一定的适用性.实验也验证文中方法的有效性.

关 键 词:Web内容  变化检测  视觉特征  低维向量
收稿时间:2020-08-12

Vision Based Important Change Detection Method for Web Pages
SHI Cunhui,YU Xiaoming,LIU Yue,JIN Xiaolong,CHENG Xueqi. Vision Based Important Change Detection Method for Web Pages[J]. Pattern Recognition and Artificial Intelligence, 2020, 33(11): 1004-1012. DOI: 10.16451/j.cnki.issn1003-6059.202011005
Authors:SHI Cunhui  YU Xiaoming  LIU Yue  JIN Xiaolong  CHENG Xueqi
Affiliation:1. Key Laboratory of Network Data Science and Technology,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190;
2. School of Computer Science and Technology,University of Chinese Academy of Sciences,Beijing 100049
Abstract:Duplicate Web indexes of Web crawling can be reduced effectively by detecting important changes and determining changes of essential content in Web pages.Therefore,a vision based detection method is proposed to detect changes in different semantic regions of the page and compress the page into a low dimensional vector representation.The proposed method is utilized to understand the difference of semantic importance in different regions from the perspective of users.Compared with the existing methods,the proposed method is independent of the analysis of HTML,and thus it is suitable for new media,such as mobile Internet.Experiments show the effectiveness of the proposed method.
Keywords:Web Content  Change Detection  Visual Feature  Low Dimensional Vector  
本文献已被 万方数据 等数据库收录!
点击此处可从《模式识别与人工智能》浏览原始摘要信息
点击此处可从《模式识别与人工智能》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号