首页 | 本学科首页   官方微博 | 高级检索  
     

基于属性标签的Web数据挖掘
作者姓名:黄亮  赵泽茂  梁兴开
作者单位:杭州电子科技大学通信工程学院 浙江 杭州310018
摘    要:Div+CSS流行于Web页面的布局,在这种布局下,网页中很多数据记录以重复结构的形式聚集在一个层级.提出一种基于属性标签的Web数据提取的方法,构造带有属性标签的DOM树,通过比较属性标签的值挖掘重复模式,制定三个规则排除干扰模式,找到数据域,进而从数据域中提取出数据记录.

关 键 词:Web安全  Web数据挖掘  HTMLDOM  属性标签
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号