基于属性标签的Web数据挖掘 |
| |
引用本文: | 黄亮,赵泽茂,梁兴开.基于属性标签的Web数据挖掘[J].计算机应用与软件,2012(11). |
| |
作者姓名: | 黄亮 赵泽茂 梁兴开 |
| |
作者单位: | 杭州电子科技大学通信工程学院 浙江 杭州310018 |
| |
摘 要: | Div+CSS流行于Web页面的布局,在这种布局下,网页中很多数据记录以重复结构的形式聚集在一个层级.提出一种基于属性标签的Web数据提取的方法,构造带有属性标签的DOM树,通过比较属性标签的值挖掘重复模式,制定三个规则排除干扰模式,找到数据域,进而从数据域中提取出数据记录.
|
关 键 词: | Web安全 Web数据挖掘 HTMLDOM 属性标签 |
本文献已被 万方数据 等数据库收录! |
|