基于单页语义特征的垃圾网页检测 |
| |
引用本文: | 陈木生,高斐,吴俊华.基于单页语义特征的垃圾网页检测[J].电子技术应用,2023(6):24-29. |
| |
作者姓名: | 陈木生 高斐 吴俊华 |
| |
作者单位: | 1. 江西理工大学软件工程学院;2. 南昌市虚拟数字工程与文化传播重点实验室 |
| |
摘 要: | 为解决垃圾网页检测中特征提取难度高、计算量大的问题,提出一种仅基于当前网页的HTML脚本提取语义特征的方法。首先使用深度优先搜索和动态规划相结合的记忆化搜索算法对域名进行单词切割,采用隐含狄利克雷分布提取主题词,基于Word2Vec词向量和词移距离计算3个单页语义相似度特征;然后将单页语义相似度特征融合单页统计特征,使用随机森林等分类算法构建分类模型进行垃圾网页检测。实验结果表明,基于单页内容提取语义特征融合单页统计特征进行分类的AUC值达到88.0%,比对照方法提高4%左右。
|
关 键 词: | 垃圾网页检测 特征提取 记忆化搜索 隐含狄利克雷分布 词向量 词移距离 随机森林 |
|
|