首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
最近,spam页面急剧增加,这极大的影响了搜索引擎的精度和效率。如何抵御spam页面已经成为一个非常重要的问题。文章合并了基于内容来侦测spam页面和基于链接spam侦测spam页面的方法,从而提出了一个两步的侦测spam页面的方法。第一步是一个过滤的步骤,用于生成spam页面的候选列表;第二步,通过一个自动的分类器从候选页面中侦测出最终的spam页面。  相似文献   

2.
Web spam是指通过内容作弊和网页间链接作弊来欺骗搜索引擎,从而提升自身搜索排名的作弊网页,它干扰了搜索结果的准确性和相关性。提出基于Co-Training模型的Web spam检测方法,使用了网页的两组相互独立的特征——基于内容的统计特征和基于网络图的链接特征,分别建立两个独立的基本分类器;使用Co-Training半监督式学习算法,借助大量未标记数据来改善分类器质量。在WEB SPAM-UK2007数据集上的实验证明:算法改善了SVM分类器的效果。  相似文献   

3.
信息动态     
一、China cleans up spam problem 中国消灭垃圾邮件问题 It's been a few years coming,but it lookslike China may finally be getting a handle onits spam problem. 虽然还需要几年时间,但是看起来中国可能已经找到了解决垃圾邮件的办法。  相似文献   

4.
Short message service(SMS) is now becoming an indispensable way of social communication,and the problem of mobile spam is getting increasingly serious.We propose a novel approach for spam messages detection.Instead of conventional methods that focus on keywords or flow rate filtering,our system is based on mining under a more robust structure:the social network constructed with SMS.Several features,including static features,dynamic features and graph features,are proposed for describing activities of nodes in the network in various ways.Experimental results operated on real dataset prove the validity of our approach.  相似文献   

5.
专家证据文档识别是专家检索的关键步骤.融合专家候选文档独立页面特征以及页面之间的关联关系,提出了一个专家证据文档识别无向图模型.该方法首先分析各类专家证据文档中的词、URL 链接、专家元数据等独立页面特征以及候选专家证据文档间的链接和内容等关联关系;然后将独立页面特征以及页面之间的关联关系融入到无向图中构建专家证据文档识别无向图模型;最后利用梯度下降方法学习模型中特征的权重,并利用吉布斯采样方法进行专家证据文档识别.通过对比实验验证了该方法的有效性.实验结果表明,该方法有较好的效果.  相似文献   

6.
垃圾邮件过滤是网络安全领域的一个经典难题.在分析了传统垃圾邮件过滤技术不足的基础上,提出并使用机器学习领域经典的最大熵模型,对最能体现垃圾邮件特性的URL链接进行分类识别,实现了一种新型的基于URL分类的在线垃圾邮件过滤技术(URL-based spam filtering technique, UBSF).实验结果表明,该技术具有准确性高、误报率低以及适合实时在线处理的优点.  相似文献   

7.
高效率WWW信息采集   总被引:8,自引:0,他引:8  
随着WWW上的信息日益丰富,对高效率信息采集(IG)工具的需求日益迫切.由于网络资源非常昂贵,因此,信息采集属于资源受限型任务.主要目标是设计面向特定领域的高效率信息采集方法.提出了在不下载页面的情况下推测页面内容的方法,设计了不同的控制策略,并定义了多种页面下载优先级定量指标,建造了一个信息采集系统——TH-Gatherer,并进行了不同的实验以检验此方法.实验证明,可以在不实际下载页面的情况下,近似推测出候选页面的内容,采用混合尺度的基于优先级的采集方法,在采集效率方面比当前许多信息采集工具(包括Crawler和离线浏览工具)常用的宽度优先方法高4倍以上.实验结果表明,所设计的获取方法在获取效率方面比当前常用的宽度优先方法高4倍以上.此方法适用于资源受限条件下、特定领域的信息采集.  相似文献   

8.
基于页面Block的Web档案采集和存储   总被引:1,自引:0,他引:1  
提出了基于页面Block对Web页面的采集和存储方式,并详细表述了该方法如何完成基于布局页面分区、Block主题的抽取、版本和差异的比较以及增量存储的方式.实现了一个Web归档原型系统,并对所提出的算法进行了详细的测试.理论和实验表明,所提出的基于页面Block的Web档案(Web archive)采集和存储方法能够很好地适应Web档案的管理方式,并对基于Web档案的查询、搜索、知识发现和数据挖掘等应用提供有利的数据资源.  相似文献   

9.
This paper addresses the challenge of large margin classification for spam filtering in the presence of an adversary who disguises the spam mails to avoid being detected. In practice, the adversary may strategically add good words indicative of a legitimate message or remove bad words indicative of spam. We assume that the adversary could afiord to modify a spam message only to a certain extent, without damaging its utility for the spammer. Under this assumption, we present a large margin approach for classification of spam messages that may be disguised. The proposed classifier is formulated as a second-order cone programming optimization. We performed a group of experiments using the TREC 2006 Spam Corpus. Results showed that the performance of the standard support vector machine (SVM) degrades rapidly when more words are injected or removed by the adversary, while the proposed approach is more stable under the disguise attack.  相似文献   

10.
在分析传统的煤矿救灾机器人突水水源、火灾及瓦斯浓度侦测技术原理和特点的基础上,提出了基于无线自组网的煤矿救灾机器人突水水源侦测方法、基于大数据的煤矿救灾机器人火灾侦测方法、基于多源信息融合的煤矿救灾机器人瓦斯浓度侦测方法,可有效提高煤矿救灾机器人突水水源、火灾及瓦斯浓度侦测的准确率。指出了煤矿救灾机器人灾变环境侦测技术将深度融合云计算、人工智能、物联网等现代信息技术,从而全面提升煤矿救灾机器人灾变环境侦测结果的可靠性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号