首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 375 毫秒
1.
一种抵抗链接作弊的PageRank改进算法   总被引:3,自引:0,他引:3  
大量的基于链接的搜索引擎作弊方法对传统PageRank算法造成了巨大的影响,例如,链接农场、交换链接、黄金链、财富链等使得网页的PageRank值失去了公正性和权威性。该文在分析多种作弊方法对传统PageRank算法所造成的不利影响的基础上,提出了一种可以抵抗链接作弊的三阶段PageRank算法-TSPageRank算法,该文对TSPageRank算法的原理进行了详细分析,并通过实验证明TSPageRank算法比传统的PageRank算法在效果上提高了59.4%,能够有效地提升重要网页的PageRank值,并降低作弊网页的PageRank值。  相似文献   

2.
介绍了基于链接结构和内容相似度的主题Web Crawler系统结构,重点介绍了其中的联合网页链接结构和内容相似度来计算网页相关度算法.该算法计算种子网页集到抓取网页的链接数目和抓取网页到种子网页集的链接数目,及Web内容与主题的内容相似度,综合计算该网页的相关度权值,从中选择权威网页或hub网页作为种子网页,从而提高主题爬虫系统的爬行效率和抓取网页的查准率.  相似文献   

3.
Web spam是指通过内容作弊和网页间链接作弊来欺骗搜索引擎,从而提升自身搜索排名的作弊网页,它干扰了搜索结果的准确性和相关性。提出基于Co-Training模型的Web spam检测方法,使用了网页的两组相互独立的特征——基于内容的统计特征和基于网络图的链接特征,分别建立两个独立的基本分类器;使用Co-Training半监督式学习算法,借助大量未标记数据来改善分类器质量。在WEB SPAM-UK2007数据集上的实验证明:算法改善了SVM分类器的效果。  相似文献   

4.
韦莎  朱焱 《计算机应用》2016,36(3):735-739
针对因Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低的问题,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即主题链接非信任排序(TLDR)。首先,运用隐含狄利克雷分配(LDA)模型得到所有网页的主题分布,并计算相互链接网页间的主题相似度;其次,根据Web图计算链接权重,并与主题相似度结合,得到主题链接权重矩阵;然后,利用主题链接权重调节非信任值传播,改进Anti-TrustRank和加权非信任值排序(WATR)算法,使网页得到更合理的非信任值;最后,将所有网页的非信任值进行排序,通过划分阈值检测出垃圾网页。在数据集WEBSPAM-UK2007上进行的实验结果表明,与Anti-TrustRank和WATR相比,TLDR的SpamFactor分别提高了45%和23.7%,F1-measure(阈值取600)分别提高了3.4个百分点和0.5个百分点, spam比例(前三个桶)分别提高了15个百分点和10个百分点。因此,主题与链接权重相结合的TLDR算法能有效提高垃圾网页检测性能。  相似文献   

5.
随着网络的高速发展,如何在海量信息中找到用户需求的高质量信息变得非常重要,技术难度较大.网页在搜索结果中排名是否靠前与巨大的商业利润相关联,这使得大量的垃圾网页出现在网络中.过滤Spam页面、给用户提供高质量的搜索结果成为当前Web搜索引擎的面临的一个巨大挑战.大量研究工作显示Spam页面之间存在着勾结的现象,分析Spam页面链接结构特性成为过滤Spam页面的重要方法.根据Spam网页链接结构存在的共性,提出了一种基于链接分析的Web Spam过滤方法.在标准检测数据集上进行实验,并与相关工作进行比较.实验结果表明,提出的方法能有效地对Spam网页进行过滤,提高搜索结果的质量.  相似文献   

6.
融合VSM技术的PageRank算法研究与应用   总被引:1,自引:0,他引:1  
李卫东  陆玲 《计算机与现代化》2011,(7):96-98,101,104
为解决PageRank算法存在的"主题漂移"问题,本文提出一种融合VSM(向量空间模型)技术的改进方法。首先根据网页的链接结构计算PageRank值,然后建立网页的内容特征向量空间,计算主题内容相似度,最后将这两个值按一定的权重系数进行融合计算,产生新的PageRank值。经过对比实验证明,改进后的PageRank算法减少了无关网页的数量,为搜索引擎提供了更好的排序结果。  相似文献   

7.
为了高效地获取与主题相关的资源,就垂直搜索引擎展开了研究。首先,在现有的PageRank算法基础上,提出一种改进的PageRank算法来测量网页的链接相似度;其次,从单个网页考虑,利用每个网页的url、title和正文,给出基于内容的相似度的计算方法;最后结合内容相似度和链接相似度,提出了一种基于链接和内容的BLCT主题爬行算法。实验结果表明,该算法在平均收获率和目标召回率上有显著提高,爬行的网页主题相关性也提高了。  相似文献   

8.
作为搜索引擎的核心部件,网页排名算法决定了搜索到的相关结果以何种顺序呈现给用户,其性能的优劣将会直接影响搜索引擎的服务质量和用户的搜索体验.在计算网页的权威性时,现有的基于链接的网页排名算法和网页作弊检测算法仅关注网页的超链接数量和质量,而忽略了超链接来源的多样性———另一种客观评价网页权威性的重要信息.相比于真正的权威页面(具有大量且来源广泛的入链),通过作弊手段提升排名的网页往往不具有入链来源多样性的特征.基于以上思想,文中分别提出了超链接来源多样性判断方法、超链接权值调整方法,进而提出了基于超链接来源多样性分析的网页排名算法Drank.在多个基准数据集上的实验结果表明:与现有最好的同类算法相比,综合寻找优质页面和抑制网页排名作弊两方面,Drank算法表现出更好的性能.  相似文献   

9.
随着社交网络的普遍应用,故意构建大量链接关系以提高自身影响力的作弊行为将给社交网络造成极大的安全隐患。针对这种作弊现象,本文首先提出社交网络用户的4类特征,并利用关系强度模型,提出一种信任和非信任同时双向传播的反作弊改进算法。实验表明采用信任及非信任双向传播的反社交网络链接作弊算法具有良好的对抗性能。  相似文献   

10.
使用联合链接相似度评估爬取Web资源   总被引:1,自引:0,他引:1  
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率.  相似文献   

11.
提出一个基于符号序列间LZ复杂性相似度的垃圾邮件识别方法。相比基于向量空间模型的邮件识别,邮件文本间的LZ复杂性相似度计算无需对文本进行预处理和特征提取。同时,K近邻规则的延迟学习特性适合于垃圾邮件样本需要动态调整的应用环境。在Ling-Spam邮件语料集上对提出的识别方法进行十重交叉验证,其总体的识别效果优于基于向量空间模型的部分统计和机器学习方法。  相似文献   

12.
对基于流的垃圾邮件行为识别技术进行了研究。根据垃圾邮件与正常邮件通信拓扑具有较大差异的特性,引入相似度的概念,提出了一种基于拓扑相似性的垃圾邮件行为识别方法。该方法以收发件人联系表来表征收发件人,计算用户相似度以此将邮件用户划分为多个邮件用户群,通过计算邮件收发件人归属判别邮件是否为垃圾邮件。采用一个辅助分类器方便对原始邮件用户进行判别和分组,最后用真实的邮件集进行实验,结果证明基于拓扑结构相似性分类方法有较好的分类能力。  相似文献   

13.
《Pattern recognition letters》2013,34(13):1462-1469
Semi-automatic anti-spam algorithms propagate either trust through links from a set of good seed pages or distrust through inverse-links from a set of bad seed pages to the entire Web. It has been mentioned that a combined usage of both trust and distrust propagations can lead to better results. However, little work has been known to realize this insight successfully. In this paper, we view that each Web page has both a trustworthy side and an untrustworthy side, and propose to assign two scores for each Web page to denote its trustworthy side and untrustworthy side, respectively. We then propose the Good-Bad Rank (GBR) algorithm for propagating trust and distrust simultaneously from both directions. In GBR, the propagation of a page’s trust/distrust is decided by its probability of being trust/distrust. GBR takes advantages from both trust and distrust propagations, thus is more powerful than propagating only trust or distrust. Experimental results show that GBR outperforms other typical link-based anti-spam algorithms that propagates only trust or distrust. GBR achieves comparable performance than another algorithm that propagates both trust and distrust, TDR, but is much more efficient than TDR.  相似文献   

14.
基于内容与链接特征的中文垃圾网页分类   总被引:2,自引:0,他引:2  
随着搜索引擎使用的日益普及,web作弊已成为搜索引擎面临的一个重大挑战。国内外研究人员从基于内容,基于链接等方面提出了许多反web作弊的技术,这些技术一定程度上能有效地检测垃圾网页。本文在前人研究基础上提出了一种结合网页内容和链接方面的特征,采用机器学习对中文垃圾网页进行分类检测的方法。实验结果表明,该方法能有效地对中文垃圾网页分类。  相似文献   

15.
垃圾邮件过滤是一种主动安全防御技术。首先概述了垃圾邮件过滤的发展历史及其基本概念;然后根据不同的标准对垃圾邮件过滤技术进行了分类,并评述了各种垃圾邮件过滤方法和技术;最后展望了垃圾邮件过滤技术及其产品的发展方向。  相似文献   

16.
Web spam attempts to influence search engine ranking algorithm in order to boost the rankings of specific web pages in search engine results. Cloaking is a widely adopted technique of concealing web spam by replying different content to search engines’ crawlers from that displayed in a web browser. Previous work on cloaking detection is mainly based on the differences in terms and/or links between multiple copies of a URL retrieved from web browser and search engine crawler perspectives. This work presents three methods of using difference in tags to determine whether a URL is cloaked. Since the tags of a web page generally do not change as frequently and significantly as the terms and links of the web page, tag-based cloaking detection methods can work more effectively than the term- or link-based methods. The proposed methods are tested with a dataset of URLs covering short-, medium- and long-term users’ interest. Experimental results indicate that the tag-based methods outperform term- or link-based methods in both precision and recall. Moreover, a Weka J4.8 classifier using a combination of term and tag features yields an accuracy rate of 90.48%.  相似文献   

17.
首先将垃圾网页特征分为两个不同的视图, 即基于内容特征的视图和基于链接特征的视图, 利用典型相关分析及其相关改进方法进行特征提取, 生成两组新的特征; 再对新生成的两视图特征采用不同组合方式产生单视图数据, 并用这组数据作为训练数据构建分类算法。实验结果表明, 将垃圾网页看成两视图数据, 并应用多视图典型相关分析技术, 可有效提高垃圾网页的识别精度。  相似文献   

18.
垃圾邮件对计算机系统的安全和人们的生活造成了严重的威胁,反垃圾邮件问题已经成为的具有重要现实意义的研究课题.针对垃圾邮件过滤本质是分类问题,提出了一种基于服务器前端的反垃圾邮件过滤方法,它采用了改进的v支持向量机算法对邮件内容进行分类,过滤垃圾邮件.研究结果表明该方法与直接的支持向量机增量算法相比,提高了过滤的准确率,具有一定的应用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号