首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 31 毫秒
1.
垃圾网页是指一些网页通过不正当的手段来误导搜索引擎,使网页获得高于其应有的排名,从而获得更多的访问量。它不仅降低了网页的质量,同时也导致了严重的Web信息安全问题。传统的垃圾网页检测通常使用经典的机器学习方法包括贝叶斯算法、SVM、C4.5等,这些算法对垃圾网页的检测有一定的效果。在前人的研究基础上提出一种基于免疫克隆选择的垃圾网页检测方法。利用人工免疫系统的自学习及自适应能力来检测利用新作弊技术的垃圾网页,并与广泛用于垃圾网页检测的贝叶斯算法对比。实验表明该方法能有效、可靠地检测出垃圾网页。  相似文献   

2.
在农业网站中存在着大量的含有无效信息的网页,为了将这些垃圾网页从海量的网页中过滤出去,本文提出了一种新的方法,即通过朴素贝叶斯法与决策树法相结合的方法来判别垃圾网页。  相似文献   

3.
为了有效地检测垃圾网页,通过分析网页内容特征和链接特征的分布,发现正常网页特征分布有规律而垃圾网页特征分布散乱,根据正常网页特征分布与垃圾网页特征分布的不同,提出了用分布函数拟合正常网页特征分布,并计算正常网页和垃圾网页比例与分布函数的差值,以差值为阈值使用C4.5决策树对垃圾网页进行检测.实验结果表明,该方法能够有效地减少被错误分类的正常网页,提高准确率.  相似文献   

4.
首先将垃圾网页特征分为两个不同的视图, 即基于内容特征的视图和基于链接特征的视图, 利用典型相关分析及其相关改进方法进行特征提取, 生成两组新的特征; 再对新生成的两视图特征采用不同组合方式产生单视图数据, 并用这组数据作为训练数据构建分类算法。实验结果表明, 将垃圾网页看成两视图数据, 并应用多视图典型相关分析技术, 可有效提高垃圾网页的识别精度。  相似文献   

5.
流量分类和识别是网络流量监测活动的重要组成部分。本文指出了传统流量分类方法的不足,分析了基于机器学习的流量分类和应用识别过程,并将决策树分类算法应用到流量分类中。实验结果表明,在保证较高准确率的同时,基于决策树算法的流量分类和识别应用还具有建模速度快,适合于在线流量分类的特点。  相似文献   

6.
基于内容与链接特征的中文垃圾网页分类   总被引:2,自引:0,他引:2  
随着搜索引擎使用的日益普及,web作弊已成为搜索引擎面临的一个重大挑战。国内外研究人员从基于内容,基于链接等方面提出了许多反web作弊的技术,这些技术一定程度上能有效地检测垃圾网页。本文在前人研究基础上提出了一种结合网页内容和链接方面的特征,采用机器学习对中文垃圾网页进行分类检测的方法。实验结果表明,该方法能有效地对中文垃圾网页分类。  相似文献   

7.
8.
针对现有网络流量异常检测方法准确率较低的问题,提出基于决策树的网络流量异常分析与检测方法。研究网络流量结构特征及流量异常的交叉熵表示方法。采用C4.5算法建立决策树模型,将具有连续性的属性值离散化,根据最大信息增益比逐层选取分类属性,依此规则对流量数据进行分类。实验结果表明,当该方法的检测准确率达90%以上时,误报率可控制在5%以内,与同类方法相比能更准确地发现网络流量异常并进行分类。  相似文献   

9.
列车轨道故障检测的实现需要对大量的数据进行分析来判定检测结果,决策树是进行数据挖掘与分类分析的常用工具。文中主要讨论如何应用C4.5算法构造列车轨道故障检测的决策树以及根据生成的决策树实现轨道故障的判决。  相似文献   

10.
C4.5算法在列车轨道故障检测上的应用研究   总被引:1,自引:0,他引:1  
列车轨道故障检测的实现需要对大量的数据进行分析来判定检测结果,决策树是进行数据挖掘与分类分析的常用工具。文中主要讨论如何应用C4.5算法构造列车轨道故障检测的决策树以及根据生成的决策树实现轨道故障的判决。  相似文献   

11.
基于Web内容的自适应页面转换助理   总被引:2,自引:0,他引:2  
针对电视机(机顶盒)和移动计算机设计设备等非PC网终端设备上网,提出了转换助理的基本思路,设计与实现了基于Web内容的自适应页面的转换助理,能够自适应地针对不同网络终端设备的请求提供相 的因特网页面,方便用户浏览因特网上的内容。  相似文献   

12.
基于知识的网页检索工具   总被引:3,自引:0,他引:3  
随着因特网在全球范围的广泛使用,越来越多的人们借助于因特网从事科研和商务活动,而网页检索工具成了人们必不可少的软件工具.然而,目前流行的检索工具大多基于关键字查询,常常出现信息过载或有用信息丢失等现象.造成这一原因主要有两方面:用户提交的查询不能很好地表达他的目的;查询的结果没有建立有效的索引机制,引导人们快速找到有用信息。为此我们提出一种基于知识的网页检索工具(KWSE),它是在已有的检索工具的  相似文献   

13.
Web 2.0的出现使网络中的信息量呈井喷局势,给搜索引擎带来了新的挑战,目前的搜索引擎已经不能满足大多数用户的需求。针对这种情况,首先分析了当前搜索引擎的现状和优缺点,其次针对新的情况下的用户需求作出分析,参考和利用了当前Web 2.0的一些先进技术,提出一个基于Web 2.0社区的综合搜索引擎。  相似文献   

14.
Web搜索引擎框架研究   总被引:43,自引:1,他引:42  
Web搜索引擎是Internet上非常有用的信息检索工具,但是由于目前搜索引擎检索出的信息量庞大,且一个特定的搜索引擎主要包含某一特定领域的信息,这使得用户很难从某一个搜索引擎获得准确的导航信息。文中提出一个新的Web搜索引擎框架GSE,并提出了一个适合于Web信息获取与处理的语言WERPL。通过WIRPL可以将多个Web搜索引擎结合起来,为用户提供一个一致、高效、准确的Web搜索引擎。  相似文献   

15.
基于Web的搜索引擎及其在化学信息资源导航中的应用   总被引:5,自引:3,他引:5  
网络信息检索工具是Internet信息资源快速定位的重要方法。文章中结合建立Internet化学信息资源导航系统ChIN网一文检索系统的要求,讨论了全文检索的产生、现状和发展趋势。在对信息搜索机制和主要全文检索软件的分析比较的基础上,采用全文检索软件Isearch开发了ChIN网页的全文检索系统。同时给出了ChIN网页全文检索系统的应用实例。  相似文献   

16.
设计并实现一种恶意网页动态检测模型。模型通过对Capture-HPC蜜罐日志进行数据挖掘的方法,解决了蜜罐系统检测误警率过高的问题。通过将蜜罐日志转换成操作序列和挖掘序列,可以有效地通过聚类分析提取属性特征信息,并优化作为判别依据的黑白名单。通过实验验证了模型设计的合理性,以及模型降低误警率的有效性。  相似文献   

17.
Web服务搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
随着开放的Web服务数量的逐渐递增,全面而有效地获取散落于Internet上的这类Web服务并进行管理就成为一个十分重要的问题。针对该问题,设计与实现了一个Web服务搜索引擎WSSE(Web Services Search Engine)。它不断爬行现有Web站点以搜索Web服务,并对搜集到的Web服务进行集中式管理,最后采用开源的Lucene对搜索到的Web服务建立索引,提高了Web服务的检索效率。  相似文献   

18.
RL_Spider:一种自主垂直搜索引擎网络爬虫   总被引:1,自引:0,他引:1  
在分析相关spider技术的基础上,提出了将强化学习技术应用到垂直搜索引擎的可控网络爬虫方法。该方法通过强化学习技术得到一些控制经验信息,根据这些信息来预测较远的回报,按照某一主题进行搜索,以使累积返回的回报值最大。将得到的网页存储、索引,用户通过搜索引擎的搜索接口,就可以得到最佳的搜索结果。对多个网站进行主题爬虫搜索,实验结果表明,该方法对于网络的查全率和查准率都具有较大的提高。  相似文献   

19.
WWW上的信息发现与搜索引擎技术   总被引:36,自引:1,他引:36  
随着Internet在我国逐步得到普遍应用以及WWW上中文信息量的不断增长,迫切需要研制适合我国国情的中英文Web索引和检索服务系统。WWW的信息发现和搜索引擎又称robot负责搜索物获取指定范围内的有关数据。本文对Web搜索引擎的工作原理和关键技术进行讨论和分析,并分析了我们在研制中英文Web索引和检索服务器方面所做的工作,包括系统总体结构和汉语分词技术等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号