共查询到19条相似文献,搜索用时 31 毫秒
1.
垃圾网页是指一些网页通过不正当的手段来误导搜索引擎,使网页获得高于其应有的排名,从而获得更多的访问量。它不仅降低了网页的质量,同时也导致了严重的Web信息安全问题。传统的垃圾网页检测通常使用经典的机器学习方法包括贝叶斯算法、SVM、C4.5等,这些算法对垃圾网页的检测有一定的效果。在前人的研究基础上提出一种基于免疫克隆选择的垃圾网页检测方法。利用人工免疫系统的自学习及自适应能力来检测利用新作弊技术的垃圾网页,并与广泛用于垃圾网页检测的贝叶斯算法对比。实验表明该方法能有效、可靠地检测出垃圾网页。 相似文献
2.
在农业网站中存在着大量的含有无效信息的网页,为了将这些垃圾网页从海量的网页中过滤出去,本文提出了一种新的方法,即通过朴素贝叶斯法与决策树法相结合的方法来判别垃圾网页。 相似文献
3.
为了有效地检测垃圾网页,通过分析网页内容特征和链接特征的分布,发现正常网页特征分布有规律而垃圾网页特征分布散乱,根据正常网页特征分布与垃圾网页特征分布的不同,提出了用分布函数拟合正常网页特征分布,并计算正常网页和垃圾网页比例与分布函数的差值,以差值为阈值使用C4.5决策树对垃圾网页进行检测.实验结果表明,该方法能够有效地减少被错误分类的正常网页,提高准确率. 相似文献
4.
5.
6.
7.
8.
9.
列车轨道故障检测的实现需要对大量的数据进行分析来判定检测结果,决策树是进行数据挖掘与分类分析的常用工具。文中主要讨论如何应用C4.5算法构造列车轨道故障检测的决策树以及根据生成的决策树实现轨道故障的判决。 相似文献
10.
C4.5算法在列车轨道故障检测上的应用研究 总被引:1,自引:0,他引:1
列车轨道故障检测的实现需要对大量的数据进行分析来判定检测结果,决策树是进行数据挖掘与分类分析的常用工具。文中主要讨论如何应用C4.5算法构造列车轨道故障检测的决策树以及根据生成的决策树实现轨道故障的判决。 相似文献
11.
12.
基于知识的网页检索工具 总被引:3,自引:0,他引:3
随着因特网在全球范围的广泛使用,越来越多的人们借助于因特网从事科研和商务活动,而网页检索工具成了人们必不可少的软件工具.然而,目前流行的检索工具大多基于关键字查询,常常出现信息过载或有用信息丢失等现象.造成这一原因主要有两方面:用户提交的查询不能很好地表达他的目的;查询的结果没有建立有效的索引机制,引导人们快速找到有用信息。为此我们提出一种基于知识的网页检索工具(KWSE),它是在已有的检索工具的 相似文献
13.
Web搜索引擎框架研究 总被引:42,自引:1,他引:42
Web搜索引擎是Internet上非常有用的信息检索工具,但是由于目前搜索引擎检索出的信息量庞大,且一个特定的搜索引擎主要包含某一特定领域的信息,这使得用户很难从某一个搜索引擎获得准确的导航信息。文中提出一个新的Web搜索引擎框架GSE,并提出了一个适合于Web信息获取与处理的语言WERPL。通过WIRPL可以将多个Web搜索引擎结合起来,为用户提供一个一致、高效、准确的Web搜索引擎。 相似文献
14.
Web 2.0的出现使网络中的信息量呈井喷局势,给搜索引擎带来了新的挑战,目前的搜索引擎已经不能满足大多数用户的需求。针对这种情况,首先分析了当前搜索引擎的现状和优缺点,其次针对新的情况下的用户需求作出分析,参考和利用了当前Web 2.0的一些先进技术,提出一个基于Web 2.0社区的综合搜索引擎。 相似文献
15.
基于Web的搜索引擎及其在化学信息资源导航中的应用 总被引:5,自引:3,他引:5
网络信息检索工具是Internet信息资源快速定位的重要方法。文章中结合建立Internet化学信息资源导航系统ChIN网一文检索系统的要求,讨论了全文检索的产生、现状和发展趋势。在对信息搜索机制和主要全文检索软件的分析比较的基础上,采用全文检索软件Isearch开发了ChIN网页的全文检索系统。同时给出了ChIN网页全文检索系统的应用实例。 相似文献
16.
《计算机应用与软件》2013,(5)
设计并实现一种恶意网页动态检测模型。模型通过对Capture-HPC蜜罐日志进行数据挖掘的方法,解决了蜜罐系统检测误警率过高的问题。通过将蜜罐日志转换成操作序列和挖掘序列,可以有效地通过聚类分析提取属性特征信息,并优化作为判别依据的黑白名单。通过实验验证了模型设计的合理性,以及模型降低误警率的有效性。 相似文献
17.
Web服务搜索引擎的设计与实现 总被引:1,自引:0,他引:1
随着开放的Web服务数量的逐渐递增,全面而有效地获取散落于Internet上的这类Web服务并进行管理就成为一个十分重要的问题。针对该问题,设计与实现了一个Web服务搜索引擎WSSE(Web Services Search Engine)。它不断爬行现有Web站点以搜索Web服务,并对搜集到的Web服务进行集中式管理,最后采用开源的Lucene对搜索到的Web服务建立索引,提高了Web服务的检索效率。 相似文献
18.
RL_Spider:一种自主垂直搜索引擎网络爬虫 总被引:1,自引:0,他引:1
在分析相关spider技术的基础上,提出了将强化学习技术应用到垂直搜索引擎的可控网络爬虫方法。该方法通过强化学习技术得到一些控制经验信息,根据这些信息来预测较远的回报,按照某一主题进行搜索,以使累积返回的回报值最大。将得到的网页存储、索引,用户通过搜索引擎的搜索接口,就可以得到最佳的搜索结果。对多个网站进行主题爬虫搜索,实验结果表明,该方法对于网络的查全率和查准率都具有较大的提高。 相似文献
19.
WWW上的信息发现与搜索引擎技术 总被引:36,自引:1,他引:36
随着Internet在我国逐步得到普遍应用以及WWW上中文信息量的不断增长,迫切需要研制适合我国国情的中英文Web索引和检索服务系统。WWW的信息发现和搜索引擎又称robot负责搜索物获取指定范围内的有关数据。本文对Web搜索引擎的工作原理和关键技术进行讨论和分析,并分析了我们在研制中英文Web索引和检索服务器方面所做的工作,包括系统总体结构和汉语分词技术等。 相似文献