首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
基于本体的元搜索引擎4级结果处理算法   总被引:1,自引:1,他引:0  
提出一种基于本体的元搜索引擎4级结果处理算法.该算法结合用户的兴趣本体库,计算网页特征与本体库概念的语义相关度,把无相关性或相关性低的网页信息进行过滤.通过验证表明,该算法可以有效地加大无关信息的过滤量,提高了搜索引擎查询结果的相关性.  相似文献   

2.
针对通用搜索引擎的信息量大、查询不准确、深度不够等问题,给出了面向主题的垂直搜索引擎的体系结构,设计了垂直搜索引擎系统的爬行策略,对系统核心信息采集模块运用了多线程技术及基于VSM的主题相关度判断算法进行主题网页爬行,并通过Lucene.Net的索引与检索技术建立系统的检索算法,实现了一个面向特定主题的垂直搜索引擎应用系统.实验测试结果表明,该系统具有较高的提取效率,其检索的准确率、召回率均大大高于通用搜索引擎,具有较好的实用价值和商业应用前景.  相似文献   

3.
语料库是自然语言处理的基础,其建设方式从传统手工输入法转移到网页数据的采集.网页爬虫方法能够快速有效地从网页上获取大量的藏文网页文本信息.本文给出了一种藏语网页爬虫算法及URL的广度优先遍历选取策略,为藏语语料库的建设、藏文搜索引擎、网页信息提取等提供了理论基础.  相似文献   

4.
伴随着垂直搜索引擎领域的全面发展,为了满足人们对搜索引擎系统的高质量需求,通过深入剖析了Google经典的PageRank算法,针对其单纯的考虑网页链接结构方面的不足,提出了改进的PageRank算法。分析了网页文本结构、网页被抓取时间、网页内容相关度等问题,在此基础上对PageRank算法进行改进,理论分析和仿真实验表明,改进后的算法具有更高的查准率和用户满意度。  相似文献   

5.
主题搜索引擎中专业网页索引集构造算法的研究   总被引:2,自引:2,他引:0  
针对特定主题的搜索引擎构建问题,给出了一种主题搜索引擎的体系结构,并在此基础上,提出了面向主题的专业网页索引集构造算法.模拟实验表明,以该算法为基础的主题搜索引擎能使用户搜索到该主题的权威页和中心页,可以有效地提高搜索引擎的查准率.  相似文献   

6.
随着信息技术的发展,网络的迅速普及,搜索引擎在网络用户的生活中扮演着越来越重要的角色,在网络时代,信息检索主要通过Internet搜索引擎进行.Internet提供了多种不同的信息发布和检索方式.讨论新型智能信息搜索技术,使用户成为搜索引擎的主导者,搜索引擎既可以按照既定的算法海量搜索,还可以根据用户输入来抓取信息,达到实时搜索功能,就如何智能分析用户输入,如何抓取网页,怎样获取网页源码,以及关键字的获取与过滤进行了描述与分析.  相似文献   

7.
唐敏 《信息通信》2013,(1):23-24
PageRank是Google使用的一种网页排序算法,它可以对网页进行评估,并根据这个评估对网页进行排序。评价标准是一个PR值,每个网页都会被赋予这样的一个值,用来衡量网页的重要性,并据此给出相应的排名。起初PageRank是用于搜索引擎检索结果的排序,现在也被广泛用于其他很多方面,比如网页的采集、检索结果聚类分析等。本文将最大流社区发现算法和PageRank结合,提出了一种新的改进算法。  相似文献   

8.
针对分布式搜索引擎系统中页面信息分布与动态迁移问题,提出了一种信息的动态迁移算法,并对算法参数进行了实验确定。该算法充分利用用户反馈,使得页面信息在各个站点间达到近似最优的分布。经模拟验证,该算法可以有效地优化信息分布、改善系统性能。  相似文献   

9.
汤琛  王攀 《电信快报》2009,(12):42-45
网页自动分类是Web数据挖掘中的一个重要研究方向,也是搜索引擎前期的准备工作。文章介绍了一种利用搜索引擎原理构建从网页URL到行为类别映射关系的分类系统.该系统结合爬虫原理和网页自动分类技术实现了根据网页URL来判断用户行为的类别功能。实验表明该分类系统具有较高的分类质量和较强的适应能力。  相似文献   

10.
一种基于Agent复合学习的搜索引擎模型   总被引:1,自引:0,他引:1  
基于Internet上信息检索中存在的问题,提出了一种基于多Agent的搜索引擎模型,并具体描述该模型的体系结构及其检索机制,描述了用户偏好学习算法。借助Agent复合学习方法对网页信息进行分类学习,从而达到提高检索精度的目的。  相似文献   

11.
一种评价搜索引擎信息覆盖率的模型及其验证   总被引:4,自引:0,他引:4  
孟涛  闫宏飞  李晓明 《电子学报》2003,31(8):1168-1172
搜索引擎的网页搜集子系统通常以WWW的网页构成的有向图结构为依据,循着网页间的链接进行搜集从而扩大信息覆盖面.本文针对这种信息覆盖能力,建立量化模型从多个角度考察搜集系统对WWW信息资源的覆盖程度.文章首先分析了网页搜集不完全性的若干因素,在指出信息覆盖率的研究意义后提出了三类重要的信息覆盖率概念,然后围绕其中的数量和质量覆盖率展开研究工作.在建立"采样-权值计算-验证"的覆盖率评测模型之后,以北大"燕穹"网页信息博物馆为考察对象并获得其网页数据,用不同的方式对中国Web进行采样;然后分别采用PageRank和HITS两种网页权值算法算出其中的重要网页作为样本,从量和质的角度考察"燕穹"系统的信息覆盖率,得到合理的数量和质量覆盖率值,从而验证了"燕穹"系统信息覆盖率结论的合理性和该信息覆盖率评测模型的可靠性.  相似文献   

12.
Search engine plays an irreplaceable role in web information organizing and accessing. It is very common for Internet users to query a search engine when retrieving web information. Sensitive data about search engine user’s intentions or behavior can be inferred from his query phrases, the returned results pages, and the webpages he visits subsequently. In order to protect contents of communications from being eavesdropped, some search engines adopt HTTPS by default to provide bidirectional encryption. This only provides an encrypted channel between user and search engine, the majority of webpages indexed in search engines’ results pages are still on HTTP enabled websites and the contents of these webpages can be observed by attackers once the user click on these links. Imitating attackers, we propose a novel approach for attacking secure search through correlating analysis of encrypted search with unencrypted webpages. We show that a simple weighted TF–DF mechanism is sufficient for selecting guessing phrase candidates. Imitating search engine users, by querying these candidates and enumerating webpages indexed in results pages, we can hit the definite query phrases and meanwhile reconstruct user’s web-surfing trails through DNS-based URLs comparison and flow feature statistics-based network traffic analysis. In the experiment including 28 search phrases, we achieved 67.86% hit rate at first guess and 96.43% hit rate within three guesses. Our empirical research shows that HTTPS traffic can be correlated and de-anonymized through HTTP traffic and secured search of search engines are not always secure unless HTTPS by default enabled everywhere.  相似文献   

13.
黄皓凌  张凡 《电子设计工程》2011,19(23):34-37,40
基于开源搜索引擎Nutch,通过修改、调整和创新研制了文中介绍的6搜——一个专门搜索支持IPv6协议网站的专用IPv6搜索引擎。6搜的特点和创新点有:采集IPv6网页的速度在每秒100页以上;采集了54 195个IPv6网站,存储有2 000万IPv6网页,并且网页在不断更新和增加;有中文分词功能和自主创新的搜索网站功能。通过运行,6搜为用户提供了优质IPv6搜索服务;通过对6搜采集数据的分析,得到世界IPv6网站的分布。展现了IPv6网络的发展。  相似文献   

14.
对搜索引擎中评分方法的研究   总被引:1,自引:1,他引:0       下载免费PDF全文
韩立新 《电子学报》2005,33(11):2094-2096
针对搜索引擎评分较为困难的问题,文中提出了一种评分方法.该方法使用协同过滤技术,在同一兴趣组中各用户所提供的搜索结果集的基础上,采用文中提出的并行关联规则算法对各用户的局部有向图进行预处理,找出兴趣组中各成员都感兴趣的页面.然后对这些页面的内容和超链接附近出现的文本以及链接结构进行分析.计算权威页面和引导页面,以找到虽不包括在检索结果中,但相关的页面.此外,在对所获得的页面进行评价时,除考虑Web页自身的链接结构和兴趣组中查询用户对页面的评价,还考虑兴趣组中其它成员对页面的评价和所有成员对页面的使用情况等因素,从而使推荐给用户的页面排序更加合理.  相似文献   

15.
基于BP神经网络的Web页面分类算法   总被引:3,自引:0,他引:3  
提出了一种基于BP神经网络的Web页面分类算法。在搜索引擎的结构中提取页面标题、内容标题和内容摘要来表示页面,采用向量空间模型计算分类组合与页面组合的相关性对页面进行矢量化,将训练后的BP神经网络用于对Web页面进行分类。实验结果表明,该分类算法有一定的实用价值。  相似文献   

16.
语义搜索引擎概念模型   总被引:1,自引:0,他引:1  
语义搜索引擎作为未来的万维网搜索引擎,将不仅仅基于关键词检索,而是能够理解Web页面的内容,并进行逻辑推理来完成复杂的查询任务,最终返回精确的结果。对语义Web和搜索引擎技术进行了简要介绍,提出一种语义搜索引擎概念模型,并对其构成模块及模块问的互操作进行了描述,最后对概念模型具体实现上的关键技术进行了简要说明。  相似文献   

17.
可定制的聚焦网络爬虫   总被引:1,自引:0,他引:1  
网络资源信息的爆炸式增长、用户越来越个性化的需求,使得针对特定主题的搜索引擎越来越受到青睐.聚焦网络爬虫是主题搜索引擎的重要组成部分,它从Web上下栽针对某一主题的文档.可定制的聚焦网络爬虫是具有主题的可选择性、可定制性的主题爬虫.文中介绍了一套更加有效的爬虫算法,它具有高效(优先下栽主题相关度高的资源)、资源占用少(减少URL队列长度)、主题易移植(主题的可定制性)等特点.  相似文献   

18.
提出并实现了一种基于Lucene的全站点内容搜索方法,其搜索内容主要针对某个组织机构管理下的所有网站服务器上的信息内容,包括静态网页信息、动态网页中的表单信息以及附件文档内容.文中介绍了全站点内容搜索的设计思想、架构设计和具体实现,并根据实验结果验证全站点内容搜索的实用性和效率.  相似文献   

19.
李剑 《电子科技》2012,25(1):105-107
为能够高效地把网页中的噪音信息过滤掉,采用基于改进的DOM树和BP神经网络的网页净化方法。根据DOM树和网页内容的特征,用HTMLParser建立内容块树,把网页中的内容按照一定的相关性分割成多个子块,从而把整个内容块的处理简化为处理各个子块。由统计可知,子内容块的内容具有明显的数值特征,可以该特征作为BP神经网络的学习来源。这样可把网页的净化问题转化成通过学习建立过滤模型的问题。实验结果证明,该方法在有主题的中文网页应用上取得了理想的效果。  相似文献   

20.
文章采用了机器学习技术,从提交更精确地反映用户兴趣的检索串入手,研究如何提高搜索引擎在准率。文中采用决策树方法进行学习,对决策树方法应用于网页检索中出现的几个问题:缺少属性值的训练实例处理问题:如何使不同权值的属性:具有不同的表现力问题;树的重建问题;过度拟合问题;扩充检索串返回的网页时。属性值的取舍问题等进行了分析和研究,给出了具体的解决方法。性能提高后的决策树,用验证集检验,正确率由70%提高到75.4%.较好地学习到了用户的兴趣。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号