首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
主题爬虫能够高效的获取特定主题的网页,是垂直搜索引擎核心技术之一。提出了一个基于领域本体的主题爬虫框架,借助基于领域本体的相关度计算方法预测链接主题的相关度和网页内容与主题的相关度,决定爬虫的下一步爬行路径,以便于尽可能缩小搜索路径。对比实验表明,提出的方法能够有效提高主题爬虫网页抓取的准确率和查全率。  相似文献   

2.
定题搜索引擎Robot的设计与算法   总被引:6,自引:0,他引:6  
定题搜索引擎将信息检索限定在特定主题领域,提供特定主题的信息检索服务,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat 2.02版,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关信息的搜索及网页相关度分析。该文分析了传统定题搜索算法的优缺点,提出了基于反向链接结合超链文本分析的定题搜索算法。文章还对基于内容的网页相关度分析算法进行了详细的论述。对比搜索实验表明系统有着较好的性能,能准确地爬行到主题相关网页。  相似文献   

3.
基于超链接引导和链接图分析的主题搜索引擎   总被引:1,自引:0,他引:1  
主题搜索引擎足专为查询某一学科或主题信息而出现的查询工具.针对目前各种主题搜索引擎在主题搜索上的优缺点,提出将基于文字内容启发的超链接引导技术与基于 Web 链接图的 PageRank 算法相结合的 IPageRank-IND 算法,以提高链接相关度判断的准确性和主题资源搜索的覆盖率,并将网页按照 VSM 算法进行内容相关度判断和自动分类,从而提高检索效率.最后构建一个搜索引擎进行实验,通过比较该算法与其他几种算法的实验结果,能够看到 IPageRank-IND 算法的优势是明显的.  相似文献   

4.
如今,互联网集成的与暴雨灾害相关的信息多种多样,然而人工搜索网页信息的效率不高,因此网络主题爬虫显得十分重要。在通用网络爬虫的基础上,为提高主题相关度的计算精度并预防主题漂移,通过对链接锚文本主题相关度、链接所在网页的主题相关度、链接指向网页PR值和该网页主题相关度的综合计算,提出了基于网页内容和链接结构相结合的超链接综合优先度评估方法。同时,针对搜索过程易陷入局部最优的不足,首次设计了结合爬虫记忆历史主机信息和模拟退火的网络主题爬虫算法。以暴雨灾害为主题进行爬虫实验的结果表明,在爬取相同网页数的情况下,相比于广度优先搜索策略(Breadth First Search,BFS)和最佳优先搜索策略(Optimal Priority Search,OPS),所提出的算法能抓取到更多与主题相关的网页,爬虫算法的准确率得到明显提升。  相似文献   

5.
唐苏  刘循 《微机发展》2011,(2):155-158
主题搜索引擎是专为查询某一学科或主题信息而出现的查询工具。针对目前各种主题搜索引擎在主题搜索上的优缺点,提出将基于文字内容启发的超链接引导技术与基于Web链接图的PageRank算法相结合的IPageRank?IND算法,以提高链接相关度判断的准确性和主题资源搜索的覆盖率,并将网页按照VSM算法进行内容相关度判断和自动分类,从而提高检索效率。最后构建一个搜索引擎进行实验,通过比较该算法与其他几种算法的实验结果,能够看到IPageRank-IND算法的优势是明显的。  相似文献   

6.
针对通用搜索引擎缺乏对网页内容的时态表达式的准确抽取及语义查询支持,提出时态语义相关度算法(TSRR)。在通用搜索引擎基础上添加了时态信息抽取和时态信息排序功能,通过引入时态正则表达式规则,抽取查询关键词和网页文档中的时态点或时态区间等时态表达式,综合计算网页内容的文本相关度和时态语义相关度,从而得到网页的最终排序评分。实验表明,应用TSRR算法可以准确而有效地匹配与时态表达式相关的关键词查询。  相似文献   

7.
详细阐述了主题网络爬虫实现的关键技术, 将传统的空间向量模型进行改进形成自适应的空间向量模型, 结合网页内容和链接两个方面进行网页相关度计算, 设计并实现了一个面向主题的网络爬虫系统. 针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略. 最后给出实验结果, 证明该系统的可行性及优越性.  相似文献   

8.
王冲  纪仙慧 《计算机科学》2016,43(3):275-278, 312
针对传统的PageRank算法存在主题漂移、忽略用户兴趣等不足,提出一种基于用户兴趣与主题相关的Page-Rank改进算法——ITPR。为了更好地提高用户搜索质量,利用网页浏览时间与页面篇幅共同构建用户兴趣度因子,用线性拟合月点击量的方法预测用户兴趣度的升降,同时结合网页内容引入主题相关度因子,共同对网页PR值进行适当的修正,使其分配更为合理。仿真实验结果表明,在相同的实验环境下,改进的PageRank算法提升了网页排序质量、查准率以及用户搜索满意度。  相似文献   

9.
介绍了网页分析算法HITS算法,并对HITS算法进行改进,提出了一种基于超链接和内容相关度的网页排序算法VHITS算法.VHITS算法引入向量空间模型计算网页内容的主题相关度,并用来评价超链接的重要性,从而避免了HITS算法所产生的主题漂移现象,有效的引导主题挖掘.  相似文献   

10.
当前,搜索引擎是互联网的一个重要组成部分.其网页摘要采用的是静态网页额摘要,用户不能快速从网页 摘要中获取网页内容的主题思想.本文在开源搜索引擎Nutch中运用自动文摘技术生成网页摘要,加快用户确认搜索准确 度的速度.  相似文献   

11.
基于K-近邻算法的网页自动分类系统的研究及实现   总被引:2,自引:0,他引:2  
随着网络信息量的爆炸式增长,人们查找信息越来越难。Web搜索引擎的出现在一定程度上解决了这种矛盾。然而现行的搜索引擎无法根据用户所指定的主题进行针对性的搜索,因此,必须在搜索后对结果是否属于目标主题进行判断,以提高搜索的准确性,文中提出了一种基于K-近邻机器学习算法的信息自动分类的方法,能够对搜索到的网页自动地判定是否属于目标主题,并在实验的基础上验证了其在提高搜索准确性上的作用。  相似文献   

12.
网络机器人是搜索引擎中的核心部分,其首要步骤是获取页面内容来分析和追踪其包含的链接,以便搜索更多的网页.出于某些安全和商业因素,有些网站的相关内容必须要在有效用户登录后才可以查看,所以其相关页面的下载,首先需要通过身份验证.这就需要使用HTTP用户认证机制来判别用户身份,本文主要论述了怎么样用C#来实现通过HTTP用户认证实现页面下载.  相似文献   

13.
网站黄页系统是一个自动生成网站黄页目录并以此为基础为用户提供一系列服务的系统。它通过快速收集网络上的教育资源,并自动化地对其进行高质量的分类和信息抽取,形成教育网站黄页,为用户提供浏览、检索等服务。未经过二次开发的黄页系统检索的准确性普遍较低,不适合校园网络的使用.针对普通搜索引擎的固有缺陷,提出了一种应用于新闻检索的搜索引擎,该引擎是利用开源的网络爬虫工具将互联网信息抓取到本地,并利用Lucene开放的API,对特定的信息进行索引和搜索。  相似文献   

14.
本文针对传统搜索引擎在搜索引擎的查全率和查准率方面的弱点,分析了站内搜索的重要性,提出了一种基于网站站内的机器人搜索引擎,并具体阐述了基于机器人综合式搜索引擎的网站站内搜索引擎的技术实现方式.该搜索引擎能够快速查找用户所需的信息,最大程度地满足用户需求.  相似文献   

15.
一种基于语义理解的元搜索引擎的研究   总被引:5,自引:0,他引:5  
通过对查询短语的结构分析,发现查询短语通常由关键词和特征词构成。特征词是对网页内容的概括,它预示着网页中包含一组特定的特征词条。基于该思想建立了面向Web网页内容的特征库。以元搜索引擎为研究对象,研究了以Web网页内容特征库为基础实现对查询短语进行语义理解的方法,提出了相关度级别的算法,对库中已收入的特征词进行了查询测试,查准率为86.7%。实验表明,该模型基本实现了对查询短语的理解,对提高搜索引擎的查准率有显著的效果。  相似文献   

16.
张丽  张福顺 《信息与控制》2004,33(3):277-280
主要介绍了虚拟企业中伙伴企业搜索引擎系统的设计方法.该系统是一个专门搜集企业信息的专业型搜索引擎,它以元搜索为思想基础,利用网络机器人和信息抽取工具搜索大量准确可靠的企业信息,还具有邮件群发、企业注册等多项功能.该系统为虚拟企业提供了一个查找企业信息的平台,使得盟主能够更快捷、方便地找到适合某种特定任务的伙伴企业.  相似文献   

17.
针对PageRank算法不十分关注页面内容而只关注"超链分析"的现状,并存在着用户实际所需要的页面的次序并不靠前的问题,提出了一种搜索引擎页面排序融合算法.该算法通过考虑词项权重、链接分析和用户偏好3个主要方面,得到一个URL的权值评价,这样每个待搜集的网页都有自己的权值评价,超链选择程序根据这些权值,从中选出一个或一批权值最大的来搜集,以达到精确检索的目的.  相似文献   

18.
SEO技术研究   总被引:4,自引:0,他引:4  
为了利用搜索引擎优化SEO(Search Engine Optimization)技术给网站带来高质量的流量并将其转化为商业利益,理解搜索引擎的算法和排名原理十分必要。通过对网站的结构优化、关键词优化、单页优化、防止被搜索引擎惩罚和挽救被惩罚网站等技术的研究,达到提高网站排名,实现网站的价值目的。  相似文献   

19.
搜索引擎的Web Robot技术与优化   总被引:4,自引:0,他引:4  
崔泽永  常晓燕 《微机发展》2004,14(4):99-102
针对目前如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求,文中对搜索引擎作了概述,重点阐述了搜索引擎的Web Robot搜索器的搜索策略、文档提取以及搜索优化措施,提出了改进搜索引擎的Web Rohot的方法,改进后的Web Robot能够更有效地发现和搜集信息。为搜索引擎进行信息搜集,高效、稳定的Web Rohot保证了为用户提供的网上信息的全面性和实时性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号