首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 375 毫秒
1.
基于超链接引导和链接图分析的主题搜索引擎   总被引:1,自引:0,他引:1  
主题搜索引擎足专为查询某一学科或主题信息而出现的查询工具.针对目前各种主题搜索引擎在主题搜索上的优缺点,提出将基于文字内容启发的超链接引导技术与基于 Web 链接图的 PageRank 算法相结合的 IPageRank-IND 算法,以提高链接相关度判断的准确性和主题资源搜索的覆盖率,并将网页按照 VSM 算法进行内容相关度判断和自动分类,从而提高检索效率.最后构建一个搜索引擎进行实验,通过比较该算法与其他几种算法的实验结果,能够看到 IPageRank-IND 算法的优势是明显的.  相似文献   

2.
唐苏  刘循 《微机发展》2011,(2):155-158
主题搜索引擎是专为查询某一学科或主题信息而出现的查询工具。针对目前各种主题搜索引擎在主题搜索上的优缺点,提出将基于文字内容启发的超链接引导技术与基于Web链接图的PageRank算法相结合的IPageRank?IND算法,以提高链接相关度判断的准确性和主题资源搜索的覆盖率,并将网页按照VSM算法进行内容相关度判断和自动分类,从而提高检索效率。最后构建一个搜索引擎进行实验,通过比较该算法与其他几种算法的实验结果,能够看到IPageRank-IND算法的优势是明显的。  相似文献   

3.
林欣  温传林  韩立新 《微机发展》2013,(2):41-43,48
元搜索引擎并行地向各个成员搜索引擎发出请求,合并及处理所有成员引擎的返回结果。相对于传统搜索引擎,元搜索引擎具有更好的查全率但在结果相关度排序及查准率方面仍需要改善。就相关度排序及查准率方面的问题元搜索成员引擎对于各个不同主题具有不同的检索质量并就此提出一种基于主题偏好的排序方法。利用Beeferman聚类方法对检索主题划分,通过Borda排序算法对元搜索引擎获得条目进行基于主题的分类排序,以此来提高元搜索查询质量和改善用户体验。  相似文献   

4.
当前存在的元搜索查询方法不够精确,为了解决这一问题,建立了主题元搜索模型,提出了一种基于主题信息与相关度相结合的结果整合算法。该算法综合考虑了主题信息与成员搜索引擎之间的相关度,主题信息与查询结果之间的相关度,查询词与查询结果的相关度,以及查询结果的重复度、位置等诸多因素。实验表明,该算法能够很好地把用户最关心的结果排在查询结果集的前面,提高了查准率。  相似文献   

5.
元搜索引擎的调度算法是研究如何从庞杂的独立搜索引擎中选择出与查询字串相关度最高、与用户的查询需求最贴近的合适数量的独立搜索引擎。现在,在原有的元搜索引擎调度算法基础上,提出了一种个性化调度算法。该算法根据用户兴趣类对所有独立搜索引擎进行文档分类,然后根据用户查询串所属的兴趣分类,计算出查询串与该分类下文档的相关度这一调度算法的主要影响因素,再结合成员搜索引擎的平均响应时间性能评价,返回结果数量,以及以用户反馈为基础的用户兴趣度经验,计算出独立搜索引擎的排序,从而实现个性化的调度。  相似文献   

6.
Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地。提出一种基于锚文本和标题信息过滤并结合网页内容相关度判断的HITS专题检索策略,利用专题训练集判断主题相关度,很好地解决了只依靠查询字符串判断的弊端。实验表明,此策略能很好地提高专题信息汇聚精确度和检索的准确率,并且减少了非相关URL的下载量。  相似文献   

7.
随着互联网的快速发展,网络信息呈现海量和多元化的趋势。如何为互联网用户快速、准确地提取其所需信息,已成为搜索引擎面临的首要问题。传统的通用搜索引擎虽然能够在较大的信息范围内获取目标,但在某些特定领域无法给用户提供专业而深入的信息。提出基于SVM分类的主题爬虫技术,其将基于文字内容和部分链接信息的主题相关度预测算法、SVM分类算法和HITS算法相结合,解决了特定信息检索的难题。实验结果表明,使用基于SVM分类算法的爬取策略,能够较好地区分主题相关网页和不相关网页,提高了主题相关网页的收获率和召回率,进而提高了搜索引擎的检索效率。  相似文献   

8.
迅速发展的Web给传统的搜索引擎带来了前所未有的挑战,面向特定主题或特定领域采集相关信息的垂直搜索引擎应运而生。在垂直搜索引擎中,网络蜘蛛的爬行策略和主题相关性判定算法是其核心。该文详细介绍了一种主题相关性判定算法-Hits算法,并在此基础上提出了一个改进的主题相关性判定算法,实验表明,改进的Hits算法提高了爬取网页的主题相关度,有助于网络蜘蛛爬取特定主题的信息。  相似文献   

9.
《计算机工程》2018,(3):189-194
传统的搜索引擎仅返回给用户包含查询关键字的文档,忽略了查询背后用户真正的信息需求。为此,将文档检索看作个性化推荐问题,提出一种查询意图识别的主题模型个性化检索算法。对用户检索历史进行潜在狄利克雷分布主题建模,结合检索历史主题模型识别用户查询的潜在意图,并按主题相关度进行文档推荐,计算查询到文档集的KL距离对文档集排序,最终返回给用户个性化检索文档列表。实验结果表明,与基于协同相似计算和基于用户聚类的推荐算法相比,该算法能够更准确有效地为用户提供个性化检索。  相似文献   

10.
为有效地弥补全文搜索引擎的不足,提出了一种动态求解的最优密度聚类算法并加以实现.该算法构造了一颗簇关系树,将两种典型聚类算法:密度聚类算法DBSCAN和层次聚类算法BIRCH进行有效结合,对聚类参数ε进行动态求解,以达到参数ε的最优.与其它文本聚类算法相比,该算法的查询结果与用户感兴趣的主题相关度较大,对具有二义性的关键词有较高的查准率,能有效提升搜索引擎的查询效率,加快用户搜索信息的速度.  相似文献   

11.
定题搜索引擎Robot的设计与算法   总被引:6,自引:0,他引:6  
定题搜索引擎将信息检索限定在特定主题领域,提供特定主题的信息检索服务,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat 2.02版,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关信息的搜索及网页相关度分析。该文分析了传统定题搜索算法的优缺点,提出了基于反向链接结合超链文本分析的定题搜索算法。文章还对基于内容的网页相关度分析算法进行了详细的论述。对比搜索实验表明系统有着较好的性能,能准确地爬行到主题相关网页。  相似文献   

12.
基于用户兴趣的搜索结果动态聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
目前搜索引擎返回的结果往往比较多,而且各类文档混合在一起,没有针对性,使用者仍然需要花费大量时间来寻找自己感兴趣的文档。提出了一种对搜索结果动态聚类算法,利用用户的兴趣特点,从搜索结果的文档中抽取摘要,利用这种摘要随着用户的浏览进程进行动态聚类,将这些文档聚成不同类别。用户只需要找出自己感兴趣类别,便可以得到足够多感兴趣的文档。实验证明,这种方法是有效的,并具有抗噪声等良好性能。  相似文献   

13.

摘  要:针对PageRank算法完全依据链接结构排序,未考虑网页内容分析,造成平均分配PR值、主题漂移、偏重旧网页的现象,且已有改进算法存在单一性优化等问题,提出一种多特征因子融合的PageRank算法。该算法为使搜索结果更接近用户查询需求,同时兼顾搜索内容的相关度和查准率,通过添加链入链出权重因子、用户反馈因子、主题相关因子和时间因子,共同改善PageRank算法存在的不足。实验结果表明,所提算法在内容相关性和查准率方面,较其他网页排序算法有明显提高,达到优化PageRank算法的目的。  相似文献   

14.
针对当前元搜索引擎存在的问题,提出一种个性化元搜索结果整合算法。首先对成员搜索引擎根据相应条件设定权值,对各成员搜索引擎得到的搜索结果按贡献量加权分块排序,根据用户检索词条与兴趣库和元搜索结果的文本相关度对块内搜索结果进行整合排序。实验结果表明,该算法能够满足不同用户的个性化需求,在保证了搜索结果查全率的同时提高了查准率,很大程度上改善了用户检索效果和效率。  相似文献   

15.
以Web 2.0中用户行为作为研究对象,通过发掘用户反馈方式,提出用户反馈分值的概念,对用户反馈影响搜索结果排名的具体方法以及相应实现进行研究,提出了一种基于神经网络的网页排序算法。该算法引入BP神经网络模型,根据用户反馈分值选择样本训练神经网络。将传统搜索结果输入到经过训练的神经网络进行计算,根据计算出的结果所表示的网页相关性强弱判断后进行二次排序。该算法利用了神经网络具有的模式识别能力,有效地将用户反馈和搜索引擎结合起来,使得搜索结果更加符合用户的搜索要求。  相似文献   

16.
Abstract: Content analysis of search engine user queries is an important task, since successful exploitation of the content of queries can result in the design of efficient information retrieval algorithms for more efficient search engines. Identification of topic changes within a user search session is a key issue in content analysis of search engine user queries. This study proposes an artificial neural network application in the area of search engine research to automatically identify topic changes in a user session by using statistical characteristics of queries, such as time intervals and query reformulation patterns. Sample data logs from the FAST and Excite search engines are selected to train the neural network and then the neural network is used to identify topic changes in the data log. As a result, almost all the performance measures yielded favourable results.  相似文献   

17.
曹建芳  王鸿斌 《计算机工程与设计》2007,28(9):2138-2141,2202
随着网络的发展,以及用户应用的不断变化,通用的搜索引擎已不能应对各种不同的检索请求.面向主题的搜集系统是针对一个主题,一类网页的搜集系统,即只搜集整个网络的一个特定子集.对目前采用的各种搜集算法进行了研究和评估,确定了一套面向主题的搜集算法.该算法是基于原有搜索引擎实现的,能够有效、准确的进行同主题搜索,根据实现的结果说明基于SVM和统计的面向主题搜集系统的优势所在及其发展的可能性.  相似文献   

18.
基于子主题概念的Web主题挖掘   总被引:1,自引:0,他引:1  
为了帮助用户在Web上查找和编辑具体主题知识,本文给出一种基于子主题概念的挖掘算法。基本思想是:给定一个主题,通过搜索引擎返回的页面集合找出主题的子主题或核心概念,得到包含具体主题及子主题概念的页面,使用户无需浏览所有页面就能获取查询主题系统的、全面的知识。  相似文献   

19.
冯振明 《微机发展》2006,16(7):82-84
搜索引擎技术的发展是随着电子技术不断进步而形成的信息数字化和数据网络化的必然产物。一个出色的搜索引擎能够及时向用户提供所需要的信息,而要做到这点就需要一个快速、优质、高效的搜索算法予以支持。Google搜索引擎依靠其PageRank机制及收敛算法一直处于该领域的领先地位。文中介绍了这个搜索引擎的核心:PageRank算法。PageRank算法通过计算网页的重要性值———PageRank值来确定网页排序的优先级,而网页的PageRank值则是通过累加指向该网页的其他网页的PageRank值得到的。因此Google的搜索结果是高效的、客观正确的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号