首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
搜索引擎结果聚类算法研究   总被引:6,自引:1,他引:5  
随着Web文档数量的剧增,搜索引擎也暴露了许多问题,用户不得不在搜索引擎返回的大量文档摘要列表中查找。而对搜索引擎结果聚类能使用户在更高的主题层次上来查看搜索引擎返回的结果。该文提出了搜索引擎结果聚类的几个重要指标并给出了一个新的基于PAT—tree的搜索引擎结果聚类算法。  相似文献   

2.
该文针对目前通用搜索引擎存在的不足,提出在建立普通倒排索引的基础上,再建立一个记录用户手动标注信息的综合倒排索引,并结合渠道奖励词频算法和文档关注度算法动态更新综合倒排索引,最后在Lucene环境下实现了一个体现用户个性的搜索引擎。  相似文献   

3.
传统搜索引擎是基于关键字的检索,然而文档的关键字未必和文档有关,而相关的文档也未必显式地包含此关键字。基于语义Web的搜索引擎利用本体技术,可以很好地对关键字进行语义描述。当收到用户提交的搜索请求时,先在已经建立好的本体库的基础上对该请求进行概念推理,然后将推理结果提交给传统的搜索引擎,最终将搜索结果返回给用户。相对于传统的搜索引擎,基于语义Web的搜索引擎有效地提高了搜索的查全率和查准率。  相似文献   

4.
Deep Web数据源聚类与分类   总被引:1,自引:0,他引:1  
随着Internet信息的迅速增长,许多Web信息已经被各种各样的可搜索在线数据库所深化,并被隐藏在Web查询接口下面.传统的搜索引擎由于技术原因不能索引这些信息--Deep Web信息.本文分析了Deep Web查询接口的各种类型,研究了基于查询接口特征的数据源聚类方法和基于聚类结果的数据源分类方法,讨论了从基于规则与线性文档分类器中抽取查询探测集的规则抽取算法和Web文档数据库分类的查询探测算法.  相似文献   

5.
吕强  郭蕾 《微机发展》2001,11(1):32-35
本文介绍一个Web抓取器的实现。Web抓取器能够根据用户输入的URL和一定的约束条件自动地搜索Web上的超文本文档,建立了URL索引,根据该索引有选择的下载Web资源,同时保持了原有的链接关系,本文实现了一个种Web遍历过程,并根据遍历结果抓取文档,从而完成对指定URL抓取文本。  相似文献   

6.
搜索引擎在多成员搜索引擎搜索结果的整合过程中,搜索结果的排序在很大程度上决定着元搜索引擎的服务质量。为了实现搜索结果的有效整合,目前技术主要结合查询请求、文档内容、初始排序或(和)赋予搜索成员搜索引擎权重等因素。其中采用赋予搜索引擎权重时,往往根据用户和技术人员经验,主观地进行赋值,不能体现真实的用户搜索偏好。为此,提出了通过挖掘用户搜索及遍历情况,动态地赋予各成员搜索引擎权重的方法。通过用户遍历及点击下载情况,得到了用户搜索遍历与返回结果的匹配度,论证了该方法的可行性和有效性。  相似文献   

7.
随着互联网的迅猛发展,信息爆炸出现在人们面前,如何快速、方便、有效地从信息的海洋中找到需要的信息逐渐成为越来越重要的问题,搜索引擎也应需而生.按照搜索引擎的"全、准、快、好"评测标准,目前的许多搜索引擎已经不能满足人们的需求,存在很多问题.针对这一问题,设计了一个应用于中英文法律信息检索的搜索引擎系统.搜索引擎系统的设计涉及多种关键技术,而索引是搜索引擎的核心,搜索引擎后台工作的目的就是要建立关键词和文档的索引.建立高效、快速、优化的索引结构会对搜索引擎的性能产生决定性的影响.通过对索引系统功能模块的分析,引入了索引系统的设计问题.围绕索引系统关键词同步和文档同步,提出了一种适用于中英文法律信息检索的搜索引擎索引系统同步模块的设计方法与PHP程序实现,并通过实验数据分析其优劣.  相似文献   

8.
该文提出了一种分布式信息检索系统,叫作协作式搜索引擎(CSE),它是由多个相互协作的本地元搜索引擎构成的。每一个本地搜索引擎都有它自己的索引数据库,能够很快地进行更新。CSE通过基于站点选择搜索和对Web文档计分等方法来减少通信延迟、缩短收集时间,实现快速收集、及时更新和定位准确,从而克服了目前的搜索引擎更新周期太长的缺点。  相似文献   

9.
元搜索引擎的调度算法是研究如何从庞杂的独立搜索引擎中选择出与查询字串相关度最高、与用户的查询需求最贴近的合适数量的独立搜索引擎。现在,在原有的元搜索引擎调度算法基础上,提出了一种个性化调度算法。该算法根据用户兴趣类对所有独立搜索引擎进行文档分类,然后根据用户查询串所属的兴趣分类,计算出查询串与该分类下文档的相关度这一调度算法的主要影响因素,再结合成员搜索引擎的平均响应时间性能评价,返回结果数量,以及以用户反馈为基础的用户兴趣度经验,计算出独立搜索引擎的排序,从而实现个性化的调度。  相似文献   

10.
元搜索引擎是搜索引擎之上的搜索引擎,它主要通过成员搜索引擎调度、文本选择、结果整合三个主要步骤来为用户提供更加全面的信息。本文通过对元搜索引擎关键技术的研究,在成员调度、结果整合时考虑用户兴趣,使得选择的成员搜索引擎、搜索结果更加符合用户的需求,从而实现元搜索的个性化,在一定程度上提高了元搜索引擎的查准率和效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号