首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
针对搜索引擎查询结果缓存与预取问题,该文提出了一种基于查询特性的搜索引擎查询结果缓存与预取方法,该方法包括用来指导预取的查询结果页码预测模型和缓存与预取算法框架,用于提高搜索引擎系统性能。通过对国内某著名中文商业搜索引擎的某段时间的用户查询日志分析得出,用户对不同查询返回的查询结果所浏览的页数具有显著的非均衡性,结合该特性设计查询结果页码预测模型来进行预取和分区缓存。在该搜索引擎两个月的大规模真实用户查询日志上的实验结果表明,与传统的方法相比,该方法可以获得3.5%~8.45%的缓存命中率提升。  相似文献   

2.
目前搜索引擎返回的信息太多且难以根据用户的兴趣提供检索结果,而个性化推荐是一种旨在减轻用户在信息检索方面负担的有效方法.文中把内容过滤技术和文档聚类技术相结合,以改进的STC聚类方法组织搜索结果,主动推荐用户感兴趣的文档并将其中的Top-N对象预取到本地. WWW缓存中的Web文档代表了用户当前的兴趣,通过建立用户概率兴趣模型,在搜索结果STC聚类的基础上进行内容过滤.实验表明,基于搜索结果的Web预取模型具有较好的时间性能和较高的查准率.  相似文献   

3.
搜索引擎结果聚类算法研究   总被引:6,自引:1,他引:5  
随着Web文档数量的剧增,搜索引擎也暴露了许多问题,用户不得不在搜索引擎返回的大量文档摘要列表中查找。而对搜索引擎结果聚类能使用户在更高的主题层次上来查看搜索引擎返回的结果。该文提出了搜索引擎结果聚类的几个重要指标并给出了一个新的基于PAT—tree的搜索引擎结果聚类算法。  相似文献   

4.
元搜索引擎的调度算法是研究如何从庞杂的独立搜索引擎中选择出与查询字串相关度最高、与用户的查询需求最贴近的合适数量的独立搜索引擎。现在,在原有的元搜索引擎调度算法基础上,提出了一种个性化调度算法。该算法根据用户兴趣类对所有独立搜索引擎进行文档分类,然后根据用户查询串所属的兴趣分类,计算出查询串与该分类下文档的相关度这一调度算法的主要影响因素,再结合成员搜索引擎的平均响应时间性能评价,返回结果数量,以及以用户反馈为基础的用户兴趣度经验,计算出独立搜索引擎的排序,从而实现个性化的调度。  相似文献   

5.
基于搜索结果的个性化推荐系统研究   总被引:1,自引:0,他引:1  
搜索引擎返回的信息太多且不能根据用户的兴趣提供检索结果,使得用户使用搜索引擎难以用简便的方式找到感兴趣的文档。个性化推荐是一种旨在减轻用户在信息检索方面负担的有效方法。文中把内容过滤技术和文档聚类技术相结合,实现了一个基于搜索结果的个性化推荐系统,以聚类的方法自动组织搜索结果,主动推荐用户感兴趣的文档。通过建立用户概率兴趣模型,对搜索结果跚℃聚类的基础上进行内容过滤。实验表明,概率模型比矢量空间模型更好地表达了用户的兴趣和变化。  相似文献   

6.
元搜索引擎及其实现   总被引:14,自引:0,他引:14  
单个搜索引擎的索引和处理能力的提高赶不上Web数据的快速增长,结果是任何单个搜索引擎只能索引Web的一部分文档,用户需要的文档分布在许多搜索引擎的文档数据库中,元搜索引擎是架构在许多搜索引擎之上的搜索引擎,它利用各个成员搜索引擎提供的服务,能够高效方便地找到这些文档,然后合并成员搜索引擎返回的结果呈现给用户,实现了一个元搜索引擎系统,并给出建立一个高效的元搜索引擎的关键技术和经验。  相似文献   

7.
传统搜索引擎是基于关键字的检索,然而文档的关键字未必和文档有关,而相关的文档也未必显式地包含此关键字。基于语义Web的搜索引擎利用本体技术,可以很好地对关键字进行语义描述。当收到用户提交的搜索请求时,先在已经建立好的本体库的基础上对该请求进行概念推理,然后将推理结果提交给传统的搜索引擎,最终将搜索结果返回给用户。相对于传统的搜索引擎,基于语义Web的搜索引擎有效地提高了搜索的查全率和查准率。  相似文献   

8.
Web检索结果快速聚类方法的研究与实现   总被引:2,自引:0,他引:2  
为了帮助Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档,在对聚类过程研究分析的基础上给出了一种Web检索结果快速聚类方法。它通过分析聚类过程,从建立索引模型、相似性的计算到聚类结果的形成等环节,都做了分析和简化,并利用检索结果的标题、Url以及文档片断3部分所含信息计算返回结果之间的相似度,将首先返回的部分检索结果利用无向图映射法进行部分聚类后,将其余返回结果分配到与之最相近的集簇中最终形成聚类结果。该方法实现简单。实验证明该方法响应速度快,聚类相关性较高,空间占用少。  相似文献   

9.
PCCS部分聚类分类:一种快速的Web文档聚类方法   总被引:16,自引:1,他引:15  
PCCS是为了帮助Web用户从搜索引擎所返回的大量文档片中筛选出自已所需要的文档,而使用的一种对Web文档进行快速聚类的部分聚类分法,首先对一部分文档进行聚类,然后根据聚类结果形成类模型对其余的文档进行分类,采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集,将其余的文档使用Naive-Bayes分类器进行划分,为了提高聚类与分类的效率,提出了一种混合特征选取方法以减少文档表示的维数,重新计算文档中各特征的熵,从中选取具有最大熵值的前若干个特征,或者基于持久分类模型中的特征集来进行特征选取,实验证明,部分聚类方法能够快速,准确地根据文档主题内容组织Web文档,使用户在更高的术题层次上来查看搜索引擎返回的结果,从以主题相似的文档所形成的集簇中选取相关文档。  相似文献   

10.
基于用户兴趣的搜索结果动态聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
目前搜索引擎返回的结果往往比较多,而且各类文档混合在一起,没有针对性,使用者仍然需要花费大量时间来寻找自己感兴趣的文档。提出了一种对搜索结果动态聚类算法,利用用户的兴趣特点,从搜索结果的文档中抽取摘要,利用这种摘要随着用户的浏览进程进行动态聚类,将这些文档聚成不同类别。用户只需要找出自己感兴趣类别,便可以得到足够多感兴趣的文档。实验证明,这种方法是有效的,并具有抗噪声等良好性能。  相似文献   

11.
搜索引擎中的聚类浏览技术   总被引:1,自引:0,他引:1  
搜索引擎大多以文档列表的形式将搜索结果显示给用户,随着Web文档数量的剧增,使得用户查找相关信息变得越来越困难,一种解决方法是对搜索结果进行聚类提高其可浏览性。搜索引擎的聚类浏览技术能使用户在更高的主题层次上查看搜索结果,方便地找到感兴趣的信息。本文介绍了搜索引擎的聚类浏览技术对聚类算法的基本要求及其分类方法,研究分析了主要聚类算法及其改进方法的特点,讨论了对聚类质量的评价,最后指出了聚类浏览技术的发展趋势。  相似文献   

12.
A (page or web) snippet is a document excerpt allowing a user to understand if a document is indeed relevant without accessing it. This paper proposes an effective snippet generation method. A statistical query expansion approach with pseudo-relevance feedback and text summarization techniques are applied to salient sentence extraction for good quality snippets. In the experimental results, the proposed method showed much better performance than other methods including those of commercial Web search engines such as Google and Naver.  相似文献   

13.
陈海燕 《计算机科学》2015,42(1):261-267
词汇语义相似度的计算在网页浏览和查询推荐等网络相关工作中起着重要的作用.传统的基于分类的方法不能处理持续出现的新词.由于网络数据中隐藏着大量的噪音和冗余,鲁棒性和准确性仍然是一个挑战,因此提出了一种基于搜索引擎的词汇语义相似度计算方法.语义片段和检索结果的页数被用来去除词汇语义相似度计算过程中的噪音和冗余.此外,还提出了一种方法来整合查询结果页数、语义片段和显示的搜索结果的数量,该方法不需要任何先验知识与本体.实验结果显示,所提出的方法在Rubenstein-Goodenough测试集的相关系数为0.851,优于现有的基于网络的词汇语义相似度计算方法,同时在搜索引擎的查询扩展任务中具有较为良好的应用效果.  相似文献   

14.
基于客户端的网页预取模型   总被引:2,自引:0,他引:2       下载免费PDF全文
提出一种基于客户端的网页预取模型。此模型以WPC方法为理论核心,WPC方法以客户端用户访问日志数据为依据,从中挖掘出Web用户的访问模式再通过提出的模式匹配算法进行网页预测,还提出基于Agent的Web预取系统具体应用WPC方法进行网页预取决策。此模型避免或简化了一般的网页预取模型对Web日志进行的复杂的预处理的一些步骤,其中包括数据净化,用户识别,用户会话识别和事务识别等,从而提高了预取效率。实验结果表明该模型能够达到较为理想的预取效果,具有较高的实用价值。  相似文献   

15.
Semantic similarity measures play important roles in many Web‐related tasks such as Web browsing and query suggestion. Because taxonomy‐based methods can not deal with continually emerging words, recently Web‐based methods have been proposed to solve this problem. Because of the noise and redundancy hidden in the Web data, robustness and accuracy are still challenges. In this paper, we propose a method integrating page counts and snippets returned by Web search engines. Then, the semantic snippets and the number of search results are used to remove noise and redundancy in the Web snippets (‘Web‐snippet’ includes the title, summary, and URL of a Web page returned by a search engine). After that, a method integrating page counts, semantics snippets, and the number of already displayed search results are proposed. The proposed method does not need any human annotated knowledge (e.g., ontologies), and can be applied Web‐related tasks (e.g., query suggestion) easily. A correlation coefficient of 0.851 against Rubenstein–Goodenough benchmark dataset shows that the proposed method outperforms the existing Web‐based methods by a wide margin. Moreover, the proposed semantic similarity measure significantly improves the quality of query suggestion against some page counts based methods. Copyright © 2011 John Wiley & Sons, Ltd.  相似文献   

16.
Queries to Web search engines are usually short and ambiguous, which provides insufficient information needs of users for effectively retrieving relevant Web pages. To address this problem, query suggestion is implemented by most search engines. However, existing methods do not leverage the contradiction between accuracy and computation complexity appropriately (e.g. Google's ‘Search related to’ and Yahoo's ‘Also Try’). In this paper, the recommended words are extracted from the search results of the query, which guarantees the real time of query suggestion properly. A scheme for ranking words based on semantic similarity presents a list of words as the query suggestion results, which ensures the accuracy of query suggestion. Moreover, the experimental results show that the proposed method significantly improves the quality of query suggestion over some popular Web search engines (e.g. Google and Yahoo). Finally, an offline experiment that compares the accuracy of snippets in capturing the number of words in a document is performed, which increases the confidence of the method proposed by the paper. Copyright © 2010 John Wiley & Sons, Ltd.  相似文献   

17.
In knowledge discovery in a text database, extracting and returning a subset of information highly relevant to a user's query is a critical task. In a broader sense, this is essentially identification of certain personalized patterns that drives such applications as Web search engine construction, customized text summarization and automated question answering. A related problem of text snippet extraction has been previously studied in information retrieval. In these studies, common strategies for extracting and presenting text snippets to meet user needs either process document fragments that have been delimitated a priori or use a sliding window of a fixed size to highlight the results. In this work, we argue that text snippet extraction can be generalized if the user's intention is better utilized. It overcomes the rigidness of existing approaches by dynamically returning more flexible start-end positions of text snippets, which are also semantically more coherent. This is achieved by constructing and using statistical language models which effectively capture the commonalities between a document and the user intention. Experiments indicate that our proposed solutions provide effective personalized information extraction services.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号