首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
搜索引擎结果聚类算法研究   总被引:6,自引:1,他引:5  
随着Web文档数量的剧增,搜索引擎也暴露了许多问题,用户不得不在搜索引擎返回的大量文档摘要列表中查找。而对搜索引擎结果聚类能使用户在更高的主题层次上来查看搜索引擎返回的结果。该文提出了搜索引擎结果聚类的几个重要指标并给出了一个新的基于PAT—tree的搜索引擎结果聚类算法。  相似文献   

2.
夏斌  徐彬 《电脑开发与应用》2007,20(5):16-17,20
针对目前搜索引擎返回候选信息过多从而使用户不能准确查找与主题有关结果的问题,提出了基于超链接信息的搜索引擎检索结果聚类方法,通过对网页的超链接锚文档和网页文档内容挖掘,最终将网页聚成不同的子类别。这种方法在依据网页内容进行聚类的同时,充分利用了Web结构和超链接信息,比传统的结构挖掘方法更能体现网站文档的内容特点,从而提高了聚类的准确性。  相似文献   

3.
PCCS部分聚类分类:一种快速的Web文档聚类方法   总被引:15,自引:1,他引:15  
PCCS是为了帮助Web用户从搜索引擎所返回的大量文档片中筛选出自已所需要的文档,而使用的一种对Web文档进行快速聚类的部分聚类分法,首先对一部分文档进行聚类,然后根据聚类结果形成类模型对其余的文档进行分类,采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集,将其余的文档使用Naive-Bayes分类器进行划分,为了提高聚类与分类的效率,提出了一种混合特征选取方法以减少文档表示的维数,重新计算文档中各特征的熵,从中选取具有最大熵值的前若干个特征,或者基于持久分类模型中的特征集来进行特征选取,实验证明,部分聚类方法能够快速,准确地根据文档主题内容组织Web文档,使用户在更高的术题层次上来查看搜索引擎返回的结果,从以主题相似的文档所形成的集簇中选取相关文档。  相似文献   

4.
Internet上信息资源的飞速膨胀造成用户在进行信息检索时的不便,传统的搜索引擎不能很好地解决这个问题。因此提出了一种基于聚类的个性化元搜索引擎模型,系统通过对用户建立个人模型,对此模型进行聚类形成不同用户群,并对检索到的结果进行聚类处理,同用户模型聚类相结合返回给用户个性化的搜索结果。分析了个性化元搜索引擎的系统构成,详细介绍了每个模块的功能,最后展望了它的发展前景。  相似文献   

5.
卫琳 《微机发展》2007,17(9):65-67
搜索引擎返回的信息太多且不能根据用户的兴趣提供检索结果,使得用户使用搜索引擎难以用简便的方式找到感兴趣的文档。个性化推荐是一种旨在减轻用户在信息检索方面负担的有效方法。文中把内容过滤技术和文档聚类技术相结合,实现了一个基于搜索结果的个性化推荐系统,以聚类的方法自动组织搜索结果,主动推荐用户感兴趣的文档。通过建立用户概率兴趣模型,对搜索结果STC聚类的基础上进行内容过滤。实验表明,概率模型比矢量空间模型更好地表达了用户的兴趣和变化。  相似文献   

6.
基于搜索结果的个性化推荐系统研究   总被引:1,自引:0,他引:1  
搜索引擎返回的信息太多且不能根据用户的兴趣提供检索结果,使得用户使用搜索引擎难以用简便的方式找到感兴趣的文档。个性化推荐是一种旨在减轻用户在信息检索方面负担的有效方法。文中把内容过滤技术和文档聚类技术相结合,实现了一个基于搜索结果的个性化推荐系统,以聚类的方法自动组织搜索结果,主动推荐用户感兴趣的文档。通过建立用户概率兴趣模型,对搜索结果跚℃聚类的基础上进行内容过滤。实验表明,概率模型比矢量空间模型更好地表达了用户的兴趣和变化。  相似文献   

7.
随着英特网上信息量的迅速增长,用户想要从中找到感兴趣的信息变得越来越困难,传统的搜索引擎不能很好地解决这个问题。因此本文提出了一种带有聚类功能的个性化元搜索引擎,系统通过用户注册获得用户数据并对所有的用户进行聚类形成不同用户群病产生用户模式,搜索引擎调度模块通过用户模式来选择适合的搜索引擎进行调度得到个性化的搜索结果,再将检索到的结果进行聚类处理,返回给用户个性化的搜索结果。分析了带有聚类功能的个性化元搜索引擎的系统构成,详细介绍了每个模块的功能,最后展望了它的发展前景。  相似文献   

8.
随着英特网上信息量的迅速增长,用户想要从中找到感兴趣的信息变得越来越困难,传统的搜索引擎不能很好地解决这个问题。因此本文提出了一种带有聚类功能的个性化元搜索引擎,系统通过用户注册获得用户数据并对所有的用户进行聚类形成不同用户群病产生用户模式,搜索引擎调度模块通过用户模式来选择适合的搜索引擎进行调度得到个性化的搜索结果,再将检索到的结果进行聚类处理,返回给用户个性化的搜索结果。分析了带有聚类功能的个性化元搜索引擎的系统构成,详细介绍了每个模块的功能,最后展望了它的发展前景。  相似文献   

9.
搜索引擎中的聚类浏览技术   总被引:1,自引:0,他引:1  
搜索引擎大多以文档列表的形式将搜索结果显示给用户,随着Web文档数量的剧增,使得用户查找相关信息变得越来越困难,一种解决方法是对搜索结果进行聚类提高其可浏览性。搜索引擎的聚类浏览技术能使用户在更高的主题层次上查看搜索结果,方便地找到感兴趣的信息。本文介绍了搜索引擎的聚类浏览技术对聚类算法的基本要求及其分类方法,研究分析了主要聚类算法及其改进方法的特点,讨论了对聚类质量的评价,最后指出了聚类浏览技术的发展趋势。  相似文献   

10.
基于用户兴趣的搜索结果动态聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
目前搜索引擎返回的结果往往比较多,而且各类文档混合在一起,没有针对性,使用者仍然需要花费大量时间来寻找自己感兴趣的文档。提出了一种对搜索结果动态聚类算法,利用用户的兴趣特点,从搜索结果的文档中抽取摘要,利用这种摘要随着用户的浏览进程进行动态聚类,将这些文档聚成不同类别。用户只需要找出自己感兴趣类别,便可以得到足够多感兴趣的文档。实验证明,这种方法是有效的,并具有抗噪声等良好性能。  相似文献   

11.
The enormous amount of information available on the Internet requires the use of search engines in order to find specific information. As far as web accessibility is concerned, search engines contain two kinds of barriers: on the one hand, the interfaces for making queries and accessing results are not always accessible; on the other hand, web accessibility is not taken into account in information retrieval (IR) processes. Consequently, in addition to interface problems, accessing the items in the list of results tends to be an unsatisfactory experience for people with disabilities. Some groups of users cannot take advantage of the services provided by search engines, as the results are not useful due to their accessibility restrictions. The goal of this paper is to propose the integration of web accessibility measurement into information retrieval processes. Firstly, quantitative accessibility metrics are defined in order to accurately measure the accessibility level of web pages. Secondly, a model to integrate these metrics within IR processes is proposed. Finally, a prototype search engine which re-ranks results according to their accessibility level based on the proposed model is described.  相似文献   

12.
基于知识的网页检索工具   总被引:3,自引:0,他引:3  
随着因特网在全球范围的广泛使用,越来越多的人们借助于因特网从事科研和商务活动,而网页检索工具成了人们必不可少的软件工具.然而,目前流行的检索工具大多基于关键字查询,常常出现信息过载或有用信息丢失等现象.造成这一原因主要有两方面:用户提交的查询不能很好地表达他的目的;查询的结果没有建立有效的索引机制,引导人们快速找到有用信息。为此我们提出一种基于知识的网页检索工具(KWSE),它是在已有的检索工具的  相似文献   

13.
《Applied Soft Computing》2007,7(1):398-410
Personalized search engines are important tools for finding web documents for specific users, because they are able to provide the location of information on the WWW as accurately as possible, using efficient methods of data mining and knowledge discovery. The types and features of traditional search engines are various, including support for different functionality and ranking methods. New search engines that use link structures have produced improved search results which can overcome the limitations of conventional text-based search engines. Going a step further, this paper presents a system that provides users with personalized results derived from a search engine that uses link structures. The fuzzy document retrieval system (constructed from a fuzzy concept network based on the user's profile) personalizes the results yielded from link-based search engines with the preferences of the specific user. A preliminary experiment with six subjects indicates that the developed system is capable of searching not only relevant but also personalized web pages, depending on the preferences of the user.  相似文献   

14.
The Internet is one of the most important sources of knowledge in the present time. It offers a huge volume of information which grows dramatically every day. Web search engines (e.g. Google, Yahoo…) are widely used to find specific data among that information. However, these useful tools also represent a privacy threat for the users: the web search engines profile them by storing and analyzing all the searches that they have previously submitted. To address this privacy threat, current solutions propose new mechanisms that introduce a high cost in terms of computation and communication. In this paper, we propose a new scheme designed to protect the privacy of the users from a web search engine that tries to profile them. Our system uses social networks to provide a distorted user profile to the web search engine. The proposed protocol submits standard queries to the web search engine; thus it does not require any change in the server side. In addition to that, this scheme does not require the server to collaborate with the users. Our protocol improves the existing solutions in terms of query delay. Besides, the distorted profiles still allow the users to get a proper service from the web search engines.  相似文献   

15.
搜索引擎已经成为人们获取信息的重要途径,然而对于用户而言如何构造一个合适的查询仍然是一项困难的工作.为了减轻用户搜索信息的负担,查询推荐技术应运而生并且已经成为当今搜索引擎不可或缺的组成部分.传统的查询推荐方法主要关注向用户推荐相关性查询,即推荐与源查询具有相近搜索意图的其他查询.然而查询推荐的根本目标是帮助用户成功完成其搜索任务,而不仅仅是找到相关性查询,尽管相关性查询有时也能得到有用的搜索结果.为了更好地满足用户的搜索目标,一种更直接的查询推荐方式是向用户推荐高效用性查询,即能够更好满足用户信息需求的查询.提出了一个基于吸收态随机行走的2阶段效用性查询推荐方法,该方法能够同时对用户的查询重构行为和查询点击行为进行建模并推导出查询的效用.在真实查询日志上的实验结果表明:新方法在评价指标查询相关率(query relevant ratio, QRR)和平均相关文档数(mean relevant document, MRD)上要显著优于其他5种基准方法.  相似文献   

16.
Nowadays, people frequently use different keyword-based web search engines to find the information they need on the web. However, many words are polysemous and, when these words are used to query a search engine, its output usually includes links to web pages referring to their different meanings. Besides, results with different meanings are mixed up, which makes the task of finding the relevant information difficult for the users, especially if the user-intended meanings behind the input keywords are not among the most popular on the web.  相似文献   

17.
随着互联网的普及和网页数量的飞速增长,搜索引擎已经成为从网上获取信息的首选工具.然而,目前主流的搜索引擎在响应用户提交的检索请求时,往往以较长的一维列表形式分页展示结果,为了找到自己所需要的信息,用户必须对该结果列表进行耐心的浏览.为了进一步提高用户获取信息的效率和质量,减轻用户的劳动强度,研究者提出了对检索结果进行再挖掘、再组织的问题,聚类就是其中的研究热点之一.本文在分析现有检索结果聚类算法存在的问题的基础上,提出了基于查询相关性分析的标签驱动聚类算法,该算法通过分析短语与查询项的关联程度,提取作为候选簇标签的短语,然后根据这些标签确定网页摘要隶属的候选簇,最后基于对候选簇和标签的评价进行簇筛选和归并,得到聚类结果及每个簇的标签.在相同环境下进行的对比实验表明,所提出的算法优于相关工作,而且需要更少的信息资源支持.  相似文献   

18.
田莉霞 《软件》2020,(4):67-71
随着信息化社会的来临,各种互联网技术应运而生,数字信息已然成为当今社会中商家必争的宝贵财富资源。众多数字信息中,怎样帮助用户精准筛选出有效信息是当前搜索引擎所面临的巨大挑战。传统的互联网搜索仅仅是基于本文的链接,搜索时仅单纯的给出包含搜索词的网页,让用户去网页中寻找答案,这种检索方法耗时耗力,还不能准确给出用户想要的答案。由此谷歌率先提出以知识图谱(Knowledge Graph)为技术基础的的搜索引擎,这是搜索引擎界的一次重大变革。它以图的形式表现客观世界中的概念和实体及其之间关系,现如今广泛应用于语义搜索、智能问答、决策支持等智能服务领域。本文针对什么是知识图谱、如何表示构建知识图谱及知识图谱的主要应用作了详细阐述,希望更多的读者可以了解知识图谱及其对人工智能发展的巨大贡献。  相似文献   

19.
An interactive agent-based system for concept-based web search   总被引:1,自引:0,他引:1  
Search engines are useful tools in looking for information from the Internet. However, due to the difficulties of specifying appropriate queries and the problems of keyword-based similarity ranking presently encountered by search engines, general users are still not satisfied with the results retrieved. To remedy the above difficulties and problems, in this paper we present a multi-agent framework in which an interactive approach is proposed to iteratively collect a user's feedback from the pages he has identified. By analyzing the pages gathered, the system can then gradually formulate queries to efficiently describe the content a user is looking for. In our framework, the evolution strategies are employed to evolve critical feature words for concept modeling in query formulation. The experimental results show that the framework developed is efficient and useful to enhance the quality of web search, and the concept-based semantic search can thus be achieved.  相似文献   

20.
Internet users heavily rely on web search engines for their intended information.The major revenue of search engines is advertisements (or ads).However,the search advertising suffers from fraud.Fraudsters generate fake traffic which does not reach the intended audience,and increases the cost of the advertisers.Therefore,it is critical to detect fraud in web search.Previous studies solve this problem through fraudster detection (especially bots) by leveraging fraudsters' unique behaviors.However,they may fail to detect new means of fraud,such as crowdsourcing fraud,since crowd workers behave in part like normal users.To this end,this paper proposes an approach to detecting fraud in web search from the perspective of fraudulent keywords.We begin by using a unique dataset of 150 million web search logs to examine the discriminating features of fraudulent keywords.Specifically,we model the temporal correlation of fraudulent keywords as a graph,which reveals a very well-connected community structure.Next,we design DFW (detection of fraudulent keywords) that mines the temporal correlations between candidate fraudulent keywords and a given list of seeds.In particular,DFW leverages several refinements to filter out non-fraudulent keywords that co-occur with seeds occasionally.The evaluation using the search logs shows that DFW achieves high fraud detection precision (99%) and accuracy (93%).A further analysis reveals several typical temporal evolution patterns of fraudulent keywords and the co-existence of both bots and crowd workers as frandsters for web search fraud.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号