首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 85 毫秒
1.
搜索引擎结果聚类算法研究   总被引:6,自引:1,他引:5  
随着Web文档数量的剧增,搜索引擎也暴露了许多问题,用户不得不在搜索引擎返回的大量文档摘要列表中查找。而对搜索引擎结果聚类能使用户在更高的主题层次上来查看搜索引擎返回的结果。该文提出了搜索引擎结果聚类的几个重要指标并给出了一个新的基于PAT—tree的搜索引擎结果聚类算法。  相似文献   

2.
基于搜索引擎的关键词自动聚类法   总被引:1,自引:0,他引:1  
互联网为用户提供了一个丰富的信息平台。然而,当前人们对互联网中海量信息的利用主要通过搜索引擎去查询相关的信息,互联网只是作为一个简单的信息库供用户检索。本文研究通过搜索引擎获得互联网信息并且在此基础上进行更高层次的知识挖掘——基于搜索引擎对关键词进行自动聚类。这是一个全新的研究,实验结果表明该方法具有理想的效果和新颖的构思。  相似文献   

3.
Web检索结果快速聚类方法的研究与实现   总被引:2,自引:0,他引:2  
为了帮助Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档,在对聚类过程研究分析的基础上给出了一种Web检索结果快速聚类方法。它通过分析聚类过程,从建立索引模型、相似性的计算到聚类结果的形成等环节,都做了分析和简化,并利用检索结果的标题、Url以及文档片断3部分所含信息计算返回结果之间的相似度,将首先返回的部分检索结果利用无向图映射法进行部分聚类后,将其余返回结果分配到与之最相近的集簇中最终形成聚类结果。该方法实现简单。实验证明该方法响应速度快,聚类相关性较高,空间占用少。  相似文献   

4.
余宏  万常选 《计算机工程》2010,36(1):85-86,9
针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。  相似文献   

5.
余宏  万常选 《计算机工程》2010,36(1):85-86,90
针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。  相似文献   

6.
为了解决搜索引擎检索结果中的主题混杂现象,帮助用户快速准确地定位到有价值的信息,提出基于主题短语的搜索引擎结果聚类方法。首先从检索结果中提取查询词并与相邻词语组成主题短语,建立包含高频独立词语及主题短语的混合向量空间模型,同时引入同义词词林对特征项进行语义扩充,最后采用改进的k-means聚类算法对搜索结果进行聚类,并为各个类别提取类别标签。实验结果表明,该算法能有效提高聚类结果的准确率。  相似文献   

7.
面对当前大量的文本数据信息,如何帮助人们准确定位所需信息,成为文本挖掘领域的一个研究趋势。通过将文本分类和聚类方法应用于信息检索-—对网页文本进行聚类,提出了基于超链接信息的Web文本自动聚类模型。利用结构挖掘技术获得主题领域的多个权威网页作为初始聚类中心,通过去除超链接信息中的噪声和多余链接得到网站的简明拓扑结构,并结合内容挖掘,动态调整聚类中心,最终将网页聚成各主题下的不同子类别。  相似文献   

8.
基于聚类的个性化元搜索引擎设计   总被引:2,自引:0,他引:2  
Internet上信息资源的飞速膨胀造成用户在进行信息检索时的不便,传统的搜索引擎不能很好地解决这个问题。因此提出了一种基于聚类的个性化元搜索引擎模型,系统通过对用户建立个人模型,对此模型进行聚类形成不同用户群,并对检索到的结果进行聚类处理,同用户模型聚类相结合遗回给用户个性化的搜索结果。分析了个性化元搜索引擎的系统构成,详细介绍了每个模块的功能,最后展望了它的发展前景。  相似文献   

9.
Internet上信息资源的飞速膨胀造成用户在进行信息检索时的不便,传统的搜索引擎不能很好地解决这个问题。因此提出了一种基于聚类的个性化元搜索引擎模型,系统通过对用户建立个人模型,对此模型进行聚类形成不同用户群,并对检索到的结果进行聚类处理,同用户模型聚类相结合返回给用户个性化的搜索结果。分析了个性化元搜索引擎的系统构成,详细介绍了每个模块的功能,最后展望了它的发展前景。  相似文献   

10.
白亮  于天元  刘湜  老松杨  杨征 《计算机科学》2016,43(10):220-224
搜索引擎的性能优劣主要由排序结果决定。针对网页文本特性改进了谱聚类方法,提出了一种融合网页内容和链接质量的排序算法。利用改进的谱聚类方法对网页内容进行分类,并与评价链接质量的PageRank值进行加权融合,计算得到排序结果。实验结果表明,相对于传统的PageRank,HITS,TF-IDF等排序算法,所提算法返回的排序结果具有更高的相关性。  相似文献   

11.
一种基于命名实体的搜索结果聚类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
针对现有搜索结果聚类方法中形成的聚类标签可读性比较差的情况,提出一种基于命名实体的搜索结果聚类方法——NEC。命名实体作为文本中的基本信息元素,具有一定的实际意义,表征主题的能力比一般词语更强,也更具可读性。算法以搜索结果文档中存在的命名实体作为聚类的标签,经过一定的标签选择和聚类合并策略,形成最终的聚类结果,提高聚类标签的可读性。实验证明,该方法是一种可行的搜索结果聚类方法。  相似文献   

12.
对特定区域搜索引擎的自动分类系统的研究   总被引:2,自引:1,他引:2  
谢世朋  胡茂林 《微机发展》2005,15(9):16-17,20
随着因特网的飞速发展,特定区域搜索引擎(Domain-spedfic search engines)正变的越来越重要,因为这种搜索引擎通常能提供更精确的结果和一些一般的搜索引擎所不能提供的信息。然而特定区域搜索引擎通常需要花很多的时间来组建和维持。文中提出一个基于机器学习的方法来自动完成和维持这种特定区域搜索引擎,即运用最大加权依赖树分类方法改进以往的方法进行自动分类,使分类结果更为精确。运用此技术可以组建一个新的特定区域搜索引擎,将给人们的生活、学习提供方便。  相似文献   

13.
搜索引擎有很多的关健技术,本文主要针对互联网中文HTML混合编码文件,研究了中文HTML文件的字符编码组成结构,然后对混合编码文件内容进行聚类,采用了数据挖掘领城的经典算法DBSCAN,将HTML文件分成几个大类,然后分别对各个类进行了基于特征编码检测.实脸结果显示,当选取合适的参数时,对混合编码文件的聚类后,每个类与...  相似文献   

14.
在综述国内外学者有关聚类搜索引擎和本体技术研究成果的基础上,试图梳理出现阶段该领域的研究热点和难点问题,为后续研究奠定一定的研究基础。分别从聚类搜索引擎的定义、研究现状,本体技术,基于本体的中文环境下语义聚类搜索等方面对已有的研究文献进行了系统的综述,并提出基于本体的聚类搜索引擎总体框架和成员引擎的调度策略;在上面基础上提出对未来研究的展望。  相似文献   

15.
本文介绍了搜索引擎发展过程中出现的一种新技术——多元搜索引擎。分析了多元搜索引擎的现状,并对典型的多元搜索引擎系统进行了介绍。同时提出了多元搜索引擎发展过程中有待改进的一面。  相似文献   

16.
本文介绍了搜索引擎发展过程中出现的一种新技术——多元搜索引擎。分析了多元搜索引擎的现状,并对典型的多元搜索引擎系统进行了介绍。同时提出了多元搜索引擎发展过程中有待改进的一面。  相似文献   

17.
随着互联网的普及和网页数量的飞速增长,搜索引擎已经成为从网上获取信息的首选工具.然而,目前主流的搜索引擎在响应用户提交的检索请求时,往往以较长的一维列表形式分页展示结果,为了找到自己所需要的信息,用户必须对该结果列表进行耐心的浏览.为了进一步提高用户获取信息的效率和质量,减轻用户的劳动强度,研究者提出了对检索结果进行再挖掘、再组织的问题,聚类就是其中的研究热点之一.本文在分析现有检索结果聚类算法存在的问题的基础上,提出了基于查询相关性分析的标签驱动聚类算法,该算法通过分析短语与查询项的关联程度,提取作为候选簇标签的短语,然后根据这些标签确定网页摘要隶属的候选簇,最后基于对候选簇和标签的评价进行簇筛选和归并,得到聚类结果及每个簇的标签.在相同环境下进行的对比实验表明,所提出的算法优于相关工作,而且需要更少的信息资源支持.  相似文献   

18.
搜索引擎中的聚类浏览技术   总被引:1,自引:0,他引:1  
搜索引擎大多以文档列表的形式将搜索结果显示给用户,随着Web文档数量的剧增,使得用户查找相关信息变得越来越困难,一种解决方法是对搜索结果进行聚类提高其可浏览性。搜索引擎的聚类浏览技术能使用户在更高的主题层次上查看搜索结果,方便地找到感兴趣的信息。本文介绍了搜索引擎的聚类浏览技术对聚类算法的基本要求及其分类方法,研究分析了主要聚类算法及其改进方法的特点,讨论了对聚类质量的评价,最后指出了聚类浏览技术的发展趋势。  相似文献   

19.
元搜索引擎结果生成技术研究   总被引:17,自引:0,他引:17  
元Web搜索引擎是通过将搜索请求传送给它所引用的搜索引擎,然后将这些搜索引擎返回的结果按照一定的结果集成算法合并,并将合并后的结果返回给用户.所用结果集成算法的好坏将直接影响该元搜索引擎的查询精度、查询完全度和响应速度.本文在分析常用的几种结果集成方法的基础上,提出几个改进的算法来改进搜索结果的一致性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号