首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类,由于网页摘要篇幅较短,质量良莠不齐,聚类效果难以有较大的提高(比如后缀树算法,Lingo算法);而传统的基于全文的聚类算法运算复杂度较高,且难以生成高质量的类别标签,无法满足在线聚类的需求(比如KMeans算法)。该文提出一种基于全文最大频繁项集的网页在线聚类算法MFIC (Maximal Frequent Itemset Clustering)。算法首先基于全文挖掘最大频繁项集,然后依据网页集合之间最大频繁项集的共享关系进行聚类,最后依据类别包含的频繁项生成类别标签。实验结果表明MFIC算法降低了基于网页全文聚类的时间,聚类精度提高15%左右,且能生成可读性较好的类别标签。  相似文献   

2.
随着英特网上信息量的迅速增长,用户想要从中找到感兴趣的信息变得越来越困难,传统的搜索引擎不能很好地解决这个问题。因此本文提出了一种带有聚类功能的个性化元搜索引擎,系统通过用户注册获得用户数据并对所有的用户进行聚类形成不同用户群病产生用户模式,搜索引擎调度模块通过用户模式来选择适合的搜索引擎进行调度得到个性化的搜索结果,再将检索到的结果进行聚类处理,返回给用户个性化的搜索结果。分析了带有聚类功能的个性化元搜索引擎的系统构成,详细介绍了每个模块的功能,最后展望了它的发展前景。  相似文献   

3.
文健  李舟军 《中文信息学报》2008,22(1):61-66,122
近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题。这些问题在一些领域相关文献检索中显得尤其重要,比如大规模的生物文献检索。本文提出了一种新的基于聚类的主题语言模型方法进行生物文献检索,这主要包括两个方面工作,一是采用本体库中的概念表示文档,并在此基础上进行模糊聚类,把聚类的结果作为数据集中的主题,文档属于某个主题的概率由文档与聚类的模糊相似度决定。二是采用EM算法来估计主题产生项的概率。把上述方法集成到语言模型中就得到本文的语言模型。本文的语言模型能够准确描述项在不同主题中的分布概率,以及文档属于某个主题的概率,并且利用本体中概念部分地解决了同义词问题,而且项可以由不同的主题产生,这也能够部分解决词的多义问题。本文的方法在TREC 2004/05 Genomics Track数据集上进行了测试,与简单语言模型以及现有主题语言模型相比,检索性能得到一定的提高。  相似文献   

4.
随着英特网上信息量的迅速增长,用户想要从中找到感兴趣的信息变得越来越困难,传统的搜索引擎不能很好地解决这个问题。因此本文提出了一种带有聚类功能的个性化元搜索引擎,系统通过用户注册获得用户数据并对所有的用户进行聚类形成不同用户群病产生用户模式,搜索引擎调度模块通过用户模式来选择适合的搜索引擎进行调度得到个性化的搜索结果,再将检索到的结果进行聚类处理,返回给用户个性化的搜索结果。分析了带有聚类功能的个性化元搜索引擎的系统构成,详细介绍了每个模块的功能,最后展望了它的发展前景。  相似文献   

5.
文档聚类综述   总被引:28,自引:6,他引:28  
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文档聚类的应用背景和体系结构,然后对文档聚类算法、聚类空间的构造和降维方法、文档聚类中的语义问题进行了综述。最后还介绍了聚类质量评测问题。  相似文献   

6.
聚类分析在搜索引擎中的应用   总被引:8,自引:0,他引:8  
为了快速、准确地从因特网上找到人们所需的信息,对网页信息进行聚类分析是非常重要的。该文分析了几种适用于搜索引擎的聚类方法,并讨论了聚类分析在设计搜索引擎时的应用。  相似文献   

7.
模糊聚类在Web信息检索中的应用研究   总被引:4,自引:0,他引:4  
何鹏  徐立臻  庄晓青 《计算机工程》2002,28(10):241-242,260
如何从大量信息中快速、有效地进行Web信息检索已经成为一项重要的研究课题,但是传统的搜索引擎所提供的搜索结果仅仅按照与查询的相关性从高到低排成一个有序列表,不具备层次性,用户使用起来并不方便,该文基于Web资源中词语的不分明性即模糊性,提出采用模糊聚类的方法自动组织搜索引擎的结果来解决这个问题。  相似文献   

8.
在综述国内外学者有关聚类搜索引擎和本体技术研究成果的基础上,试图梳理出现阶段该领域的研究热点和难点问题,为后续研究奠定一定的研究基础。分别从聚类搜索引擎的定义、研究现状,本体技术,基于本体的中文环境下语义聚类搜索等方面对已有的研究文献进行了系统的综述,并提出基于本体的聚类搜索引擎总体框架和成员引擎的调度策略;在上面基础上提出对未来研究的展望。  相似文献   

9.
近年来,随着网络数据挖掘技术的迅猛发展,如何从搜索引擎查询日志中找到有用的信息成为一个重要的研究方向.首先详细讨论了Beeferman提出的针对搜索引擎查询日志的凝聚式聚类算法以及噪声数据对该算法的影响,指出了Chan的改进算法中的一个错误,最后提出一个新的改进算法,并且通过模拟实验对几种不同的算法进行了对比.  相似文献   

10.
搜索引擎结果聚类算法研究   总被引:6,自引:1,他引:5  
随着Web文档数量的剧增,搜索引擎也暴露了许多问题,用户不得不在搜索引擎返回的大量文档摘要列表中查找。而对搜索引擎结果聚类能使用户在更高的主题层次上来查看搜索引擎返回的结果。该文提出了搜索引擎结果聚类的几个重要指标并给出了一个新的基于PAT—tree的搜索引擎结果聚类算法。  相似文献   

11.
基于后缀树的Web检索结果聚类标签生成方法   总被引:1,自引:0,他引:1  
对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之前就产生好的标签,在生成了标签的基础上,再进行检索结果聚类。对于搜索引擎返回的结果,我们先统一建立一棵后缀树,然后计算后缀树中各个短语的得分,选取得分最高的若干短语作为候选标签。得到标签后,将搜索引擎返回的各个结果项分配到它所包含的标签对应的分类中,形成最后的聚类。实验表明,我们的方法是比较有效的。  相似文献   

12.
以列表形式展示的搜索引擎查询结果往往使用户无法快速地找到真正需要的信息。采用对结果进行聚类后,以结构化的形式表现查询结果可以克服这一问题。文中阐述了聚类引擎包括的四部分工作及相关的技术,并对系统的性能和存在的问题进行了初步的分析,为此类系统的实现提供了基础。  相似文献   

13.
一种层次化的检索结果聚类方法   总被引:2,自引:1,他引:2  
检索结果聚类能够帮助用户快速地浏览搜索引擎返回的结果.传统的聚类方法由于不能生成有意义的类别标签因此是不适合的,为了改善检索结果层次化聚类的效果,采用了基于标签的聚类算法,提出了将DF、查询日志、查询词上下文特征融合的类别标签抽取算法,并以抽取的标签构造基础类别图,通过GBCA算法构建层次化聚类结果.实验证明了多特征融合模型的有效性;GBCA算法在类别标签抽取和F-Measure两个评价指标上都比STC和Snaket算法有很大的提高.  相似文献   

14.
网页搜索引擎查询日志的Session划分研究   总被引:4,自引:1,他引:3  
搜索引擎查询日志中的session (以下简称session)是指某特定用户为得到某个信息需求而在一段时间内的搜索行为的连续序列。Session的正确划分是进行用户搜索行为分析等一系列工作的重要基础,目前尚没有关于session的系统研究工作。本文针对相关研究工作的问题重新统一定义了session的概念并进行探索和比较研究,得出结论(1)统计语言模型因数据稀疏问题不适合做session划分;(2)利用多种属性的决策树方法可以得到比较理想的结果,以session为单位进行评价,F值达到了78.6%。  相似文献   

15.
对相关反馈问题的研究已有近30年的历史,相关反馈也被证明可以大程度稳定地提升检索系统的性能。当前网络环境下相关反馈的应用以及用户提供反馈信息的方式已经发生了明显的变化,因此相关反馈研究又一次引起了研究界的注意。该文提出了一种基于文档相似度的搜索结果重排序方法,该方法同时利用了反馈信息中的相关文档与不相关文档。在大规模网络信息检索标准实验数据上的实验结果表明:该方法不仅可以稳定地提高系统的检索性能,并且相较于经典的查询扩展方法有着明显的优势。  相似文献   

16.
基于日志挖掘的搜索引擎用户行为分析   总被引:1,自引:0,他引:1  
随着网络搜索用户的大规模增加,网络用户行为分析已成为网络信息检索系统进行架构分析、性能优化和系统维护的重要基石,是网络信息检索和知识挖掘的重要研究领域之一。为更好理解网络用户的搜索行为,该文基于7.56亿条真实网络用户行为日志,对用户行为进行分析和研究。我们主要考察了用户搜索行为中的查询长度、查询修改率、相关搜索点击率、首次/最后一次点击位置分布以及查询内点击数分布等信息。该文还基于不同类型的查询集合,考察用户在不同查询需求下的行为差异性。相关分析结果对搜索引擎算法优化和系统改进等都具有一定的参考意义。  相似文献   

17.
传统伪相关反馈容易产生“查询主题漂移”,有效避免“查询主题漂移”的首要前提是确定高质量的相关文档,形成与用户查询需求相关的伪相关文档集合.在检索结果聚类的基础上,研究了XML伪相关文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于均衡化权值的簇标签提取方法,并以此为基础,提出了候选簇的排序模型和基于候选簇的文档排序模型.相关实验数据表明,与初始检索结果相比,排序模型获得了较好的性能,有效地查找到了更多的XML伪相关文档.  相似文献   

18.
一种基于聚类和用户行为分析的搜索引擎结果优化方法   总被引:1,自引:0,他引:1  
在研究传统搜索引擎的基础上,提出了一种改进的元搜索引擎模型及一种基于聚类和用户行为分析的查询结果优化方法,最后通过对比优化前后用户的满意度验证了该方法的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号