首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 90 毫秒
1.
从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此引入局部密集因子LDF(Local Density Factor)的概念。为了解决Web内容的重叠性,基于切平面的概念提出了一种新的主题提取算法(CPTDA)。CPTDA不但可以发现用户最感兴趣的主题页面集合,还可以发现与查询相关的其他页面集合。在10个查询上的实验结果表明,与HITS算法相比,CPTDA算法不仅可以减少30%-52%的主题漂移率,而且可以发现与查询相关的多个主题。  相似文献   

2.
一种基于相似度分析的主题提取和发现算法   总被引:19,自引:1,他引:19       下载免费PDF全文
王晓宇  熊方  凌波  周傲英 《软件学报》2003,14(9):1578-1585
试图从另一个角度来考察主题提取算法HITS,即提出一种基于相似度的链接分析模型来观察主题提取的过程.通过给出一种一般化的相似度定义,提出了一种仅使用链接分析来改善主题提取的质量的主题提取算法.同时,还将主题发现的功能也结合到了算法的框架中.通过该功能,用户可以搜索到次流行的主题.实验结果显示了这一新算法的两个优点:不必使用内容分析即能改善主题提取的质量以及能够进一步发现在查询结果中显现出来的不同主题.  相似文献   

3.
基于查询扩展的Web链接主题提取算法   总被引:1,自引:0,他引:1  
HITS(Hypertext-Induced Topic Search)算法被广泛用于W曲链接结构分析,但它很容易产生主题漂移.从语义相关性角度进行分析,发现HITS算法产生主题漂移的原因在于页面被投影到错误的潜在语义基上.提出一种基于查询扩展的超链主题提取算法,利用用户查询日志扩展查询词,构造符合用户需要的个性化根集和基础集合,再利用HITS算法计算Web页面的权成值和中心值.实验结果表明,基于查询扩展的超链主题提取算法可以很好地改善HITS算法所导致的主题漂移问题,更适合于Web查询的需要.  相似文献   

4.
5.
一种基于HITS的主题敏感爬行方法   总被引:2,自引:0,他引:2  
基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。  相似文献   

6.
基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。  相似文献   

7.
通过研究传统的超链接分析算法PageRank及其改进算法TSPR(topic-sensitive PageRank)和MP-PageRank的不足,提出了一种新的改进方法,基于主题聚焦模型的PageRank算法.这种算法研究用户查询行为,建立主题聚焦模型,较好地解决了PageRank主题漂移问题以及其他改进算法依赖查询上下文的缺点.更加准确地反映出页面的重要性,提供更高质量的查询结果集.  相似文献   

8.
针对"多义词"和"词典问题",结合文本分析和用户行为分析,提出了一种基于主题的个性化查询扩展模型.分析文本时,结合关联规则和图排序算法构建TextRank模型,脱离了对人工词典的依赖,并用此模型提取多文本主题;在用户行为分析上,使用移动时间窗口法建立用户模型,有效地捕获了当前的查询主题.查询扩展时,匹配用户主题与文本主题,选择相应的关联规则进行扩展.对结合关联规则与图排序的主题提取进行了实验,并将基于主题的查询扩展模型与其它查询扩展模型进行了比较.  相似文献   

9.
以一个自行开发的搜索引擎系统为背景研究主题提取算法.通过对几种经典主题提取算法的分析、融合,提出了一个新的主题提取算法.用该搜索引擎证明了新提出算法比经典的HITS算法在性能上有很大的提高.  相似文献   

10.
面向垂直搜索引擎的主题提取算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对HITS算法对所有链接分配相等权重导致产生主题漂移的问题,提出基于计算链接价值度及Web页面语义主题相似度对链接分配合理权重的HITS改进算法,突出链接重要度的差异。实验表明,该算法的主题相关度提高了13%~42%,且较好地避免了主题漂移问题,增强了采集信息的准确性,对垂直搜索引擎的研究有重要的理论和实际应用价值。  相似文献   

11.
Web信息检索中主题精选算法的研究与改进   总被引:3,自引:0,他引:3  
搜索引擎是目前最主要的Web信息检索工具,然而它的效果还不能令人满意。基于Web链接结构的主题精选算法的链接分析迭代往往会收敛于链接图中与查询主题不太相关的紧密交织区域(TKC),从而导致主题偏移。笔者对经典主题精选算法HITS的分析表明该算法还有给不同的Web站点规定了不平等的影响权重以及不能满足用户多粒度的信息需求等缺点。文章在分析主题精选算法研究的基础上针对其不足提出了改进算法g-HITSc,实验表明该算法是合理和有效的。  相似文献   

12.
A new fuzzy set theory,C-fuzzy set theory,is introduced in this paper.It is a particular case of the classical set theory and satisfies all formulas of the classical set theory.To add a limitation to C-fuzzy set system,in which all fuzzy sets must be"non-uniform inclusive"to each other,then it forms a family of sub-systems,the Z-fuzzy set family.It can be proved that the Zo-fuzzy set system,one of Z-fuzzy set systems,is equivalent to Zadeh's fuzzy set system.Analysis shows that 1) Zadeh's fuzzy set syste...  相似文献   

13.
阐述直觉模糊S-粗集和直觉模糊S-粗集副集的数学结构与特性。针对空间群的动态性,用一个双向直觉模糊S-集合表示一个空间群,群中的动态目标构成直觉模糊S-粗集的副集。给出基于直觉模糊S-粗集副集的目标合群算法,对空间群中发现新目标、目标合群等动态操作过程进行分析。通过实例证明该方法的正确性和有效性,计算结果表明该方法能较灵活地处理目标编群中的动态问题。  相似文献   

14.
用户通过检索平台能获得大量信息,但搜索结果往往会出现主题漂移、偏重旧网页的现象,不能满足用户实际需求.为改善这种现象,提出了一种改进的PageRank算法.该算法采用BM25相似度算法对主题相似度进行计算,根据相似度评分来赋予不同的影响权重,可以提相似度高的网页的排名;利用网页在搜索引擎周期内被搜索到的次数来表示网页存...  相似文献   

15.
胡平  秦克云 《计算机科学》2021,48(1):152-156
毕达哥拉斯模糊集是Zadeh模糊集的一种推广形式,其相似度刻画方法是毕达哥拉斯模糊集理论的重要研究内容.现有的毕达哥拉斯模糊集相似度大多针对具体问题而提出.为推广毕达哥拉斯模糊集理论的应用范围,文中基于模糊等价研究毕达哥拉斯模糊集相似度的一般构造方法.将模糊等价概念推广至毕达哥拉斯模糊数,提出了PFN(Pythagor...  相似文献   

16.
为解决传统词共现方法在微博中检测话题时计算复杂度大、查全率不高、查准率低的情况,提出一种基于粗糙集原理的改进词共现算法(RSCW).通过词共现关系形成词共现矩阵,并由共现矩阵找出极大完全子图作为话题簇中心,最后由粗糙集原理找出每个话题的关键词集合.在NLPIR微博内容语料库和实时获取的微博数据集上的实验结果表明,该方法能够有效地从大规模微博信息中检测突发新闻,提高突发新闻的识别率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号