首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
姜鑫维  赵岳松 《微机发展》2007,17(5):238-241
通过研究传统的超链分析算法PageRank及其改进算法Hilltop和TSPR的不足,提出了一种新的改进的方法Topic PageRank。这种算法是对每一个页面进行页面分类,然后根据分类的结果分别对每一个主题进行页面等级计算,因此,每一个页面对不同的主题将呈现出不同的页面等级得分,能更加准确地反映出页面的重要性。  相似文献   

2.
PageRank基于链接分析计算页面的权威度,衡量网页的权威性,实现搜索结果的等级排序。文章针对传统PageRank存在的主题漂移问题提出了一种基于查询主题相关性的改进算法。通过引入搜索页面与查询主题的相关性度量,有效地抑制了传统PageRank算法的主题漂移问题,并通过实例加以验证。  相似文献   

3.
提出了一个基于层次分类的搜索引擎页面排序算法。该算法通过对页面进行层次化分类进而计算页面之间相关性,根据相关性的不同,对来自不同页面的外部链接赋予不同的权重,从而更公正、有效地计算页面的PageRank值。层次分类体系更合理地反映了页面的自然属性,也为设计更为高效的页面分类算法提供了方便。该算法与PageRank在在线计算复杂度方面完全一样,是非查询关键词相关的算法,能够高效地完成在线搜索,具有良好的可伸缩性。  相似文献   

4.
dPageRank--一种改进的分布式PageRank算法   总被引:3,自引:0,他引:3  
陈再良  凌力  周强 《计算机应用》2006,26(1):21-0024
回顾了传统的PageRank计算方式,分析了等级泄漏和悬挂页面问题的解决方法。介绍了分布式PageRank的计算原理和评价原则,在分析两种现有分布式PageRank算法的基础上,提出了一种改进的分布式PageRank算法,通过实验对该算法的性能进行分析评价。  相似文献   

5.
针对PageRank算法忽略了页面内容的不足,根据用户浏览页面的习惯,将Web内容挖掘的页面相似度引入到算法中,对其进行改进。实验结果表明,改进后的算法可以使页面的PageRank值依据页面相似度发生变化,符合人们的一般期望,效果明显有效。  相似文献   

6.
改进的非平均传递权值PageRank算法   总被引:1,自引:0,他引:1  
为了有效提高搜索引擎对搜索结果排序的精确性,通过对传统PageRank算法分析,针对父页面平均传递页面权值给它所链接子页面及只考虑其直接链接页面的不足,提出基于深2度页面链接与内容和主题相关性分析的一种父页面非平均传递权值的PageRank算法.该算法有效地解决了搜索引擎对排序结果的权威性要求和相关性要求,使搜索结果排序更符合不同网页浏览者的需求,同时也为进一步扩展PageRank算法提供了新的空间.实验结果表明,改进后的算法可以获得优于传统算法搜索精确度.  相似文献   

7.
通过研究传统的超链接分析算法PageRank及其改进算法TSPR(topic-sensitive PageRank)和MP-PageRank的不足,提出了一种新的改进方法,基于主题聚焦模型的PageRank算法.这种算法研究用户查询行为,建立主题聚焦模型,较好地解决了PageRank主题漂移问题以及其他改进算法依赖查询上下文的缺点.更加准确地反映出页面的重要性,提供更高质量的查询结果集.  相似文献   

8.
经典的基于链接结构的PageRank算法,它主要是依据页面之间的链接关系进行排序,容易出现主题漂移、忽视专业站点、偏重旧网页等缺点。针对这些问题,从超文本相关性、基于网站权威性权重因子和时间权重方面提出改进。实验结果表明,与传统的PageRank排序算法相比,改进算法能有效提高查准率,提高用户对排序结果的满意度。  相似文献   

9.
介绍了目前应用较为广泛的两种算法——PageRank算法和HITS算法。PageRank算法是基于用户随机的向前浏览网页的直觉知识,HITS算法考虑的是Authoritive网页和Hub网页间的加强关系。PageRank算法的基本思想是:如果一个页面被许多其他页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面。而HITS算法则专注于改善泛指主题检索的结果,通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的authority。  相似文献   

10.
该文基于传统的PageRank链接分析原理,分析了PageRank在页面主题内容分析方面的不足之处,结合传统的基于内容的VSM文本分析模型.提出了一种基于向量空间模型的主题算法,并通过实验对改算法的性能进行分析。  相似文献   

11.
话题演化用于自动分析话题变化趋势,具有较高的应用和研究价值。ILDA(Infinite Latent Dirichlet Allocation)模型在LDA(Latent Dirichlet Allocation)模型的基础上增加了狄利克雷过程,除了能获取隐变量,更重要的是能完成超参的动态更新和主题数的变动。而已有的话题演化研究中,话题的主题数需要事先指定且无法变动,基于ILDA模型的方法则可以针对性地解决该问题。构建的话题演化分析系统可实现如下功能:各周期内按不同主题分类、相邻周期间的主题进行关联、按时间顺序计算子话题强度。实验显示,基于ILDA模型的参数动态更新符合实际需求,话题演化分析过程完善可行。  相似文献   

12.
章建  李芳 《中文信息学报》2015,29(2):179-189
自动挖掘大规模语料中的语义信息以及演化关系近年来已受到广大专家学者的关注。话题被认为是文档集合中的潜在语义信息,话题演化用于研究话题内容随时间的变化。该文提出了一种基于上下文的话题演化和话题关系抽取方法。分析发现,一个话题常和某些其他话题共现在多篇文档中,话题间的这种共现信息被称为话题的上下文。上下文信息可以用于计算同时间段话题间的语义关系以及识别不同时间段中具有相同语义的话题。该文对2008年~2012年两会报告以及2007年~2011年NIPS科技文献进行实验,通过人工分析,利用话题的上下文信息,不但可以提高话题演化的正确率,而且还能挖掘话题之间的语义关系,在话题演化的基础上,显示话题关系的演化。  相似文献   

13.
闫蓉  高光来 《中文信息学报》2018,32(12):100-108
传统无监督的主题建模方法利用相互独立的主题变量抽象描述文本语义,忽略了各主题内部隐含的结构和联系,粗粒化的文本主题分析加剧了“强制主题”问题对文本建模的影响。该文通过研究主题网络社区内部结构,结合主题内部语义耦合关系与网络拓扑结构,提出伪主题分析方法来识别和解释主题,实现从网络结构角度描述文本语义特征,弥补统计主题分析方法对文本语义结构刻画的不足。  相似文献   

14.
汉语标点句句首话题缺失是机器翻译、信息抽取准确率不高的原因之一。该文从广义话题理论出发,根据汉语话题结构的特点,提出标点句的话题句识别研究方案,包括两个阶段性任务 单个标点句的话题句识别和序列标点句的话题句序列构建。识别出标点句的话题句也就找到了标点句句首缺失的话题。该文解决单个标点句的话题句识别任务,主要采用语义泛化和编辑距离两种手段。实验中开放测试的准确率比基线高出12.51个百分点。该结果说明,运用广义话题理论进行单个标点句的话题句识别可产生明显的效果。  相似文献   

15.
从案件相关的话题评论中生成简短的话题描述对于快速了解案件舆情有着重要作用, 其可以看做是基于用户评论的多文档摘要任务. 然而用户评论中含有较多噪声且生成摘要所需的重要信息分散在不同的评论句中, 直接基于序列模型容易生成错误或不相关的摘要. 为了缓解上述问题, 提出一种基于主题交互图的案件话题摘要方法, 将嘈杂的用户评论组织为主题交互图, 利用图来表达不同用户评论之间的关联关系, 从而过滤重要的用户评论信息. 具体来说, 首先从评论句中抽取案件要素, 然后构造以案件要素为节点, 包含案件要素的句子为内容的主题交互图; 然后利用图Transformer网络生成图中节点的表征, 最后生成简短的话题描述. 在收集的案件话题摘要数据集上的实验结果表明, 所提方法是一种有效的数据选择方法, 能够生成连贯、事实正确的话题摘要.  相似文献   

16.
社交网络结构错综复杂,主题社区是进行个性化推荐和商业推广的重要途径之一.然而,现有主题社区挖掘方法,要么仅基于链接关系和文本信息挖掘主题社区,要么在已划分社区的基础上挖掘主题,忽略了主题与社区的相互作用,导致社区内部话题相似度不高.因此,提出新的社区主题计算方法,进而建立一种融合主题相似度权重的主题社区发现模型(TSW...  相似文献   

17.
层次主题模型是构建主题层次的重要工具. 现有的层次主题模型大多通过在主题模型中引入nCRP构造方法, 为文档主题提供树形结构的先验分布, 但无法生成具有明确领域涵义的主题层次结构, 即领域主题层次. 同时, 领域主题不仅存在层次关系, 而且不同父主题下的子主题之间还存在子领域方面共享的关联关系, 在现有主题关系研究中没有合适的模型来生成这种领域主题层次. 为了从领域文本中自动、有效地挖掘出领域主题的层次关系和关联关系, 在4个方面进行创新研究. 首先, 通过主题共享机制改进nCRP构造方法, 提出nCRP+层次构造方法, 为主题模型中的主题提供具有分层主题方面共享的树形先验分布; 其次, 结合nCRP+和HDP模型构建重分层的Dirichlet过程, 提出rHDP (reallocated hierarchical Dirichlet processes)层次主题模型; 第三, 结合领域分类信息、词语语义和主题词的领域代表性, 定义领域知识, 包括基于投票机制的领域隶属度、词语与领域主题的语义相关度和层次化的主题-词语贡献度; 最后, 通过领域知识改进rHDP主题模型中领域主题和主题词的分配过程, 提出结合领域知识的层次主题模型rHDP_DK (rHDP with domain knowledge), 并改进采样过程. 实验结果表明, 基于nCRP+的层次主题模型在评价指标方面均优于基于nCRP的层次主题模型(hLDA, nHDP)和神经主题模型(TSNTM); 通过rHDP_DK模型生成的主题层次结构具有领域主题层次清晰、关联子主题的主题词领域差异明确的特点. 此外, 该模型将为领域主题层次提供一个通用的自动挖掘框架.  相似文献   

18.
19.
吕楠  罗军勇  刘尧  杨慧洁 《计算机工程》2009,35(23):71-72,7
在话题追踪研究领域,话题随着时间不断发展变化。目前的话题追踪方法无法对话题的发展演化进行全局的把握。针对该问题,提出基于相似度计算的话题演化分析方法。该方法采用时间片划分的思想,通过子话题间的相似度计算得到话题演化的具体过程及细节。实验结果表明,该方法能有效地反映话题的演化历程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号