共查询到18条相似文献,搜索用时 57 毫秒
1.
HITS算法是影响相当广泛的链接分析算法.但是,深入的研究表明,它很容易产生主题漂移.而HITS算法产生主题漂移的很大一部分原因在于页面被投影到错误的潜在语义基上.提出一种基于权值调整的超链主题提取算法(weighted adjustments based hyperlinks topic distillation),先在获得根集的过程中,用改进的权值进行相似度计算,得到相对更为准确的个性化根集,再利用HITS算法计算Web页面的权威值和中心值.实验结果表明,基于权值调整的超链主题提取算法可以很好地改善HITS算法所导致的主题漂移问题,更适合于Web查询的需要. 相似文献
2.
3.
Web结构挖掘中基于熵的链接分析法 总被引:1,自引:0,他引:1
在Web结构挖掘中,传统的HITS(hyperlinkinducedtopics search)算法被广泛应用来寻找搜索引擎返回页面中的Auto-rity页面和Hub页面.但是在网站中除了有价值的页面内容外,还有很多与页面内容无关的链接,如广告、链接导航等.由于这些链接的存在,应用HITS算法时就会导致某些广告网页或无关网页获得较高的Authority值和Hub值.为了解决这个问题,在原有HITS算法的基础上,引入了香农信息熵的概念,提出了基于熵的网页链接分析方法来挖掘网页结构.该算法的核心思想是用信息熵来表示链接文本所隐含的知识. 相似文献
4.
以一个自行开发的搜索引擎系统为背景研究主题提取算法.通过对几种经典主题提取算法的分析、融合,提出了一个新的主题提取算法.用该搜索引擎证明了新提出算法比经典的HITS算法在性能上有很大的提高. 相似文献
5.
6.
针对多义词和词典问题,结合文本分析和用户行为分析,提出了一种基于主题的个性化查询扩展模型.分析文本时,结合关联规则和图排序算法构建TextRank模型,脱离了对人工词典的依赖,并用此模型提取多文本主题;在用户行为分析上,使用移动时间窗口法建立用户模型,有效地捕获了当前的查询主题.查询扩展时,匹配用户主题与文本主题,选择相应的关联规则进行扩展.对结合关联规则与图排序的主题提取进行了实验,并将基于主题的查询扩展模型与其它查询扩展模型进行了比较. 相似文献
7.
8.
网页链接的主题相关性影响页面的权威性计算,传统的HITS算法仅从页面的链接结构评估页面的权威性,易导致主题漂移.对HITS算法进行了扩展,提出了一种主题驱动的HITS算法.该算法分析页面文档、链接的主题相关性,把主题相关性融入权威性计算,利用页面链接的拓扑结构传播页面的权威性.该算法能够搜索到与主题高耦合的结果,有效控制主题漂移,改善搜索质量. 相似文献
9.
从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,提出了一种基于模糊集的主题提取和层次发现算法(FSTH),通过用户日志扩展查询词,构造符合用户需要的个性化根集和基础集合,达到防止主题漂移的目的。FSTH采用模糊集划分方法,层次地发现与用户查询相关的主题页面集合,利用HITS算法分别计算每个主题页面集合中页面的权威值,返回与查询相关的其他主题权威页面。在14个查询上的实验结果表明,与HITS算法相比,FSTH算法不仅可以减少7%~53%的主题漂移率,而且可以发现与查询相关的多个主题. 相似文献
10.
针对传统社区发现方法大多基于链接或主题关系, 且没有考虑获取微博用户社会信息时的限制, 无法有效识别微博中多个社区的问题, 提出了一种综合基于主题和链接分析的微博社区发现算法来挖掘微博中多个社区。算法首先研究微博用户的链接及博文主题特性, 定义了链接相关度和主题相关度公式; 然后推出用户总相关度公式, 以此来计算节点间的传递概率, 用改进后的标签传递算法对用户分类; 最终划分出兴趣相似且社会联系紧密的用户群。真实数据集上的仿真实验验证了该方法的合理性和有效性。 相似文献
11.
Web信息检索中主题精选算法的研究与改进 总被引:3,自引:0,他引:3
搜索引擎是目前最主要的Web信息检索工具,然而它的效果还不能令人满意。基于Web链接结构的主题精选算法的链接分析迭代往往会收敛于链接图中与查询主题不太相关的紧密交织区域(TKC),从而导致主题偏移。笔者对经典主题精选算法HITS的分析表明该算法还有给不同的Web站点规定了不平等的影响权重以及不能满足用户多粒度的信息需求等缺点。文章在分析主题精选算法研究的基础上针对其不足提出了改进算法g-HITSc,实验表明该算法是合理和有效的。 相似文献
12.
Web社区发现技术综述 总被引:23,自引:1,他引:22
Web是一个复杂超文本所组成的巨大的信息源,而且以很快的速度在不断的扩大.针对这样一个不断变化的信息源,如何利用和发现Web中的有用信息变得具有挑战性.Web在发展过程中存在着大量的社区,这些社区是Web组织中非常重要的信息.通过对社区信息的认识可以帮助我们总览Web的全貌.而将Web按照社区来组织有许多优点.社区可以引导用户找到感兴趣的信息;社区可以帮助Internet/Intranet服务提供者有效地组织门户;社区可以帮助制造商准确地找到消费者.社区还代表了Web的社会活动,因为Web就是一个社会性的网络.目前,许多社区的发现和维护是依靠人工来完成的,维护成本较高,修改也困难;此外,还存在着许多不为人知或者称为潜在的社区,而这些社区是无法通过人工来发现的.因此,许多研究都在致力于社区的自动或半自动发现技术.社区的发现主要采用基于Web图形的链接分析技术.在方法上大致上分为两类,一类是面向某个主题的社区发现,而另一个是无主题的社区发现技术.对于社区的发现技术做了较为全面的分析,并且总结了社区发现技术中依然存在的、挑战性的问题和未来的研究趋势. 相似文献
13.
14.
15.
16.
Deep Web查询是在指分析接口属性及其丰富的语义信息后构造的用于向数据源请求特定数据的语句,其质量将影响查询结果相关度的高低和查询代价的大小.为优化查询,提出一种基于量子遗传算法的优化算法,以Deep Web查询的实数二进制串为输入进行量子编码,引入了球面解空间多子群并行寻优机制、群间染色体置换操作和量子变异算子以丰富种群多样性、提高算法的寻优效率.实验结果表明,该算法在R-Precision、覆盖率上具有一定的优势,能够有效地减少查询次数. 相似文献
17.
Web访问日志中的会话(session)是指特定用户在一定时间范围内的访问行为的连续序列。会话主题(topic)是指会话中具有相同用户意图的部分。从会话中进一步识别出能体现用户意图的处理单元(topic)是进行用户访问行为分析的重要基础。目前相关工作主要集中在边界识别上,无法处理用户意图交叉情况。为了解决该问题,该文重新形式化定义了session和topic的相关概念,提出最大划分的求解任务,并设计出了基于用户群体智慧的会话主题识别算法。在使用大规模真实Web访问日志的实验中,我们的算法取得了不错的效果。 相似文献