首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
基于子主题概念的Web主题挖掘   总被引:1,自引:0,他引:1  
为了帮助用户在Web上查找和编辑具体主题知识,本文给出一种基于子主题概念的挖掘算法。基本思想是:给定一个主题,通过搜索引擎返回的页面集合找出主题的子主题或核心概念,得到包含具体主题及子主题概念的页面,使用户无需浏览所有页面就能获取查询主题系统的、全面的知识。  相似文献   

2.
一种基于相似度分析的主题提取和发现算法   总被引:19,自引:1,他引:19       下载免费PDF全文
王晓宇  熊方  凌波  周傲英 《软件学报》2003,14(9):1578-1585
试图从另一个角度来考察主题提取算法HITS,即提出一种基于相似度的链接分析模型来观察主题提取的过程.通过给出一种一般化的相似度定义,提出了一种仅使用链接分析来改善主题提取的质量的主题提取算法.同时,还将主题发现的功能也结合到了算法的框架中.通过该功能,用户可以搜索到次流行的主题.实验结果显示了这一新算法的两个优点:不必使用内容分析即能改善主题提取的质量以及能够进一步发现在查询结果中显现出来的不同主题.  相似文献   

3.
网络已经成为人们获取知识的一个重要途径。然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎返回大量的无关信息.不能满足用户的特定信息检索需求。针对这个问题,Web信息检索领域出现了一个新的研究方向——主题驱动的Web资源发现。介绍了通用搜索引擎的基本结构、工作原理及现状。阐述了主题Web挖掘的研究背景、任务及目前研究技术的进展,并对其未来的发展方向进行了探讨。对通用搜索引擎和主题Web挖掘的关系进行了分析。  相似文献   

4.
Web结构挖掘中基于熵的链接分析法   总被引:1,自引:0,他引:1  
王勇  杨华千  李建福 《计算机工程与设计》2006,27(9):1622-1624,1688
在Web结构挖掘中,传统的HITS(hyperlinkinducedtopics search)算法被广泛应用来寻找搜索引擎返回页面中的Auto-rity页面和Hub页面.但是在网站中除了有价值的页面内容外,还有很多与页面内容无关的链接,如广告、链接导航等.由于这些链接的存在,应用HITS算法时就会导致某些广告网页或无关网页获得较高的Authority值和Hub值.为了解决这个问题,在原有HITS算法的基础上,引入了香农信息熵的概念,提出了基于熵的网页链接分析方法来挖掘网页结构.该算法的核心思想是用信息熵来表示链接文本所隐含的知识.  相似文献   

5.
传统的主题抽取方法单纯依靠分析网页内容的来自动获取网页主题,其分析结果并不十分精确.在WWW上,网页之间通过超链接来互相联系,而链接关系紧密的网页趋向于属于同一主题、基于这一思想,本文提出了一种利用Web链接结构信息来对主题抽取结果进行求精的方法,其通过所链接网页对本网页的影响来修正本网页的主题权值.本文还通过一个实际应用例子,分析了这一方法的特点。  相似文献   

6.
爬虫是搜索引擎的关键组成部分,本文提出了一种可利用之前爬行数据自动改进其分析算法与种子URL集合的主题爬行算法,并讨论了其首次爬行和再次爬行算法。实验结果表明该算法的准确率在大多数情况下优于基于宽度策略、基于PageRank和基于内容相似度分析的爬虫。  相似文献   

7.
Web搜索算法研究综述   总被引:1,自引:0,他引:1  
介绍了PageRank和HITS两种最常见的算法,对基于链接结构分析的web搜索算法的研究进展进行了综述,主要包括:介绍了独立于查询的各种改进算法以及基于查询主题的有关算法,并分析上述算法的优缺点及其改进策略或方法,以及web搜索算法的关键技术和应用,最后是关于Web搜索算法存在的问题和研究展望。  相似文献   

8.
方刚 《计算机系统应用》2010,19(12):100-104
针对Web服务器日志中会话模式的页面属性为布尔量的特点,提出一种基于序列数的Web使用挖掘算法。该算法将用户会话模式转换成二进制数,然后用数字递增方式搜索候选频繁项;算法通过序列数的维来计算支持数,实现一次扫描用户会话模式,有效地提高了Web使用挖掘的效率。实验表明其效率比现有算法更快速而有效。  相似文献   

9.
为了解决用户查询经常存在表意模糊或歧义性等问题,明确用户的查询意图,该文提出了一种无指导的子主题挖掘方法。该方法首先在检索结果文档集中利用ATF × PDF模型挖掘候选主题词;其次,为保证子主题的多样性,该文基于HowNet语义相似度方法对候选主题词进行了层次聚类分析,进而得到潜在主题;最后,利用LCS算法生成多样性子主题。实验结果显示,系统平均D#-nDCG@10达到0.573,结果说明该方法在明确查询主题表意方面取得了较好效果。  相似文献   

10.
网络已经成为人们获取知识的一个重要途径.然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情.通用搜索引擎返回大量的无关信息,不能满足用户的特定信息检索需求.针对这个问题,Web信息检索领域出现了一个新的研究方向--主题驱动的Web资源发现.介绍了通用搜索引擎的基本结构、工作原理及现状.阐述了主题Web挖掘的研究背景、任务及目前研究技术的进展,并对其未来的发展方向进行了探讨.对通用搜索引擎和主题Web挖掘的关系进行了分析.  相似文献   

11.
There are hidden and rich information for data mining in the topology of topic-specific websites. A new topic-specific association rules mining algorithm is proposed to further the research on this area. The key idea is to analyze the frequent hyperlinked relati ons between pages of different topics. In the topic-specific area, if pages of onetopic are frequently hyperlinked by pages of another topic, we consider the two topics are relevant. Also, if pages oftwo different topics are frequently hyperlinked together by pages of the other topic, we consider the two topics are relevant.The initial experiments show that this algorithm performs quite well while guiding the topic-specific crawling agent and it can be applied to the further discovery and mining on the topic-specific website.  相似文献   

12.
本文从介绍企业网站的web使用挖掘的意义入手,着重分析了web使用挖掘的数据源,探讨了Web使用挖掘的常用技术,以及Web使用挖掘的过程,企业网站的Web使用挖掘应具备的功能。  相似文献   

13.
刘先熙 《数字社区&智能家居》2009,5(7):5086-5087,5095
随着Intemet/Web技术的快速普及和迅猛发展,各种信息可以以非常低的成本在网络上获得。如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。Web数据挖掘旨在发现隐藏在Web数据中潜在的有用知识、提供决策支持,已经成为数据挖掘领域中新兴的研究热点。该文主要从Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面阐述Web数据挖掘的基本知识。  相似文献   

14.
随着Internet/Web技术的快速普及和迅猛发展,各种信息可以以非常低的成本在网络上获得,如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。Web数据挖掘旨在发现隐藏在Web数据中潜在的有用知识、提供决策支持,已经成为数据挖掘领域中新兴的研究热点。该文主要从Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面阐述Web数据挖掘的基本知识。  相似文献   

15.
加速评估算法:一种提高Web结构挖掘质量的新方法   总被引:13,自引:1,他引:13  
利用Web结构挖掘可以找到Web上的高质量网页,它大大地提高了搜索引擎的检索精度,目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估,基于统计链接数目的算法存在一个严重缺陷:页面评价两极分化,一些传统的高质量页面经常出现在Web检索结果的前面,而Web上新加入的高质量页面很难被用户找到,提出了加速评估算法以克服现有Web超链接分析中的不足,并通过搜索引擎平台对算法进行了测试和验证。  相似文献   

16.
Web挖掘研究综述   总被引:33,自引:0,他引:33  
论文介绍了Web挖掘的概念,指出了Web挖掘中存在的问题,给出了Web挖掘研究的三种分类:Web内容挖掘、Web结构挖掘、Web使用挖掘,针对每一种分类介绍了各自的研究对象、表示方法、处理方法、应用领域及最近的研究情况,同时展望了Web挖掘的未来研究方向。  相似文献   

17.
Web数据挖掘   总被引:30,自引:4,他引:26  
王实  高文 《计算机科学》2000,27(4):28-31
Web Mining is an important branch in Data Mining.It attracts more research interest for rapidly developing Internet. Web Mining includes(1)Web Content Mining;(g)Web Usage Mining;(3) Web structure Mining.In this paper we define Web Mining and present an overview of the various research issues,techniques and development efforts.  相似文献   

18.
一种基于图结构挖掘WEB用户访问模式的方法   总被引:3,自引:0,他引:3  
挖掘Web用户访问模式常用的技术有Web挖掘特有的路径分析技术和数据挖掘领域的传统技术。文章首先分析了现有路径分析技术的不足,然后从Web用户访问模式挖掘过程预处理的结果用户会话文件开始,提出了一种基于Web拓扑结构(图结构)挖掘用户访问模式的方法,提高了发现模式的精确性和效率,并在实验室对该方法进行了简单实现和实际日志数据的测试。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号