首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
云计算是一种共享基础架构的方法,它将巨大的系统池连接在一起以提供各种IT服务。Web上蕴藏的海量信息为数据挖掘提供了无比丰富的资源,对Web信息进行有效的知识发现具有极大意义。该文介绍了一种基于云计算技术的Web结构挖掘算法:基于MapReduce的PageRank算法,使用该算法对网站的物理及逻辑结构进行优化,将有助于用户将网站定位到相关主题的权威站点,从而获得更高的PR值,以提高电子商务网站在搜索引擎中的排名,提高检索结果的质量,提高网站的访问率,提升网站的档次。  相似文献   

2.
Web结构挖掘是对Web的链接结构进行分析。该文概述Web结构挖掘技术,列举其常见算法。并对PageRank和HITS这两种最重要的Web结构挖掘算法分析比较。通过对算法规律的研究,指出在网站设计规划时的策略以提高网站的价值。  相似文献   

3.
Web结构挖掘是对Web的链接结构进行分析。该文概述Web结构挖掘技术。列举其常见算法。并对PageRank和HITS这两种最重要的Web结构挖掘算法分析比较。通过对算法规律的研究,指出在网站设计规划时的策略以提高网站的价值。  相似文献   

4.
分析了Web结构挖掘算法PageRank和HITS,并对二者进行了比较,指出它们所存在的问题,提出了一种PageRank的改进算法。  相似文献   

5.
本文介绍了Web结构挖掘的基本原理.详细分析Google的PageRank算法,针对其中的缺陷进行改进,提出了一种集链接、时间、网页内容为一体的PageRank改进算法CTPR,目的是将内容与搜索内容相关度高的、比较权威的、新的网页排列在搜索结果的最前面.网页的等级由CTPR值决定,CTPR值由两个部分组成,一个是传统PR算法的值;另一个是网页自评值,它与内容权值成正比,与网页的内容的新旧程度成反比.最后,对此算法进行效果演示,验证算法的有效性.  相似文献   

6.
冉丽  何毅舟  许龙飞 《计算机应用》2004,24(10):158-160
搜索引擎作弊行为从搜索引擎优化中演变而来,却对网络发展带来负面影响。通过构造站内站外精简模型用于判断几类作弊行为,得出PageRank改进算法中惩罚因子的公式和其中三个函数的特征,展望了搜索引擎作弊检测方法的发展前景。  相似文献   

7.
Web结构挖掘   总被引:18,自引:0,他引:18  
概述了Web结构挖掘的有关概念和相关应用,详细分析和比较了基于超链接结构分析的网页排序的最权威算法,提出了有关Web结构挖掘技术的几个新的研究方向,供感兴趣的同行参考。  相似文献   

8.
应用Web结构挖掘的PageRank算法的改进研究   总被引:1,自引:0,他引:1       下载免费PDF全文
随着Internet技术的发展,Web网页成为人们获取信息的有效途径,Web数据挖掘逐渐成为研究的热点。基于Web结构挖掘的PageRank算法存在不足的情况下,提出了一种改进的算法,实验结果证明改进的算法较原算法具有较好的效果,具有一定的实用价值。  相似文献   

9.
Web结构挖掘及其算法   总被引:10,自引:0,他引:10  
王艳华  张纪 《计算机工程》2005,31(Z1):125-127
随着网络和数据挖掘技术的发展,Web数据挖掘得到了较多的研究。该文从Web结构挖掘的角度出发,在分析了网络有向图的总体结构以及导航页面、目标页面和网络功能的基础上,研究了结构挖掘算法,针对Hub页面的多主题性、无关页面、无关链接等问题,提出了HITS算法的改进算法。  相似文献   

10.
基于PageRank的Web挖掘改进算法   总被引:1,自引:0,他引:1       下载免费PDF全文
焦金涛 《计算机工程》2009,35(15):284-284
针对Google使用的PageRank算法,提出一种改进的Web挖掘算法。实现该算法时,将网页使用信息和网页添加日期信息做成点击向量和日期向量,2个向量加权后标准化得到的一个向量作为常数加入到改进的迭代算法。实验结果证明,改进算法可以提高网页重要性判断的准确度。  相似文献   

11.
提出一种新的网页排序方法-ClusterRank方法。该方法先对检索结果进行文本挖掘,然后利用Web网页的链接信息以及用户点击率对网页重要性的影响对挖掘结果进行排序。该算法可以引导用户进一步明确其检索需求。  相似文献   

12.
潘涛  梁正友 《计算机工程》2010,36(13):42-44
Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的Nutch具有更高的查询结果准确率和中文网页排序效果。  相似文献   

13.
SHITS:一种基于超链接和内容的网页排序方法   总被引:2,自引:0,他引:2  
回顾了当前应用于大型搜索引擎的主流网页排序算法,对其中的ARC算法进行了改进,提出了一种基于超链接和内容的网页排序算法--SHITS(Similarity—HITS)算法.SHITS算法用超链接所引用的网页内容代替了ARC算法中所采用的锚文本来评估该超链接的重要性,这一改进不仅提高了算法区分链接重要性的能力,也避免了对大量锚文本内容的分析.通过与相关算法的对比实验,结果表明:SHITS算法网页排序的准确率明显优于其它算法.此外,SHITS算法也具有较好的效率:计算代价小于ARC算法,与HITS算法相当.  相似文献   

14.
介绍大型搜索引擎应用的主流网页排序算法,改进其中的HITSS算法,提出一种基于网页分块技术的BHITS算法。BHITS算法通过对分好的页面板块进行主题标定,根据待采集信息的主题为不同主题的板块设定不同的权值实现相关度判定,在保持算法高效率的前提下,提高了算法区分链接重要性的能力。与相关算法的对比实验结果表明,BHITS算法网页排序的准确率明显优于其他算法。  相似文献   

15.
网络已经成为人们获取知识的一个重要途径。然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎返回大量的无关信息.不能满足用户的特定信息检索需求。针对这个问题,Web信息检索领域出现了一个新的研究方向——主题驱动的Web资源发现。介绍了通用搜索引擎的基本结构、工作原理及现状。阐述了主题Web挖掘的研究背景、任务及目前研究技术的进展,并对其未来的发展方向进行了探讨。对通用搜索引擎和主题Web挖掘的关系进行了分析。  相似文献   

16.
网络已经成为人们获取知识的一个重要途径.然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情.通用搜索引擎返回大量的无关信息,不能满足用户的特定信息检索需求.针对这个问题,Web信息检索领域出现了一个新的研究方向--主题驱动的Web资源发现.介绍了通用搜索引擎的基本结构、工作原理及现状.阐述了主题Web挖掘的研究背景、任务及目前研究技术的进展,并对其未来的发展方向进行了探讨.对通用搜索引擎和主题Web挖掘的关系进行了分析.  相似文献   

17.
基于PageRank的页面排序改进算法   总被引:2,自引:3,他引:2  
首先对PageRank算法进行了一般性介绍,研究了现有的基于链接结构的改进算法.在此基础上,指出PageRank算法给不同网页分配相同的Pagegank值影响了网页的排序质量,提出了一种基于多层分类技术的改进算法HCPR,并对PageRank和HCPR算法进行了相应测试和比较.实验结果表明,HCPR的排序结果比PageRank提高了约15.3%的相关度.  相似文献   

18.
现阶段,用户常常希望利用搜索引擎获得期望的实体,然而传统搜索引擎只能返回包含关键字的多个文档,并不能直接返回用户想要的答案,且现有的实体排序技术主要采用权值叠加的方法,需要很多先验知识对权值进行训练。文中从搜索引擎返回的文档中提取多个候选实体,并提出一种基于图结构的算法PERA(Probabilistic Entity Ranking Algorithm),利用随机游走的思想,在不需要知道相关先验知识的情况下,将候选实体排序。经过实验验证,各个类型的正确实体均有着较高的排序分值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号