首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
基于网站影响力的网页排序算法   总被引:1,自引:0,他引:1  
张芳  郭常盈 《计算机应用》2012,32(6):1666-1669
传统的排序算法主要是根据网页之间的链接关系进行排序,没有考虑到网站与网页之间互相增强的关系和用户对网页的重要性的评价。为此提出了一种基于更新时间、网页权威性和用户对网页的反映的相关排序算法。该算法以网站为节点计算每个网站权威值,在为网页分配权威值时考虑了网页在网站内的位置和用户对其的反映,并通过网站与网页之间相互影响的关系来相互反馈。实验结果表明,与传统的PageRank、HITS等排序算法相比,该算法在检索性能上有明显提高。  相似文献   

2.
如今,互联网集成的与暴雨灾害相关的信息多种多样,然而人工搜索网页信息的效率不高,因此网络主题爬虫显得十分重要。在通用网络爬虫的基础上,为提高主题相关度的计算精度并预防主题漂移,通过对链接锚文本主题相关度、链接所在网页的主题相关度、链接指向网页PR值和该网页主题相关度的综合计算,提出了基于网页内容和链接结构相结合的超链接综合优先度评估方法。同时,针对搜索过程易陷入局部最优的不足,首次设计了结合爬虫记忆历史主机信息和模拟退火的网络主题爬虫算法。以暴雨灾害为主题进行爬虫实验的结果表明,在爬取相同网页数的情况下,相比于广度优先搜索策略(Breadth First Search,BFS)和最佳优先搜索策略(Optimal Priority Search,OPS),所提出的算法能抓取到更多与主题相关的网页,爬虫算法的准确率得到明显提升。  相似文献   

3.
拟态Web服务器中表决器通过计算并比较异构执行体响应网页的相似性来判断响应是否为合法输出,达到网页防篡改的目的.目前表决器中将网页整体作为字符串输入,采用字符串编辑距离方法计算网页的相似性,存在计算量大忽略网页原有结构信息等问题.本文采用改进简单树匹配方法,通过对网页DOM树匹配判别得到网页的相似性,DOM树节点匹配程度由节点字符串的编辑距离决定.将本文算法应用于拟态Web服务器上,进行网页篡改实验验证,与现使用算法相比,本文所采用算法在适应执行体异构性的基础上,提高了表决器的计算效率和准确性.  相似文献   

4.
基于力导向模型的网络布局算法由于其布局结果直观并且便于分析所以在网络可视化中占有举足轻重的地位。但是当前的网络布局算法在面对大规模网络数据的时候通常不容易在较短时间内获取一个高质量的布局结果。本文提出了一个基于PageRank的力导向模型的算法。该算法引入了PageRank来完善节点的重力和斥力计算以改善布局质量;并且引入节点中心性来预估初始布局中节点的位置;同时,又提出了基于PageRank的自适应步长用来平衡布局的效率和质量。最后为了有效的减少布局算法在面对大规模网络数据时的计算时间,本文设计了一个基于CUDA的灵活的CPU+GPU异构并行计算框架。通过对不同类型和不同规模的网络数据集的实验,该算法能够产出一个符合美学标准的高质量布局,并且在同样的硬件条件下,本文所提出的优化方案相比于原始算法速度最大提高了58倍。  相似文献   

5.
白亮  于天元  刘湜  老松杨  杨征 《计算机科学》2016,43(10):220-224
搜索引擎的性能优劣主要由排序结果决定。针对网页文本特性改进了谱聚类方法,提出了一种融合网页内容和链接质量的排序算法。利用改进的谱聚类方法对网页内容进行分类,并与评价链接质量的PageRank值进行加权融合,计算得到排序结果。实验结果表明,相对于传统的PageRank,HITS,TF-IDF等排序算法,所提算法返回的排序结果具有更高的相关性。  相似文献   

6.
PageRank算法的分析及其改进   总被引:2,自引:0,他引:2       下载免费PDF全文
王德广  周志刚  梁旭 《计算机工程》2010,36(22):291-292
在分析PageRank算法存在偏重旧网页、主题漂移、网页权值均分、忽视用户浏览兴趣现象的基础上,对其进行改进,考虑网页修改日期、网页文本信息、网站权威度、用户兴趣度等重要因素,重新计算网页PR值。实验结果表明,改进算法可提高搜索引擎对网页排序的准确度,以及用户对检索结果的满意度。  相似文献   

7.
语义相似的PageRank改进算法   总被引:1,自引:0,他引:1       下载免费PDF全文
PageRank算法是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性。但由于它只考虑网页与网页之间的链接结构,忽略了网页与主题的相关性,容易造成主题漂移现象。在分析了原PageRank算法基础上,给出了一种基于语义相似度的PageRank改进算法。该算法能够按照网页结构和网页主要内容计算出网页的PageRank值,既不会增加算法的时空复杂度,又极大地减少了“主题漂移”现象,从而提高查询效率和质量。  相似文献   

8.
介绍了PageRank和HITS两种最常见的算法,对基于链接结构分析的Web搜索算法的研究进展进行了综述,主要包括:介绍了独立于查询的各种改进算法以及基于查询主题的有关算法,并分析上述算法的优缺点及其改进策略或方法,以及Web搜索算法的关键技术和应用,最后是关于Web搜索算法存在的问题和研究展望。  相似文献   

9.
研究了现有的基于链接结构的PageRank算法。结合网页链接分析和网页内容相关性分析提出了一种改进的PageRank算法,从分析网页内容相关性的角度解决相关性需求,从网页链接分析的角度解决权威性需求,并且实验证明,改进的PageRank算法优于传统的PageRank算法的排序结果。  相似文献   

10.
刘艳  王泰 《计算机科学》2015,42(3):206-209
万维网内容因其海量性、形式多样性和缺乏语义描述等特征,给内容分级实时自动化处理带来了巨大挑战。本算法充分利用相近主题网页聚合成内容社团的万维网结构特性,在对请求内容分级网页进行处理的同时,通过网络社团检测方法来自动获取其他更多相近内容的网页,以提升网页内容分级处理效率;此外,它能很好地融入现有网络内容第三方分级系统。理论分析证明,本算法能显著提升万维网内容分级处理效率。  相似文献   

11.
In social network,original publisher and important nodes in the diffusion process can be traced by analyzing the spreading network of a hot topic.The participated users and spreading network structure of a hot topic build an information tracing model,which mines the source and important diffusion nodes.Firstly,it analyzed the development trend of a hot topic and extracts the users involved.Secondly,it established a user network according to the following relationship of the users involved.Thirdly,the contribution rate of users on the development of the hot topic was initialized,and the PageRank algorithm was used to construct the information tracing model.Finally,the Top k users were selected as the information publisher and important users of the hot topic according to the contribution rate.Experimental results showed that our model can effectively discover the hot topic of the publisher and important users.  相似文献   

12.
马冬雪  宋设  谢振平  刘渊 《计算机应用》2020,40(6):1574-1579
针对正则表达式解析招投标网页效率低下的问题,提出了一种基于招投标领域本体的网页自动化解析新方法。首先,分析了招投标网页文本的结构特征;其次,构建了招投标本体的轻量级领域知识模型;最后,给出一种招投标网页元素语义匹配与抽取算法,实现招投标网页的自动化解析。实验结果表明,新方法通过自适应的解析,准确率、召回率分别可达到95.33%、88.29%,与正则表达式方法相比,分别提高了3.98个百分点和3.81个百分点。所提方法可实现自适应地对招投标网页中语义信息的结构化解析抽取,能够较好地满足实用性能要求。  相似文献   

13.
14.
该文基于传统的PageRank链接分析原理,分析了PageRank在页面主题内容分析方面的不足之处,结合传统的基于内容的VSM文本分析模型.提出了一种基于向量空间模型的主题算法,并通过实验对改算法的性能进行分析。  相似文献   

15.
个性化PageRank作为大图分析中的的基本算法,在搜索引擎、社交推荐、社区检测等领域具有广泛的应用,一直是研究者们关注的热点问题.现有的分布式个性化PageRank算法均假设所有数据位于同一地理位置,且数据所在的计算节点之间具有相同的网络环境.然而,在现实世界中,这些数据可能分布在跨洲际的多个数据中心中,这些跨域分布(Geo-Distributed)的数据中心之间通过广域网连接,存在网络带宽异构、硬件差异巨大、通信费用高昂等特点.而分布式个性化PageRank算法需要多轮迭代,并在全局图上进行随机游走.因此,现有的分布式个性化PageRank算法不适用于跨域环境.针对此问题,本研究提出了GPPR(Geo-Distributed Personalized PageRank)算法.该算法首先对跨域环境中的大图数据进行预处理,通过采用启发式算法映射图数据,以降低网络带宽异构对算法迭代速度的影响.其次,GPPR改进了随机游走方式,提出了基于概率的push算法,通过减少工作节点之间传输数据的带宽负载,进一步减少算法所需的迭代次数.我们基于Spark框架实现了GPPR算法,并在阿里云中构建真实的跨域环境,在8个开源大图数据上与现有的多个代表性分布式个性化PageRank算法进行了对比实验.结果显示,GPPR的通信数据量在跨域环境中较其他算法平均减少30%.在算法运行效率方面,GPPR较其他算法平均提升2.5倍.  相似文献   

16.
在大规模在线社交网络中,通过对用户影响力进行排序找出其中最具影响力的节点(集合)是一个很重要的研究方向,对于有效控制信息扩散、舆情分析和控制、精准营销等均有重要的作用。已有的节点影响力排序算法或者需要网络的全局拓扑信息来计算单个节点影响力(如基于介数中心性的算法)而时间开销过大,不适用于大规模网络;或者基于传统的网页排序算法(如PageRank)而不能很好地处理社交网络中存在着大量“末梢”节点的问题以及不同用户之间的联系强度不同的问题。在传统的PageRank算法的基础上做出了两点改进。首先,通过在PageRank算法的权值回收步骤中考虑对不同的连接赋予不同的权值,有效避免了末梢节点带来的影响。其次,在PageRank算法的投票过程中考虑邻居个体的差异性,提出了一种基于半邻域信息的节点权值分配方法,有效提高了节点排序的准确度。在一个包含大约15 000个用户的样本网络中,我们所提出的改进算法能够找出前1 000个最有影响力的节点中的40%以上的节点,而传统的PageRank算法仅能找出其中11%的节点。同时,相比于基于介数中心性的算法,所提出的改进算法以小得多的时间开销达到了相近甚至更好的排序准确度。  相似文献   

17.
基于主题相似度模型的TS-PageRank算法   总被引:1,自引:1,他引:1  
PageRank算法是著名搜索引擎Google的核心算法,但存在主题漂移的问题,致使搜索结果中存在过多与查询主题无关的网页.在分析PageRank算法及其有关改进算法的基础上,提出了基于虚拟文档的主题相似度模型和基于主题相似度模型的TS-PageRank算法框架.只要选择不同的相似度计算模型,就可以得到不同的TS-PageRank算法,形成一个网页排序算法簇.理论分析和数值仿真实验表明,该算法在不需要额外文本信息,也不增加算法时空复杂度的情况下,就能极大地减少主题漂移现象,从而提高查询效率和质量.  相似文献   

18.
PageRank is an algorithm for computing a ranking for every Web page based on the graph of the Web. It plays an important role in Google’s search engine. The core of the PageRank algorithm involves computing the principal eigenvector of the Google matrix. Currently, we need to solve PageRank problems with high damping factors, which cost considerable time. A possible approach for accelerating the computation is the Arnoldi-type algorithm. However, this algorithm may not be satisfactory when the damping factor is high and the dimension of the Krylov subspace is low. Even worse, it may stagnate in practice. In this paper, we propose two strategies to improve the efficiency of the Arnoldi-type algorithm. Theoretical analysis shows that the new algorithms can accelerate the original Arnoldi-type algorithm considerably, and circumvent the drawback of stagnation. Numerical experiments illustrate that the accelerated Arnoldi-type algorithms usually outperform many state-of-the-art accelerating algorithms for PageRank. Applications of the new algorithms to function predicting of proteins are also discussed.  相似文献   

19.

摘  要:针对PageRank算法完全依据链接结构排序,未考虑网页内容分析,造成平均分配PR值、主题漂移、偏重旧网页的现象,且已有改进算法存在单一性优化等问题,提出一种多特征因子融合的PageRank算法。该算法为使搜索结果更接近用户查询需求,同时兼顾搜索内容的相关度和查准率,通过添加链入链出权重因子、用户反馈因子、主题相关因子和时间因子,共同改善PageRank算法存在的不足。实验结果表明,所提算法在内容相关性和查准率方面,较其他网页排序算法有明显提高,达到优化PageRank算法的目的。  相似文献   

20.
微博用户影响力分析作为社交网络分析的重要组成部分,一直受到研究人员的关注。针对现有研究工作分析用户行为时间性的不足和忽略用户与参与话题之间关联性等问题,提出了一种面向微博话题的用户影响力分析算法——基于话题和传播能力的用户排序(TSRank)算法。首先,基于微博话题分析用户转发行为时间性,进一步构建用户转发和用户博文转发两种话题转发关系网络,预测用户话题信息传播能力;然后,分析用户个人历史微博和背景话题微博文本内容,挖掘用户与背景话题之间的关联性;最后,综合考虑用户话题信息传播能力以及用户与背景话题间关联性计算微博用户影响力。爬取新浪微博真实话题数据进行实验,实验结果表明,话题关联度更高用户的话题转发量明显大于关联度很低的用户,引入用户转发行为时间性相比无转发时间性,TSRank算法的捕获率(CR)提高了18.7%,进一步与典型影响力分析算法WBRank、TwitterRank和PageRank相比,TSRank算法在准确率和召回率上分别提高了5.9%、8.7%、13.1%和6.7%、9.1%、14.2%,验证了TSRank算法的有效性。该研究成果对社交网络的社会属性、话题传播等理论研究以及好友推荐、舆情监控等应用研究具有支撑作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号