首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
舒琰  向阳  张骐  张熊熊  张君瑛 《微机发展》2013,(2):73-76,81
随着社交网络的发展,对于其数据的挖掘与分析已经成为一个热门领域。在微博中,用户排名通常是单纯根据粉丝人数进行排列,而这种方法并不公正。针对这一问题,结合网页PageRank算法,提出了新的排名算法,以用户为节点,用户关系为有向边,建立概率转移矩阵,计算微博用户PageRank值。该算法能有效减少垃圾用户对微博排名的影响,来提高排名的公平性与准确性。实验测试在云环境下进行,结果显示了新的排名结果,与现有的微博粉丝排名相比,更加公平,具有一定的实用价值。  相似文献   

2.
作为搜索引擎的核心部件,网页排名算法决定了搜索到的相关结果以何种顺序呈现给用户,其性能的优劣将会直接影响搜索引擎的服务质量和用户的搜索体验.在计算网页的权威性时,现有的基于链接的网页排名算法和网页作弊检测算法仅关注网页的超链接数量和质量,而忽略了超链接来源的多样性———另一种客观评价网页权威性的重要信息.相比于真正的权威页面(具有大量且来源广泛的入链),通过作弊手段提升排名的网页往往不具有入链来源多样性的特征.基于以上思想,文中分别提出了超链接来源多样性判断方法、超链接权值调整方法,进而提出了基于超链接来源多样性分析的网页排名算法Drank.在多个基准数据集上的实验结果表明:与现有最好的同类算法相比,综合寻找优质页面和抑制网页排名作弊两方面,Drank算法表现出更好的性能.  相似文献   

3.
针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法.该算法选取源搜索结果中排名靠前的部分网页,对这部分网页根据网页相似度进行DBSCAN聚类,最大限度剔除冗余网页,实现搜索结果的优化.实验结果表明本算法可以提高搜索结果的全面性和准确性,提升用户使用搜索引擎的满意度.  相似文献   

4.
以Web 2.0中用户行为作为研究对象,通过发掘用户反馈方式,提出用户反馈分值的概念,对用户反馈影响搜索结果排名的具体方法以及相应实现进行研究,提出了一种基于神经网络的网页排序算法。该算法引入BP神经网络模型,根据用户反馈分值选择样本训练神经网络。将传统搜索结果输入到经过训练的神经网络进行计算,根据计算出的结果所表示的网页相关性强弱判断后进行二次排序。该算法利用了神经网络具有的模式识别能力,有效地将用户反馈和搜索引擎结合起来,使得搜索结果更加符合用户的搜索要求。  相似文献   

5.
徐文涛  刘锋  朱二周 《计算机科学》2016,43(9):66-70, 86
微博凭借其即时发布、实时传播、简便易用的特点逐渐成为最为主流的自媒体平台。用户影响力评价是微博社交网络中基本而又重要的问题,它对于优化与推动社会信息传播来说有着重要意义。以新浪微博为实验对象,通过综合考虑微博用户关系网络特性和用户行为,结合MapReduce编程计算模型,提出了一种基于MapReduce的新型用户影响力排名算法——QRank。在Hadoop平台上的实验结果表明,QRank算法具有良好的可扩展性,能够有效结合微博用户关系网络与行为特性,从而更加真实与充分地反映用户的实际影响力。  相似文献   

6.
针对Google PageRank算法中存在的“平均分配原则”及网络链接结构所造成的“旧网页问题”、“主题漂移问题”,提出一种改进的网页排序算法N-PageRank.该算法通过对搜索日志进行数据挖掘,捕捉用户与搜索引擎之间的交互过程,发现隐藏在用户搜索行为背后的用户兴趣和搜索规律,利用用户行为反馈模型,分析网络日志里用户的各项行为特点,改善了排序结果的准确率,保证了搜索引擎的返回结果正是用户所希望看到的网页.实验证明该算法有效地降低了网页排序时的客观因素的影响,充分考虑了用户对于网页质量的评价,所得到的排序结果更加能够满足用户的需求.  相似文献   

7.
为了精准地获取微博领域权威性用户排序列表,在现有研究成果的基础上以新浪微博为研究对象,手动构建领域词典,面向微博领域提出了领域微博权威性用户度量模型(domains-microblog authoritative user ranking model,DMAURank).该模型使用基于PageRank与用户行为权值相结合的评价方法.将实验结果与用户平均转发数排名和粉丝数排名进行对比,发现基于PageRank与用户行为权值相结合的用户被关注度有效降低了粉丝数目的过大影响.  相似文献   

8.
目前常用的网络爬虫和基于微博API抓取数据的算法很难满足舆情系统对微博数据的需求。为此,提出一种模拟浏览器登录微博抓取网页数据的算法,以方便地获取任意微博用户网页上的所有数据。通过微博用户之间的关系构建用户网络,并通过该网络发现新用户。为获取微博上有质量的数据,建立一个完整的数学模型,根据用户的发帖数、发帖频率、粉丝数、转发数、评论数等因素来计算用户影响力,以影响力为主要因子构建优先队列,使得影响力越大的用户数据采集频率越高,同时计算时间间隔以兼顾非活跃用户的数据获取。实验结果表明,该算法具有通用性强、完全无需人工干预、获取信息的质量高、速度快等优点。  相似文献   

9.
基于HRank的微博用户影响力评价   总被引:1,自引:0,他引:1  
贾冲冲  王名扬  车鑫 《计算机应用》2015,35(4):1017-1020
针对微博社交网络平台中的用户影响力评价问题,提出了一种基于HRank的评价算法。该算法将评价科学家科研绩效影响力的判定参数H指数引入进来,构造出能反映用户影响覆盖度的粉丝H指数和用户微博受追捧程度的微博被转发H指数,以分别表征用户的静态特征和在微博平台上的动态行为特征。在此基础上,结合粉丝H指数和微博被转发H指数构建出对用户影响力进行综合评价的HRank模型。粉丝数与用户影响力的相关性不是很强,同样数据集下相对PageRank,HRank用户影响力模型与新浪用户影响力官方排名更为接近,可有效实现对微博用户影响力的客观评判。  相似文献   

10.
微博单纯依托粉丝及分享的推送式营销,似乎已经达到了一个瓶颈。而作为搜索本身的一种垂直应用,微搜索是否可以复制关键词排名的营销方式,是一个值得关注的方向。  相似文献   

11.
一种基于社会性标注的网页排序算法   总被引:2,自引:0,他引:2  
社会性标注作为一种新的资源管理和共享方式,吸引为数众多的用户参与其中,由此产生的大量社会性标注数据成为网页质量评价的一个新维度.文中研究如何利用社会性标注改进网页检索性能,提出一种有机结合网页和用户的查询相关性与互增强关系的网页排序算法.首先利用统计主题模型,使用相关标签为网页和用户建模,并计算查询相关性.然后利用二部图模型刻画网页和用户间的互增强关系,并使用相关标签与用户兴趣和网页内容的匹配度为互增强关系赋予权重.最后结合查询相关性和互增强关系,以迭代方式同时计算网页和用户的评分.实验结果表明,文中提出的检索模型和互增强模型能够有效地提高排序算法的性能.与目前的代表性算法相比,该算法在检索性能上有明显提高.  相似文献   

12.
针对传统PageRank算法存在的平分链接权重和忽略用户兴趣等问题,提出一种基于学习自动机和用户兴趣的页面排序算法LUPR。在所提方法中,给每个网页分配学习自动机,其功能是确定网页之间超链接的权重。通过对用户行为进一步分析,以用户的浏览行为衡量用户对网页的兴趣度,从而获得兴趣度因子。该算法根据网页间的超链接和用户对网页的兴趣度衡量网页权重计算每个网页的排名。最后的仿真实验表明,较传统的PageRank算法和WPR算法,改进后的LUPR算法在一定程度上提高了信息检索的准确度和用户满意度。  相似文献   

13.
As a media and communication platform, microblog becomes more popular around the world. Most users follow a large number of celebrities and public medias on microblog; however, these celebrities do not necessarily follow all their fans. Such one-way relationship abounds in ego network and is displayed by the forms of users’ followees and followers, which make it difficult to identify users’ real friends who are contained in merged lists of followees and followers. The aim of this paper is to propose a general algorithm for detecting users’ real friends in social media and dividing them into different social circles automatically according to the closeness of their relationships. Then we analyze these social circles and detect social attributes of these social circles. To verify the effectiveness of the proposed algorithm, we build a microblog application which displays algorithm results of social circles for users and enables users to adjust proposed results according to her/his real social circles. We demonstrate that our algorithm is superior to the traditional clustering method in terms of F value and mean average precision. Furthermore, our method of tagging social attributes of social circles gets high performance by NDCG (normalized discounted cumulative gain).  相似文献   

14.
提出一种新的网页排序方法-ClusterRank方法。该方法先对检索结果进行文本挖掘,然后利用Web网页的链接信息以及用户点击率对网页重要性的影响对挖掘结果进行排序。该算法可以引导用户进一步明确其检索需求。  相似文献   

15.
The conventional approaches of finding related search engine queries rely on the common terms shared by two queries to measure their relatedness. However, search engine queries are usually short and the term overlap between two queries is very small. Using query terms as a feature space cannot accurately estimate relatedness. Alternative feature spaces are needed to enrich the term based search queries. In this paper, given a search query, first we extract the Web pages accessed by users from Japanese Web access logs which store the users individual and collective behavior. From these accessed Web pages we usually can get two kinds of feature spaces, i.e, content-sensitive (e.g., nouns) and content-ignorant (e.g., URLs), to enrich the expressions of search queries. Then, the relatedness between search queries can be estimated on their enriched expressions. Our experimental results show that the URL feature space produces much lower precision scores than the noun feature space which, however, is not applicable in non-text pages, dynamic pages and so on. It is crucial to improve the quality of the URL (content-ignorant) feature space since it is generally available in all types of Web pages. We propose a novel content-ignorant feature space, called Web community which is created from a Japanese Web page archive by exploiting link analysis. Experimental results show that the proposed Web community feature space generates much better results than the URL feature space.  相似文献   

16.
基于网页文本结构的网页去重   总被引:1,自引:0,他引:1  
魏丽霞  郑家恒 《计算机应用》2007,27(11):2854-2856
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。 针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。  相似文献   

17.
为了更好地为Web站内检索提供服务,对Web全文检索的关键技术进行了研究,设计并实现了一个用于Web全文检索的中间件。该中间件通过多线程网页爬虫程序来抓取网页;对抓取结果采用基于Bloom-Filter的大规模URL去重算法来进行高效消重;应用所提出的新的基于标签的正文提取方法来进行网页正文提取,实验结果表明该正文提取方法是有效可行的;此外,为了改善用户的搜索体验,该中间件还提供了一些个性化搜索辅助功能。最后,实现了一个完整的博客搜索系统Boso(博搜)来验证中间件的性能,结果说明该中间件是可以投入实际应用的。  相似文献   

18.
针对小文本的Web数据挖掘技术及其应用   总被引:4,自引:2,他引:4  
现有搜索引擎技术返回给用户的信息太多太杂,为此提出一种针对小文本的基于近似网页聚类算法的Web文本数据挖掘技术,该技术根据用户的兴趣程度形成词汇库,利用模糊聚类方法获得分词词典组,采用MD5算法去除重复页面,采用近似网页聚类算法对剩余页面聚类,并用马尔可夫Web序列挖掘算法对聚类结果排序,从而提供用户感兴趣的网页簇序列,使用户可以迅速找到感兴趣的页面。实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,所研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术。  相似文献   

19.
Search engines result pages (SERPs) for a specific query are constructed according to several mechanisms. One of them consists in ranking Web pages regarding their importance, regardless of their semantic. Indeed, relevance to a query is not enough to provide high quality results, and popularity is used to arbitrate between equally relevant Web pages. The most well-known algorithm that ranks Web pages according to their popularity is the PageRank.The term Webspam was coined to denotes Web pages created with the only purpose of fooling ranking algorithms such as the PageRank. Indeed, the goal of Webspam is to promote a target page by increasing its rank. It is an important issue for Web search engines to spot and discard Webspam to provide their users with a nonbiased list of results. Webspam techniques are evolving constantly to remain efficient but most of the time they still consist in creating a specific linking architecture around the target page to increase its rank.In this paper we propose to study the effects of node aggregation on the well-known ranking algorithm of Google (the PageRank) in the presence of Webspam. Our node aggregation methods have the purpose to construct clusters of nodes that are considered as a sole node in the PageRank computation. Since the Web graph is way to big to apply classic clustering techniques, we present four lightweight aggregation techniques suitable for its size. Experimental results on the WEBSPAM-UK2007 dataset show the interest of the approach, which is moreover confirmed by statistical evidence.  相似文献   

20.
随着Web技术的发展和Web上越来越多的各种信息,如何提供高质量、相关的查询结果成为当前Web搜索引擎的一个巨大挑战.PageRank和HITS是两个最重要的基于链接的排序算法并在商业搜索引擎中使用.然而,在PageRank算法中,每个网页的PR值被平均地分配到它所指向的所有网页,网页之间的质量差异被完全忽略.这样的算法很容易被当前的Web SPAM攻击.基于这样的认识,提出了一个关于PageRank算法的改进,称为Page Quality Based PageRank(QPR)算法.QPR算法动态地评估每个网页的质量,并根据网页的质量对每个网页的PR值做相应公平的分配.在多个不同特性的数据集上进行了全面的实验,实验结果显示,提出的QPR算法能大大提高查询结果的排序,并能有效减轻SPAM网页对查询结果的影响.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号