首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
为了提高从微博信息中检测热点话题的准确率,提出一种基于用户关联的热点话题检测方法.依据用户权威度对微博用户排序,过滤拥有低权威度值用户的相关微博信息.用户权威度通过基于PageRank的微博用户权威度评价模型来计算.将用户权威度数据与微博评论数、转发数结合在一起,得到话题的热度值.实验结果表明,所提出的方法在微博应用中能够有效识别“僵尸”用户,使漏检率和误检率分别平均降低19.78%和4.77%,能较好地提高热点话题检测成果的准确率.  相似文献   

2.
针对网络论坛热点话题的识别、发现和舆情监测问题,提出一种基于热度熵值的热点话题发现方法。通过网络爬虫抓取网络论坛中的数据,在对数据进行预处理和分析热点话题属性特征的基础上,合理定义各属性的权重和话题的热度熵值,并以此对话题的热点信息进行分析、统计与评估,从而发现和追踪网络论坛中的热点话题。同时,对话题的热度进行细致划分和各种类型的定义,采用不同阈值策略计算不同类型的热度信息标注的准确率。实验结果表明,该方法合理、有效,相比于传统的话题语义分析方法具有较高的准确率,可作为互联网论坛舆情监测的依据。  相似文献   

3.
《计算机工程》2017,(2):57-62
现有微博热点话题发现模型对微博数量规模较敏感,发现速度较慢。为此,提出一种基于热度矩阵的主题模型。通过热度矩阵获取各潜在主题的热度和主题-词概率分布,并以词间的共有热度来挖掘其语义关系,进而准确识别数据中的热点话题及热点词汇。在真实微博数据上的实验结果表明,与潜在狄利克雷分布模型相比,该模型的效率和准确率较高,发现的热点话题与实时事件保持一致,具有较好的热点识别效果。  相似文献   

4.
吴不晓  肖菁 《计算机应用》2015,35(6):1663-1667
目前多数社交网络主要根据已有好友关系推荐潜在好友,用户的兴趣爱好不作为主要考虑因素;此外,如何从大量数据中精确地提取用户的兴趣爱好是一项十分艰巨的任务。为此,提出一种在大量标注行为数据中精确挖掘出用户的兴趣爱好,并据此推荐具有相同兴趣爱好的潜在好友的算法--基于标注的好友推荐(FRBT)算法。首先使用词频-逆向文件频率(TF-IDF)对标签进行聚类,将语义相似的标签聚成话题;然后在话题的基础上提出一种新的相似度公式来计算用户相似度;再融合基于话题与基于物品的用户相似度,将相似度较高的用户作为潜在好友进行推荐。在Delicious数据集上以准确率和召回率为指标与item、tag和tri-graph三种算法进行比较,实验验证了该算法能够更准确地为用户推荐兴趣相似的好友。  相似文献   

5.
杨武  李阳  卢玲 《计算机应用》2013,33(11):3076-3079
针对在海量微博数据中提取热点话题效率较低的问题,在对用户角色分类的基础上,提出了一种新的热点话题检测方法。首先,根据用户关注度进行用户角色定位,过滤掉部分用户的噪声数据;其次,采用结合语义相似度的TF-IDF函数计算特征权重,降低语义表达形式带来的误差;然后,用改进的Single-Pass聚类算法进行话题聚类,提取出微博话题;最后,根据微博转发数、评论数等对话题热度进行评估排序,从而发现热点话题。实验表明,所提出的方法使漏检率和误检率分别平均降低12.09%和2.37%,有效地提高了话题检测的正确率,验证了该方法的可行性。  相似文献   

6.
为了准确地为微博用户推荐相近兴趣领域的重要用户,有效提高用户对微博平台的依赖度。该文对传统的HITS算法进行了改进: 通过分析微博用户社交网络结构,运用改进算法将微博用户划分为3类,在微博主题相似度计算中引入用户的权威度和中心度,最后根据用户类别进行微博用户推荐。实验中,使用爬取的微博数据对传统的推荐算法和该文的改进算法进行对比实验,由于所提算法在分析过程中考虑了用户结构信息、用户的权威度与中心度等多种因素,因而在准确率、召回率、F1值上均有明显提高。  相似文献   

7.
随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型(VSM)文本表示方法存在高维度、稀疏,以及同义多义问题,导致难以准确度量文本相似度,提出一种基于隐含语义分析的两阶段聚类话题发现方法。引入话题热度的概念来选取具有一定关注度的微博文本,用隐含语义分析(LSA)对数据集进行建模;用层次聚类的CURE算法确定初始类中心;用K-means聚类得到热点话题的聚类结果。真实微博数据集的实验结果验证了该方法的有效性。  相似文献   

8.
微博作为当代生活中信息传播的重要平台,对其进行热点话题挖掘成为当今重要的研究方向之一。针对传统的热点话题发现方法在处理微博文本时存在文本表示缺乏语义信息、挖掘热点话题效果差等问题,本文提出一种基于频繁词集和BERT语义的文本双表示模型(Text dual representation model based on frequent word sets and BERT semantics, FWS-BERT),通过该模型计算加权文本相似度对微博文本进行谱聚类,进一步基于改进相似性度量的affinity propagation (AP)聚类算法进行微博话题挖掘,最后通过引入文献计量学中的H指数提出一种话题热度评估方法。实验表明,本文提出的方法在轮廓系数及Calinski-Harabasz(CH)指标值上均高于基于频繁词集的单一文本表示方法和K-means方法,并且能准确地对微博数据进行话题表示和热度评估。  相似文献   

9.
为了及时发现网络热点话题走向,提出基于数据挖掘技术的网络热点话题演化动态预测算法。首先运用基于块的单遍聚类算法,将网络热点话题划分成不同文本集,根据特征划分到不同块中,进行网络热点话题的数据挖掘,然后计算页面话题热度值,利用热度值描述报道获得的先后顺序,判断能否产生新的网络热点话题,实现网络热点话题预测。经实验验证算法网络热点话题动态预测运行时间少;热点话题预测漏检率低,可精准描述热度值变化趋势。  相似文献   

10.
互联网上的社会性媒体具有传播内容广泛、传播范围无地域限制、传播迅速的特点。热点性话题代表了多数人关注的对象、其动态变化影响着人们的生活和思想。识别热点性话题具有重要意义。政策制定者通过热点话题了解人们的生活、调整政策以管理民生。从纷繁变化的海量信息中抽取热点话题是挑战性问题。本文以网络论坛为研究对象,基于网络媒体中发生社会性热点事件时会产生相关联的高频核心词,核心词高度抽象了事件的主要特征和发展方向。基于这个客观现象,提出了基于主题特征词关联的密度聚类算法,建立社会性热点事件发现模型。实验表明,提出的主题词关联性的热点话题识别算法识别准确率和召回率高,具有实用价值。  相似文献   

11.
针对海量微博信息,提出一种多步骤的热词抽取方法.首先,选择用户行为特性、微博信息的文本特征构建用户行为模型,并在此基础上提出一种基于规则的话题树生成过滤算法,筛除了微博中大量无关信息,进而对生成的话题树修剪优化;然后,根据话题树的节点内容,使用词频及其波动特性设计热词抽取算法,获取微博的热词信息.实验数据表明,该方法能大大减小输入的数据规模,同时较好的保留重要信息,有效实现热词抽取.  相似文献   

12.
微博用户影响力分析作为社交网络分析的重要组成部分,一直受到研究人员的关注。针对现有研究工作分析用户行为时间性的不足和忽略用户与参与话题之间关联性等问题,提出了一种面向微博话题的用户影响力分析算法——基于话题和传播能力的用户排序(TSRank)算法。首先,基于微博话题分析用户转发行为时间性,进一步构建用户转发和用户博文转发两种话题转发关系网络,预测用户话题信息传播能力;然后,分析用户个人历史微博和背景话题微博文本内容,挖掘用户与背景话题之间的关联性;最后,综合考虑用户话题信息传播能力以及用户与背景话题间关联性计算微博用户影响力。爬取新浪微博真实话题数据进行实验,实验结果表明,话题关联度更高用户的话题转发量明显大于关联度很低的用户,引入用户转发行为时间性相比无转发时间性,TSRank算法的捕获率(CR)提高了18.7%,进一步与典型影响力分析算法WBRank、TwitterRank和PageRank相比,TSRank算法在准确率和召回率上分别提高了5.9%、8.7%、13.1%和6.7%、9.1%、14.2%,验证了TSRank算法的有效性。该研究成果对社交网络的社会属性、话题传播等理论研究以及好友推荐、舆情监控等应用研究具有支撑作用。  相似文献   

13.
主题相关度算法是搜索引擎的重要组成部分,影响搜索引擎的用户体验.本文将语义网技术同传统的信息检索技术相结合,并参考知识本体,给出一个利用用户反馈的判断主题相关度的判断算法,通过实验验证了算法能有效提高用户搜索的准确率和召回率。  相似文献   

14.
主要研究了基于深度学习技术挖掘用户搜索主题相关的感兴趣内容。通过深度挖掘算法分析用户搜索记录、查询历史以及用户感兴趣的相关文档视为用户搜索主题数据的来源,进而挖掘兴趣主题。挖掘模型主要采用向量空间模型,将用户搜索主题模型表示成用户搜索主题向量形式。形成主题和用户兴趣关系网,用户搜索主题向量的构造过程:选择一组用户查询词,并对它们进行深度挖掘分类,最后用它们构造用户搜索主题特征向量,进而分析用户兴趣点。结合用户随着时间的变化,以及过程中有不用的搜索词,以及无关的搜索噪声词去掉,调整兴趣度,用户搜索主题需要具有更新学习机制,动态跟踪了用户兴趣变化趋势。该用户搜索主题研究过程克服了数据稀疏、类别偏差、扩展性差等缺点。实验结果表明,该模型识别用户搜索主题准确率良好。  相似文献   

15.
随着基于位置的社交网络推荐系统的逐步发展,兴趣点推荐成为了研究热门。兴趣点推荐的研究旨在为用户推荐兴趣点,并且为商家提供广告投放和潜在客户发掘等服务。由于用户签到行为的数据具有高稀疏性,为兴趣点推荐带来很大的挑战。许多研究工作结合地理影响、时间效应、社会相关性等方面的因素来提高兴趣点推荐的性能。然而,在大多数兴趣点推荐的工作中,用户访问的周期性习惯和伴随用户偏好的上下文情境信息没有被深度地挖掘。而且,下一个兴趣点推荐中一直存在着数据的高稀疏度。基于以上考虑,针对用户签到的数据稀疏性问题,将用户周期性行为模式归结为上下文情境信息,提出了一种基于上下文感知的个性化度量嵌入推荐算法,同时将用户签到的上下文情境信息考虑进来,从而丰富有效数据,缓解数据稀疏性问题,提高推荐的准确率,并且进一步优化算法,降低时间复杂度。在两个真实数据集上的实验分析表明,本文提出的算法具有更好的推荐效果。  相似文献   

16.
传统协同过滤推荐算法存在数据稀疏性、冷启动、新用户等问题.随着社交网络和电子商务的迅猛发展,利用用户间的信任关系和用户兴趣提供个性化推荐成为研究的热点.本文提出一种结合用户信任和兴趣的概率矩阵分解(STUIPMF)推荐方法.该方法首先从用户评分角度挖掘用户间的隐性信任关系和潜在兴趣标签,然后利用概率矩阵分解模型对用户评分信息、用户信任关系、用户兴趣标签信息进行矩阵分解,进一步挖掘用户潜在特征,缓解数据稀疏性.在Epinions数据集上进行实验验证,结果表明,该方法能够在一定程度上提高推荐精度,缓解冷启动和新用户问题,同时具有较好的可扩展性.  相似文献   

17.
针对传统的协同过滤算法忽略了用户兴趣源于关键词以及数据稀疏的问题,提出了结合用户兴趣度聚类的协同过滤推荐算法。利用用户对项目的评分,并从项目属性中提取关键词,提出了一种新的RF-IIF (rating frequency-inverse item frequency)算法,根据目标用户对某关键词的评分频率和该关键词被所有用户的评分频率,得到用户对关键词的偏好,形成用户—关键词偏好矩阵,并在该矩阵基础上进行聚类。然后利用logistic函数得到用户对项目的兴趣度,明确用户爱好,在类簇中寻找目标用户的相似用户,提取邻居爱好的前◢N◣个物品对用户进行推荐。实验结果表明,算法准确率始终优于传统算法,对用户爱好判断较为准确,缓解了数据稀疏问题,有效提高了推荐的准确率和效率。  相似文献   

18.
任永功  尹明飞  杨荣杰 《计算机科学》2012,39(5):177-179,212
近几年,垃圾博客过滤成为国际上新的热点研究领域。现有的过滤算法大多基于词频特征分类,特征冗余并缺乏关联性。为了解决此问题,提出一种基于组合特征的动态垃圾博客过滤算法(CFDSD),该算法采用作者属性和自相似特征来解决特征冗余和关联性低的问题,并应用贝叶斯分类算法优化词频特征分类。实验表明,该算法能适应博客随时间变化而动态更新的特点,同时提高了过滤效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号