共查询到20条相似文献,搜索用时 957 毫秒
1.
微博作为一种重要的社交媒体,许多学者都对微博中用户的影响力进行研究,但大多数影响力的评价算法都是根据微博话题中用户的静态属性或微博话题发生后用户的行为特征对用户影响力进行评价。从用户的转发、评论和点赞三种行为入手,结合突现计算模型,提出一种基于Swarm模型的用户影响力排序算法,SMRank算法可以在微博话题发生的过程中对用户每个时间段的影响力进行计算,给出了一种计算微博话题用户影响力的新方法。通过使用真实的微博话题数据进行实验,结果表明提出的SMRank算法可以有效地发现微博话题中影响等级较大的用户,并能计算出不同用户不同时刻的影响力。 相似文献
2.
微博热点话题发现是目前的研究热点。针对传统热词抽取方法难以适用于微博数据的问题,提出一种基于老化理论的词生命值计算模型用于热词抽取,并基于热词间的相关性构建词共现网络;针对传统的词聚类算法不能较好地解决话题间存在重叠热词以及时间效率不佳的问题,引入多标签传播思想,设计一种接近线性时间复杂度的多标签传播聚类算法( TCMLPA)用于词共现网络的热词聚类,获得热点话题集。实验结果表明,词生命值计算模型能够有效过滤噪声并提取热词,TCMLPA算法则能够在保证聚类结果稳定性的情况下,有效提高热点话题发现的精度和效率。 相似文献
3.
为了解决微博文本特征抽取及特征稀疏问题,提出基于卷积神经网络的微博话题追踪模型(CNN-TTM).基于微博用户信息,又提出融合微博用户信息及卷积神经网络的微博话题追踪模型(CNN-UserTTM),利用微博用户信息提高话题追踪准确率.实验表明,在新浪微博数据集上,CNN-TTM和CNN-UserTTM分别获得较高的微博话题追踪准确率. 相似文献
4.
微博用户影响力分析作为社交网络分析的重要组成部分,一直受到研究人员的关注。针对现有研究工作分析用户行为时间性的不足和忽略用户与参与话题之间关联性等问题,提出了一种面向微博话题的用户影响力分析算法——基于话题和传播能力的用户排序(TSRank)算法。首先,基于微博话题分析用户转发行为时间性,进一步构建用户转发和用户博文转发两种话题转发关系网络,预测用户话题信息传播能力;然后,分析用户个人历史微博和背景话题微博文本内容,挖掘用户与背景话题之间的关联性;最后,综合考虑用户话题信息传播能力以及用户与背景话题间关联性计算微博用户影响力。爬取新浪微博真实话题数据进行实验,实验结果表明,话题关联度更高用户的话题转发量明显大于关联度很低的用户,引入用户转发行为时间性相比无转发时间性,TSRank算法的捕获率(CR)提高了18.7%,进一步与典型影响力分析算法WBRank、TwitterRank和PageRank相比,TSRank算法在准确率和召回率上分别提高了5.9%、8.7%、13.1%和6.7%、9.1%、14.2%,验证了TSRank算法的有效性。该研究成果对社交网络的社会属性、话题传播等理论研究以及好友推荐、舆情监控等应用研究具有支撑作用。 相似文献
5.
6.
杨成 《数字社区&智能家居》2009,(26)
该文提出了一种面向由XML描述的Web文档的基于用户主题信息的模式和数据抽取方法,它利用学习算法从样本文档中提取规则,然后使用匹配算法从目标文档中抽取出数据。该文使用一种改进的解析方法对XML文档进行解析,在模式抽取时使用了顺序覆盖算法从样本XML文档集中训练出模式。在数据抽取算法中,数据抽取算法从解析后的XML文档树中寻找用户所需的信息,它可以高效、准确地找到用户所需数据。 相似文献
7.
事件以话题形式在微博中迅速传播,并能够产生巨大的影响力。因此,对 参与 话题传播过程的用户进行分析以及发现具有不同主题兴趣情感倾向性的群体受到政府和企业的广泛关注。现阶段,绝大多数应用到微博的群体发现算法都是从单个用户出发,仅考虑了用户社会联系,与用户共享内容相隔离,其群体发现的结果不具有语义信息。少数算法综合了用户社会联系与内容,却忽略了微博本身的结构特性。因此从微博话题的角度出发,综合考虑话题传播过程中的用户交互、微博文本内容以及情感极性,同时结合用户的行为信息,提出了一个基于概率生成模型的微博话题传播群体划分方法BP-STG。采用吉布斯抽样对模型进行推导,不仅能够挖掘出具有不同主题倾向性的群体,同时还能够挖掘出群体的情感倾向分布以及用户在群体中的活跃度及其行为表现。此外,模型还能够推广到许多带有社交网络性质的媒体中。在获取的新浪微博两个话题数据集上的实验表明,BP-STG模型不仅能够有效地对微博话题传播群体进行划分,而且能够发现群体内部活跃用户以及用户在群体中的行为模式。 相似文献
8.
9.
基于特定领域的中文微博热点话题挖掘系统BTopicMiner 总被引:1,自引:0,他引:1
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。 相似文献
10.
11.
根据大数据稀疏性特征,把奇异值分解方法引入协作过滤算法中进行互联网站点用户的页面兴趣度的计算和验证,提出了一种基于改进协作过滤算法的用户页面兴趣度预测算法。该算法可通过在网络日志文件中提取显性用户评分数据存在的虚假评分,发现用户页面兴趣度和其影响因素。MATLAB仿真结果显示:提出的基于改进协同过滤算法的用户页面兴趣度测量方法可有效克服海量数据的稀疏性,在预测准确性、测量速度方面都有很大提高。 相似文献
12.
为了提高从社交网络文本信息中发现热点话题的准确率,提出一种基于用户关联分析的热点话题识别算法。该算法综合考虑词频变化率和用户权威度,词频变化率通过EMA和MACD等指标来计算,用户权威度通过建立用户关联图的方式来计算。使用基于HITS算法的话题热度度量计算方法,将词频变化率数据和用户权威度数据结合在一起,得到话题的热度值。实验结果表明,使用基于用户关联分析的热点话题识别算法能够提高热点话题发现准确率。 相似文献
13.
Hongyan Liu Jun He Tingting Wang Wenting Song Xiaoyang Du 《Electronic Commerce Research and Applications》2013,12(1):14-23
Recommendation systems represent a popular research area with a variety of applications. Such systems provide personalized services to the user and help address the problem of information overload. Traditional recommendation methods such as collaborative filtering suffer from low accuracy because of data sparseness though. We propose a novel recommendation algorithm based on analysis of an online review. The algorithm incorporates two new methods for opinion mining and recommendation. As opposed to traditional methods, which are usually based on the similarity of ratings to infer user preferences, the proposed recommendation method analyzes the difference between the ratings and opinions of the user to identify the user’s preferences. This method considers explicit ratings and implicit opinions, an action that can address the problem of data sparseness. We propose a new feature and opinion extraction method based on the characteristics of online reviews to extract effectively the opinion of the user from a customer review written in Chinese. Based on these methods, we also conduct an empirical study of online restaurant customer reviews to create a restaurant recommendation system and demonstrate the effectiveness of the proposed methods. 相似文献
14.
15.
传统的TF*PDF方法提取的关键短语可精确地描述话题并进行新闻报道的追踪, 但存在误将噪声数据识别为关键短语的情况。提出了一种基于位置权重TF*PDF的两段式关键短语提取方法滤除噪声数据。该方法将传统的TF*PDF算法与位置权重相结合, 计算词汇与短语的权重, 获取候选关键短语列表, 关键短语的脉冲值则用于过滤列表中的噪声。通过关键短语识别进程根据位置信息、频率信息等将热点词汇组合成短语。TF*PDF位置权重算法同时也用于为短语分配权重, 排名前K的短语被认为是热点关键短语。以真实网络数据为基础的实验结果表明, 该提取方法与传统的TF*PDF提取方法相比, 可更好地去除关键词短语中的绝对噪声, 较好地改善了热点话题检测的准确度。 相似文献
16.
17.
查询扩展是在原查询词的基础上加入与用户查询词相关的词或者词组,组成新的、更准确的查询序列,使扩展后的查询序列能更清晰地表达用户的查询请求,克服自然语言的“二义性”。基于《计算机网络》概念语义网络能更加有效地找出计算机网络领域内查询词的概念词及扩展概念词,并向上拓展将各个查询词的原始语义关系联接起来,解决了查询词之间缺乏联系的问题,为扩展检索的实现奠定基础。描述了概念语义网络的生成方法、关联概念树的抽取方法和查询扩展检索的计算机实现流程,为教学资源领域的在线学习提供了技术支持。 相似文献
18.
随着云计算的发展,海量数据的处理正逐渐从用户本地转向云服务器,然而数据本身可能携带大量用户隐私,且一旦用户将数据上传至云服务器,就失去了对数据的完全掌控能力,该类数据一旦被非法获取,用户身份、行为、偏好等各类隐私就可能被暴露。因此,如何保证在不暴露原始数据的情况下让受委托的云服务器在密文下执行运算成为一个重要的研究课题。本文基于密码学和计算机视觉相关理论,针对隐私数据安全处理的问题,以模分量的同态性质为基础设计了两种加密方法,分别为基于混淆模分解的同态加密方法和基于密模聚合的同态加密方法,并给出了安全性分析。并将这两种方法应用于视觉盲计算领域中,实现计算方在无需获取任何原始数据有效信息的密文条件下,完成对数据的盲处理,实现了数据的可用不可见。实验结果表明,基于密模聚合模同态加密的运动目标盲提取方法,在多数测试场景中能在不降低原始算法准确率的前提下,在时间效率上明显优于基于混合高斯模型的运动目标盲提取和基于多服务器秘密共享的前景提取等方法;基于混淆模分解同态加密的人脸盲检测方法,能在不降低原始人脸检测算法识别的准确率前提下,实现视频监控人脸的盲检测,且检测速度大幅度快于基于随机子图的隐秘... 相似文献
19.
研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的,为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔可夫模型在处理规则知识上的优势对每个页面构建HTML树,并利用Shannon熵来定位数据域,再用Maxi-mum Likelihood方法实现隐马尔可夫模型的构建,实现对Web信息的抽取。仿真结果表明,通过对大量学术论文头部结构信息的抽取,应用算法可以使信息抽取在召回率和准确率方面有明显的提高。 相似文献
20.
针对匿名用户数据的海量性与冗余性等特点,为提高数字证据的用户身份鉴定性能,文章提出基于用户行为模式的匿名数据鉴定方法.首先,文章研究了基于BIDE算法的用户频繁行为模式挖掘方法,为数据鉴定提供了高质量的用户频繁序列行为模式库.然后,采用基于最长公共子序列的相似度方法得到模式综合相似度,全面描述用户数据之间的吻合程度.最... 相似文献