首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
随着社交网络的发展,社交网络中的用户形成大规模的用户关系图,用户在社交网络中发表内容,这些内容及其链接关系形成大规模的文档图.如何根据用户关系图、文档图,挖掘出用户所形成的社区、社区用户的影响力以及各个社区的话题,是重要的问题,而目前这些工作相对独立.考虑了用户发表内容、用户之间的关系信息,利用话题传播、社区形成和用户影响力之间的关联性,提出了一个基于LDA (latent Dirichlet allocation)的集成话题发现、社区发现和用户影响力分析的统一模型ACT-LDA(author-community-topic LDA).模型采用变分推理的方法解决推理问题.在DBLP数据上进行了实验,取得了非常好的结果,证明了模型的有效性.  相似文献   

2.
为解决传统社区发现算法难适用于大型复杂异质的移动网络的问题,利用移动网络使用详单数据(Usage Detail Record, UDR)和移动用户社交数据构建网络模型,提出一种融合多维信息的移动社区发现方法BNMF-NF。该方法综合考虑用户社交关系和时空行为,给出用户社交相似度、位置分布相似度和主题偏好相似度,利用加权网络融合方法融合多维相似关系构建用户相似网络,并运用有界非负矩阵分解技术实现社区结构的检测。在Foursquare和电信数据集上的实验结果表明,BNMF-NF方法能够有效发现移动网络中用户社区结构。  相似文献   

3.
微博情感分析是社交媒体挖掘中的重要任务之一,在个性化推荐、舆情分析等方面具有重要的理论和应用价值.挖掘性能良好且可同步进行文档主题分析与情感分析的主题情感模型近来在以微博为代表的社交媒体情感分析中备受关注。然而,绝大多数现有主题情感模型都简单地假设不同微博的情感极性是互相独立,这与微博生态的现实状况不相一致的,从而导致这些模型无法对用户的真实情感进行有效建模。基于此,本文综合考虑了微博用户相互关联的事实,提出基于LDA和微博用户关系的主题情感模型SRTSM,该模型在LDA中加入情感层与微博用户关系参数,利用微博用户关系与微博主题学习微博的情感极性。新浪微博真实数据集上的大量实验表明,与代表性算法JST、Sentiment-LDA与DPLDA相比较,SRTSM模型能对用户真实情感与讨论主题进行更加有效的分析建模.  相似文献   

4.
传统的敏感舆情模型中,不论是基于文本或是数据挖掘的分析方法都是直接处理网络舆情,未结合网络传播特性分析.针对上述问题,研究并采用基于微博交互关系算法:通过量化微博的敏感程度,分析用户的交互关系来构建微博敏感舆论传播模型.实验基于新浪微博,搜索到一定数量的敏感用户,对用户的交互行为进行分析,得到未来有发表敏感舆论倾向的用户并进行监控.实验结果证明,与传统的舆情模型相比,该方法可行且有效,开拓了舆情分析思路,适用于当前网络舆情研究.  相似文献   

5.
为解决在社交网络平台中的用户内容个性化推荐问题,提出一种微博用户兴趣转移模型。用户的不同兴趣在其生活以及社交网络平台中的内容所占比例趋于稳定,且在社交网络平台中用户下一时刻的内容受到用户当前内容的影响。提出基于LDA(潜在狄利克雷分布)主题模型推断用户主题分布、确定用户兴趣,在新浪微博系统上,基于马尔科夫模型的状态转移原理构造用户兴趣的转移模型,挖掘用户兴趣之间的转移概率,实现对用户微博内容进行预测。在真实数据集上验证了该模型的合理性和有效性,其推荐准确率达到78%。  相似文献   

6.
在社交网络时代,自媒体已成为群众发布、获取信息的重要渠道,网络舆情研判已经成为各级政府部门的主要任务之一。自媒体在反映个人情感和意见思潮的同时,也会汇聚群众的情感共鸣,因此对舆情文本的情感进行分析并获取其主题成为关键。通过爬虫工具对相关舆情文本进行抓取,将获取的数据使用Python的SnowNLP模块进行情感倾向划分,结合无监督的机器学习算法LDA主题模型进行文本关键词聚类,从而确定舆情规模、情感演变规律和舆情的热点主题词,为完善舆情应对机制提供科学支持。  相似文献   

7.
基于分析微博社交网络用户之间关系,提出了一种适用于微博的社区发现方法。实验表明这种方法能够有效地发掘微博社交网络中的社区结构。  相似文献   

8.
社交网络数据采集是开展社交网络分析的基础.针对当前面向主题的社交网络数据采集技术采集数据少、召回率低的问题,本文提出基于内置搜索引擎和基于通用搜索引擎相结合的主题消息采集方法,并将LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)模型应用于主题关键词的迭代扩展,并提出了一种基于用户生存值的高效扩展策略.实验结果表明本文提出的方法可以使面向主题的社交网络数据采集系统在保证一定准确率的情况下进一步获取主题相关数据.  相似文献   

9.
在社会网络中,根据已有的连接关系和文本信息发掘社会网络中的社团不但可以将相似的用户划分在一个社团,还可以用来预测网络中潜在的连接关系。为了提高社会网络中社团发现的性能,本文提出了一种基于LDA的结构-内容联合社团发现模型。首先,对社会网络的图论描述进行转化,使其适用于LDA模型。其次,对LDA模型描述进行扩充,使其包含了用户间交互的文本信息。最后,通过Gibbs采样方法对模型的参数进行估计。实验表明,本文提出的社团发现模型与其它相关方法相比较,社团发现得到的社团不仅用户间连接的紧密度和用户共享兴趣爱好的强度高,而且可以更好地用于社会网络中潜在连接的预测。  相似文献   

10.
针对传统的社交网络信息传播模型极少将用户属性和信息特征这两个因素纳入到信息传播模型研究中的不足,该文提出了一种基于用户自身属性的信息传播模型。首先该文抽取用户影响力、用户态度、用户年龄、信息能量、信息价值等特征并构建交互规则;其次,根据这些特征建立信息传播的数学模型,模拟社交网络舆情演化过程;最后,为验证模型的有效性,开展了与真实事件的实证分析对比实验。实验结果表明: 仿真结构与真实数据的相似度大于0.97,因而该模型符合社交网络舆情信息传播的特性,能够较为准确地描述社交网络中的舆情传播过程。  相似文献   

11.
随着社会网络的快速发展和普及,如何保护社会网络中的敏感信息已成为当前数据隐私保护研究领域的热点问题.对此,近年来出现了多种社会网络匿名化技术. 现有的匿名技术大多把社会网络抽象成简单图,然而实际生活中存在大量增量变化的社会网络,例如email通信网络,简单图并不能很好地刻画这种增量变化,因此,将社会网络抽象成增量序列具有现实意义.同时,在实际生活中大部分网络是带有权重信息的,即很多社会网络以加权图的形式出现,加权图与简单图相比携带了更多社会网络中的信息,也会带来更多的隐私泄露. 将增量的动态社会网络抽象成一个加权图的增量序列. 为了匿名加权图增量序列,提出了加权图增量序列k-匿名隐私保护模型,并设计了基于权重链表的baseline匿名算法WLKA和基于超图的匿名算法HVKA来防止基于结点标签和权重链表的攻击. 最后,通过在真实数据集上的大量测试,证明了WLKA算法能够保证加权图增量序列隐私保护的有效性,HVKA算法则在WLKA的基础上更好地保留了原图的结构性质并提高了权重信息的可用性,同时还降低了匿名过程的时间代价.  相似文献   

12.
为了有效地获取双语文档的主题分布,提出了一种基于短语的柬汉双语LDA主题模型。修改了传统LDA主题模型中的词袋模型,融入短语(N-gram)的概念,能够在主题预测过程中考虑文章的词序以及上下文,并将之应用于可比语料的双语环境中。本模型基于一个3层贝叶斯网络模型,在此框架下,首先搜集中文和柬埔寨语的可比语料,每一对双语可比语料文档共享一个相同的主题分布,之后引入发现主题以及主题短语的主题模型:对每个单词,首先进行主题抽样,然后将其状态作为短语进行采样,最后对来自特定主题短语分布的单词进行采样。通过实验结果可知,基于短语的双语LDA主题模型比一般的双语LDA模型更能抓住文章的主题,且有更好的主题预测能力。  相似文献   

13.
社团是社交网络的重要特征,社团检测技术的发展给网络用户带来隐私泄露的危险.如何保护敏感的社团信息不被泄露,保障用户与社团安全已经成为网络安全领域的研究热点.近几年,社团保护技术取得了初步进展,但针对社交网络中的社团隐私或社团安全研究进展综述较少,不利于该研究方向的长远发展.因此,主要针对社团结构隐私方面的研究进展进行综...  相似文献   

14.
Recently, social networking sites are offering a rich resource of heterogeneous data. The analysis of such data can lead to the discovery of unknown information and relations in these networks. The detection of communities including ‘similar’ nodes is a challenging topic in the analysis of social network data, and it has been widely studied in the social networking community in the context of underlying graph structure. Online social networks, in addition to having graph structures, include effective user information within networks. Using this information leads to enhance quality of community discovery. In this study, a method of community discovery is provided. Besides communication among nodes to improve the quality of the discovered communities, content information is used as well. This is a new approach based on frequent patterns and the actions of users on networks, particularly social networking sites where users carry out their preferred activities. The main contributions of proposed method are twofold: First, based on the interests and activities of users on networks, some small communities of similar users are discovered, and then by using social relations, the discovered communities are extended. The F-measure is used to evaluate the results of two real-world datasets (Blogcatalog and Flickr), demonstrating that the proposed method principals to improve the community detection quality.  相似文献   

15.
一种面向语义重叠社区发现的 Block 场取样算法   总被引:2,自引:1,他引:1  
辛宇  杨静  谢志强 《自动化学报》2015,41(2):362-375
语义社会网络(Semantic social network, SSN)是一种包含信息节点及社会关系构成的新型复杂网络. 传统语义社会网络分析算法在进行社区挖掘时, 需要预先设定社区个数且无法发现重叠社区. 针对这一问题, 提出一种面向语义重叠社区发现的block场采样算法, 该算法首先以LDA (Latent dirichlet allocation)模型为语义分析模型, 建立了以取样节点为核心节点的block 场BAT (Block-author-topic)模型; 其次, 根据节点的语义分析结果, 建立可度量block区域的语义凝聚力方法, 实现了语义信息的可度量化; 最后, 以节点的语义凝聚力为输入, 改进了重叠社区发现的标签传播算法(Label propagation algorithm, LPA)及可评价语义社区的SQ度量模型, 并通过实验分析, 验证了本文算法及SQ 度量模型的有效性及可行性.  相似文献   

16.
Online social networks have become immensely popular in recent years and have become the major sources for tracking the reverberation of events and news throughout the world. However, the diversity and popularity of online social networks attract malicious users to inject new forms of spam. Spamming is a malicious activity where a fake user spreads unsolicited messages in the form of bulk message, fraudulent review, malware/virus, hate speech, profanity, or advertising for marketing scam. In addition, it is found that spammers usually form a connected community of spam accounts and use them to spread spam to a large set of legitimate users. Consequently, it is highly desirable to detect such spammer communities existing in social networks. Even though a significant amount of work has been done in the field of detecting spam messages and accounts, not much research has been done in detecting spammer communities and hidden spam accounts. In this work, an unsupervised approach called SpamCom is proposed for detecting spammer communities in Twitter. We model the Twitter network as a multilayer social network and exploit the existence of overlapping community-based features of users represented in the form of Hypergraphs to identify spammers based on their structural behavior and URL characteristics. The use of community-based features, graph and URL characteristics of user accounts, and content similarity among users make our technique very robust and efficient.  相似文献   

17.
社会网络分析(social network analysis, SNA)是数据挖掘领域的一个重要研究方向,社会网络数据的质量和规模对研究十分重要.在当前的社会网络分析研究中,大多数是基于社交网站生成的社会网络,社交网站生成的在线社会网络只是对真实社会网络近似模拟,其现象、结论无法代表真实社会网络;少数基于真实社会网络的研究中,由于数据采集难度较大,往往只能使用规模有限的社会网络,从而降低了分析结果的可信程度.现代软件系统产生大量的事务日志让构建基于真实环境的社会网络成为可能.以高校学生卡管理系统产生的事务日志为例,探索如何从海量事务日志中抽取社会网络.根据事务日志的特征,建立以共现(co-occurrence)特征为基础的网络抽取模型,抽取出所有可能构成这个社会网络的边;定义了一个基于边的权重和Jaccard相关性系数的边存在系数,识别网络中的噪音边,筛选噪音边;最后,通过同班级比率分析和网络拓扑结构分析,对抽取的网络进行验证.实验结果表明,所抽取的网络具有很高的同班级比率,该抽取模型具有较好效果,同时该网络具有小世界网络(small-world)特征和满足无标度(scale-free)度分布,符合常见社会网络特征.  相似文献   

18.
Although a large body of work is devoted to finding communities in static social networks, only a few studies examined the dynamics of communities in evolving social networks. In this paper, we propose a dynamic stochastic block model for finding communities and their evolution in a dynamic social network. The proposed model captures the evolution of communities by explicitly modeling the transition of community memberships for individual nodes in the network. Unlike many existing approaches for modeling social networks that estimate parameters by their most likely values (i.e., point estimation), in this study, we employ a Bayesian treatment for parameter estimation that computes the posterior distributions for all the unknown parameters. This Bayesian treatment allows us to capture the uncertainty in parameter values and therefore is more robust to data noise than point estimation. In addition, an efficient algorithm is developed for Bayesian inference to handle large sparse social networks. Extensive experimental studies based on both synthetic data and real-life data demonstrate that our model achieves higher accuracy and reveals more insights in the data than several state-of-the-art algorithms.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号