首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
社交媒体数据是行动者自组织关系的集合,其内部蕴含了多层次的社会实体关系,传统的抽样方法难以处理其内生的复杂性、不确定性以及涌现性,因此社交媒体抽样方法的研究对于社会计算这一新兴研究领域具有重要的研究价值和实践意义.文中首先按照社交媒体抽样技术发展的演进轨迹,对广度优先抽样法、点-边抽样法、用户均匀抽样法、同伴推动抽样法以及随机行走抽样法的基本思想、概率化控制能力、应用效果进行了全面的分析和比较,介绍了各类方法的特点与不足.其次根据领域问题研究的需要,使用社交媒体数据对上述方法进行了实际测试.测试结果表明现有抽样方法在微观层次(节点)和中观层次(子群)通过有效的节点规模扩张和概率控制,能够满足节点异质性与子群内聚性抽样的要求,但在宏观层次上却无法准确刻画由于局部凝聚子群再组织所表现出的涌现性.最后以此为依据,指出社交媒体数据抽样未来需要进一步深入研究的问题.  相似文献   

2.
一种贝叶斯网络结构学习的混合随机抽样算法   总被引:1,自引:0,他引:1  
贝叶斯网络结构学习的随机抽样算法存在收敛速度慢的问题,为此,结合均匀抽样和独立抽样,从初始样本、抽样方式和建议分布3个方面对抽样过程进行改进,提出一种混合型马尔可夫链蒙特卡罗抽样算法(HSMHS)。基于节点之间的互信息生成网络结构的初始样本,在迭代抽样阶段,按一定的概率随机选择均匀抽样和独立抽样,并根据当前抽样的样本总体计算独立抽样的建议分布,以改善抽样过程的融合性,加快收敛速度。对算法进行正确性分析,证明其抽样过程收敛于网络结构的后验概率分布,可保持较高的学习精度。在标准数据集上的实验结果表明,HSMHS算法的学习效率和精度均高于同类算法MHS、PopMCMC和Order-MCMC。  相似文献   

3.
为了对在线实验系统产生的实验数据序列进行分析,引入一阶马尔可夫链. 通过人工分类把实验数据分为学习积极和懒散作弊两类,分别构建马尔可夫链模型. 根据输出概率判定测试数据来自哪一个模型的可能性较大. 最后讨论了状态的平稳分布情况. 实验结果表明,基于马尔可夫链的分类模型具有较高的正确率.  相似文献   

4.
在马尔可夫链模型的基础上,将测试用例的生成问题转化为一个数学问题。通过建立软件的使用链,根据使用链进行序列抽样,产生测试用例。运用实例证明,这种技术具有一定的实用性和有效性。  相似文献   

5.
多表连接查询是大数据分析领域重要的查询类型之一,然而连接查询的实现代价很高,从而影响了大数据分析结果的时效性。在线聚集能够在查询完成前反馈具有统计意义的估计结果,具有重要的意义。目前已有的多表连接在线聚集算法从各表进行统一随机采样,导致连接结果的产出率低,并且导致分组连接查询的估计准确率低。针对这一问题,提出了基于马尔可夫链的多表连接在线聚集技术,将多表连接的实现过程转换为马尔可夫链上的随机游走过程,确定好连接顺序后在游走起始层创建分层样本,并设计了相应的采样策略及结果估计方法。将所提出技术在在线化Hadoop平台上实现,实验结果证明所提出方案的响应时间优于已有算法,并且具有良好的扩展性。  相似文献   

6.
在马尔可夫链模型的基础上,将测试问题转化为一个数学问题。通过建立软件的使用链,根据使用链进行序列抽样,产生测试用例,将软件测试结果的分析问题转化为一个经典概率问题。运用实例证明,这种技术具有一定的实用性和有效性。  相似文献   

7.
一种基于随机抽样的贝叶斯网络结构学习算法   总被引:1,自引:0,他引:1  
针对贝叶斯网络的结构学习问题,基于并行随机抽样的思想提出了结构学习算法PCMHS,构建多条并行的收敛于Boltzmann分布的马尔可夫链.首先基于节点之间的互信息,进行所有马尔可夫链的初始化,在其迭代过程中,基于并行的MHS抽样总体得到产生下一代个体的建议分布,并通过对网络中弧和子结构的抽样产生下一代个体.算法FCMHS收敛于平稳分布,具有良好的学习精度,而该算法又通过使其初始分布和建议分布近似于其平稳分布,有效提高了马尔可夫链的收敛速度.在标准数据集上的实验结果验证了算法PCMHS的学习效率和学习精度明显优于经典算法MHS和PopMCMC.  相似文献   

8.
推导了使用指数损失函数和0-1损失函数的Boosting 算法的严格在线形式,证明这两种在线Boosting算法最大化样本间隔期望、最小化样本间隔方差.通过增量估计样本间隔的期望和方差,Boosting算法可应用于在线学习问题而不损失分类准确性. UCI数据集上的实验表明,指数损失在线Boosting算法的分类准确性与批量自适应 Boosting (AdaBoost)算法接近,远优于传统的在线Boosting;0-1损失在线Boosting算法分别最小化正负样本误差,适用于不平衡数据问题,并且在噪声数据上分类性能更为稳定.  相似文献   

9.
目前基于深度学习的恶意代码检测技术是恶意代码检测领域的研究热点,然而大多数研究集中于如何改进算法来提高恶意代码检测的准确率,忽略了恶意代码数据集样本标签的不足导致无法训练出高质量的模型.本文利用区块链技术来解决恶意代码检测数据样本孤岛和数据可信任的问题;同时在代码特征提取上,使用马尔可夫图算法提取特征;基于分布式深度学习的训练融合区块链去中心化,可溯源不可篡改的优势,将不同算力贡献者采用同步训练更新模型参数.通过仿真实验和理论分析验证了该方法的可行性和巨大的潜力.  相似文献   

10.
节点排序研究领域中,少有研究考虑群聚效应下的群体规范对传播效率的影响,这可能导致用户影响力度量的准确性下降。针对这一问题,从信息扩散角度出发,借鉴创新扩散理论与Bass扩散模型,提出一种适用于虚拟社区网络的用户局部影响力度量模型CSA-LL(Cohesive Subgroup Analysis Based Local Leadership):基于凝聚子群挖掘与分析,定义子群内部信息扩散效率,并结合用户全局影响力,计算模型输出值作为节点排序的依据。爬取近期的豆瓣社区数据进行网络构建,使用AISAS模型等方法验证了该模型输出的用户比PageRank算法和Hits算法结果具有更强的营销能力。使用LT模型进一步验证了模型的有效性和子群信息扩散效率对用户传播能力存在正向影响。再使用多个虚拟社区网络数据集和IC模型,分别验证了模型鲁棒性与结论稳健性。  相似文献   

11.
The problem of identifying cohesive subgroups in social hypertext is reviewed. A computationally efficient three-step framework for identifying cohesive subgroups is proposed, referred to as the Social Cohesion Analysis of Networks (SCAN) method. In the first step of this method (Select), people within a social network are screened using a level of network centrality to select possible subgroup members. In the second step (Collect), the people selected in the first step are collected into subgroups identified at each point in time using hierarchical cluster analysis. In the third step (Choose), similarity modeling is used to choose cohesive subgroups based on the similarity of subgroups when compared across different points in time. The application of this SCAN method is then demonstrated in a case study where a subgroup is automatically extracted from a social network formed based on the online interactions of a group of about 150 people that occurred over a two-year period. In addition, this paper also demonstrates that similarity-based cohesion can provide a different, and in this case more compelling, subgroup representation than a method based on splitting a hierarchical clustering dendrogram using an optimality criterion.  相似文献   

12.
Social media is becoming an increasingly common part of everyday life. Many social media sites (e.g. Facebook, Twitter and LinkedIn) support new interpersonal interaction methods, some of which are neither directed nor reciprocated. For example, social media users can read online 'posts' (self-disclosures) of their friends without interacting with those friends. This is vastly different to traditional face-to-face communication. Our study investigated how reading online 'posts' affects relationship development. Using a longitudinal design sampling 243 participants, we focused on the effect of the posts' valence and intimacy. We found that high intimacy posts or negative posts decreased the social attractiveness of the self-discloser. The perception of the posts and the receiver's feelings of homophily to the self-discloser mediated this relationship. Studies of offline interpersonal interaction have found similar results. In offline communication, self-disclosure perception and homophily also mediate relationship outcomes. This suggests that reading posts on social media and interacting in real life trigger similar or identical relationship formation pathways. These results support the argument that passive consumption is a new method of interaction that does not fundamentally change human psychology. While novel, passive consumption is still based on the same principles as offline communication.  相似文献   

13.
在线社交网络的UNI64采样方法   总被引:1,自引:0,他引:1  
在对社交网络采样方法进行研究时,常以拒绝-接受采样法得到的样本作为对照来评价其他采样方法的优劣.由于各种在线社交网络陆续将其用户ID系统由32位升级为64位,导致拒绝-接受采样法的采样命中率近乎为零.本文根据在线社交网络的特点,以新浪微博为例,对其用户ID分布情况进行分析,提出了一种改进的拒绝-接受采样法UNI64.该方法通过分析网络有效ID样本的分布情况,结合聚类的方法将整个样本空间划分为有效区间和无效区间,并使采样算法避开无效区间,仅在有效区间内生成待测样本,从而有效提高了拒绝-接受采样法在有效样本极为稀疏的样本空间内采样的命中率.  相似文献   

14.
随着网络技术的快速发展,大量在线社会网络的建立和使用,越来越多的人参加到社会网络中分享和交流信息,而在这种交互过程中,会产生大量的数据。这些数据中有些是用户个人生活领域中不愿意别人知道的事情,可以认为它们是用户的隐私。社会网络数据发布的隐私保护成为新兴的研究课题。本文提出了应用于社会网络的(α,k)-匿名方法,采用基于聚类的方法,对节点的属性及节点之间的关系进行保护。每个聚类中的节点数至少为k个,并且聚类中任一敏感属性值相关的节点的百分比不高于α。理论分析和实验结果表明,基于社会网络的(α,k)-匿名方法能在信息损失尽可能小的情况下有效地保护隐私。  相似文献   

15.
Clustering analysis aims to group a set of similar data objects into the same cluster. Topic models, which belong to the soft clustering methods, are powerful tools to discover latent clusters/topics behind large data sets. Due to the dynamic nature of temporal data, clusters often exhibit complicated patterns such as birth, branch and death. However, most existing temporal clustering models assume that clusters evolve as a linear chain, and they cannot model and detect branching of clusters. In this paper, we present evolving Dirichlet processes (EDP for short) to model nonlinear evolutionary traces behind temporal data, especially for temporal text collections. In the setting of EDP, temporal collections are divided into epochs. In order to model cluster branching over time, EDP allows each cluster in an epoch to form Dirichlet processes (DP) and uses a combination of the cluster-specific DPs as the prior for cluster distributions in the next epoch. To model hierarchical temporal data, such as online document collections, we propose a new class of evolving hierarchical Dirichlet processes (EHDP for short) which extends the hierarchical Dirichlet processes (HDP) to model evolving temporal data. We design an online learning framework based on Gibbs sampling to infer the evolutionary traces of clusters over time. In experiments, we validate that EDP and EHDP can capture nonlinear evolutionary traces of clusters on both synthetic and real-world text collections and achieve better results than its peers.  相似文献   

16.
With the rising popularity of social media in the context of environments based on the Internet of things (IoT), semantic information has emerged as an important bridge to connect human intelligence with heterogeneous media big data. As a critical tool to improve media big data retrieval, semantic fusion encounters a number of challenges: the manual method is inefficient, and the automatic approach is inaccurate. To address these challenges, this paper proposes a solution called CSF (Crowdsourcing Semantic Fusion) that makes full use of the collective wisdom of social users and introduces crowdsourcing computing to semantic fusion. First, the correlation of cross-modal semantics is mined and the semantic objects are normalized for fusion. Second, we employ the dimension reduction and relevance feedback approaches to reduce non-principal components and noise. Finally, we research the storage and distribution mechanism. Experiment results highlight the efficiency and accuracy of the proposed approach. The proposed method is an effective and practical cross-modal semantic fusion and distribution mechanism for heterogeneous social media, provides a novel idea for social media semantic processing, and uses an interactive visualization framework for social media knowledge mining and retrieval to improve semantic knowledge and the effect of representation.  相似文献   

17.
大数据时代,互联网成为科学研究的有效工具和平台。借助百度搜索指数数据,运用复杂网络方法构建互联网空间下有向加权城市网络模型,分析互联网上的城市网络格局及复杂结构。以我国36大城市数据为样本,实证发现该城市网络的节点出权及入权累积分布均符合指数分布,归类网络中的城市活跃类型,计算挖掘出网络中的关键城市节点以及网络的凝聚子群。从互联网新媒介视角对“互联网 ”计划下城市网络结构做出了新的解析,丰富了城市复杂网络的研究,对城市的建设规划、管理具有指导意义。  相似文献   

18.
具有丢失数据的可分解马尔可夫网络结构学习   总被引:14,自引:0,他引:14  
王双成  苑森淼 《计算机学报》2004,27(9):1221-1228
具有丢失数据的可分解马尔可夫网络结构学习是一个重要而困难的研究课题,数据的丢失使变量之间的依赖关系变得混乱,无法直接进行可靠的结构学习.文章结合最大似然树和Gibbs抽样,通过对随机初始化的丢失数据和最大似然树进行迭代修正一调整,得到修复后的完整数据集;在此基础上基于变量之间的基本依赖关系和依赖分析思想进行可分解马尔可夫网络结构学习,能够避免现有的丢失数据处理方法和可分解马尔可夫网络结构学习方法存在的效率和可靠性低等问题.试验结果显示,该方法能够有效地进行具有丢失数据的可分解马尔可夫网络结构学习.  相似文献   

19.
针对现有在线社交网络(OSNs)采样方法无法有效地应用于低连通性的社交网络,且采集的样本顶点平均度严重偏离原始社交网络、顶点过度采样等问题,本文基于蒙特卡罗随机游走(MHRW)采样方法,引入双重跳跃策略、并行机制和顶点缓存区,提出一种跳跃无偏并行顶点(JPS)采样方法。将在线社交网络数据集建模为包含顶点和边的社交图进行模拟采样,利用Python/Matplotlib绘图库绘制采集的样本顶点属性图。实验结果表明,该采样方法更有效地应用于不同连通强度的社交图,提高了采样过程中的顶点更新率,降低了样本顶点的平均度偏差且能够更快速地收敛。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号