首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
基于双层采样主动学习的社交网络虚假用户检测方法   总被引:1,自引:0,他引:1  
社交网络的飞速发展给用户带来了便捷,但是社交网络开放性的特点使得其容易受到虚假用户的影响.虚假用户借用社交网络传播虚假信息达到自身的目的,这种行为严重影响着社交网络的安全性和稳定性.目前社交网络虚假用户的检测方法主要通过用户的行为、文本和网络关系等特征对用户进行分类,由于人工标注用户数据需要的代价较大,导致分类器能够使用的标签样本不足.为解决此问题,本文提出一种基于双层采样主动学习的社交网络虚假用户检测方法,该方法使用样本不确定性、代表性和多样性3个指标评估未标记样本的价值,并使用排序和聚类相结合的双层采样算法对未标记样本进行筛选,选出最有价值的样本给专家标注,用于对分类模型的训练.在Twitter、Apontador和Youtube数据集上的实验说明本文所提方法在标签样本数量不足的情况下,只使用少量有标签样本就可以达到与有监督学习接近的检测效果;并且,对比其他主动学习方法,本文方法具有更高的准确率和召回率,需要的标签样本数量更少.  相似文献   

2.
如今微博和Twitter等社交网络平台被广泛地用于交流、创建在线社区并进行社交活动。用户所发布的内容可以被推理出大量隐私信息,这导致社交网络中针对用户的隐私推理技术的兴起。利用用户的文本内容及在线行为等知识可以对用户进行推理攻击,社交关系推理和属性推理是对社交网络用户隐私的两种基本攻击。针对推理攻击保护机制和方法的研究也在日益增加,对隐私推理和保护技术相关的研究和文献进行了分类并总结,最后进行了探讨和展望。  相似文献   

3.
随着社交网站的流行以及用户的大规模增加,社交网络用户行为分析已经成为社交网站进行网站维护、性能优化和系统升级的重要基础,也是网络知识挖掘和信息检索的重要研究领域。为了更好地理解社交网络用户添加个人标签的行为特征,该文基于大约263万个微博用户的真实数据,对用户标签的分布进行了研究和分析。我们主要考察了用户标签的宏观分布特征,以及用户标签与关注对象的标签分布之间的联系,发现微博用户给自己添加标签时,在开始阶段倾向于使用反映个性的标签,之后会出于从众心理而选用大众化标签。我们将研究发现运用到基于关注关系的标签预测算法中,结果证实相关分析对于社交网站的标签推荐等课题具有一定的参考意义。  相似文献   

4.
随着互联网的发展,在线社交网络在人们的生活中越发显得重要。用户在自己的社交网络上发布信息促进与他人交流的同时也产生了隐私暴露的隐患。针对用户无法有效管理自己发布信息的问题,提出了一个基于标签的细粒度的访问控制模型,用户给其好友、好友的不同类型的行为以及用户发布的不同类型的信息分配标签,只有这些标签之间满足了一定的条件,好友才能对用户发布的信息进行操作,该模型能够对用户发布的信息进行有效的管理,保护用户隐私。  相似文献   

5.
移动互联网技术的飞速发展,给社交网络平台带来了新的颠覆性的转变,也不断地改变着人们的生产、生活和交流方式.在线社交网络由于其特有的注册开放性、发布信息自由性、用户兴趣趋同性等特点,已经超越传统媒体,成为人们传播消息、获取新闻和接收实时信息的主要途径.同时,社交网络中用户之间的各种关系类型多样、相互交织、相互影响,促使用户生活在复杂的在线群体网络环境中,使得用户的在线行为时刻都受到所属的多种群体环境的影响作用.现有的针对在线群体环境影响的研究大多依据静态的、单一的网络结构对社交网络进行建模,而网络中通常存在多种类型的、动态的社会关系,较少研究能同时考虑多种类型的用户关系,建模社交网络中复杂环境下用户受到的影响作用.本文对用户所处的多类在线群体环境进行分析,挖掘用户所能感知的不同类型的群体环境,建模多维群体环境下用户所受的影响作用.首先,从用户间的社交关系类型出发,对在线社交网络中复杂的网络拓扑关系进行分类挖掘,分析用户可能感知的不同维度的在线群体环境,并提出静态群体环境和动态群体环境的定义和挖掘方法.其次,在不同的在线社交群体环境下,从宏观角度量化环境中用户所感知的群体结构特征,并从微观角度建模并模拟用户间的影响机制,提出了基于图注意力网络的融合多维在线群体环境的影响力模型.最后,以在线社交网络中用户的转发行为为例,研究多维群体环境影响下的用户行为模式,并在真实数据集上,基于群体影响力模型预测个体转发行为状态,验证模型的合理性和有效性.实验结果表明,本文提出的群体影响力模型能够更有效地描述在线社交网络中用户所属群体对用户的影响作用,并且在用户转发行为状态预测方面,比现有的群体影响力模型在综合评价指标F1值方面最高可以提升33%,在AUC值方面可提升16%.  相似文献   

6.
针对如何融合节点自身属性以及网络结构信息实现社交网络节点分类的问题,提出了一种基于图编码网络的社交网络节点分类算法。首先,每个节点向邻域节点传播其携带的信息;其次,每个节点通过神经网络挖掘其与邻域节点之间可能隐含的关系,并且将这些关系进行融合;最后,每个节点根据自身信息以及与邻域节点关系的信息提取更高层次的特征,作为节点的表示,并且根据该表示对节点进行分类。在微博数据集上,与经典的深度随机游走模型、逻辑回归算法有以及最近提出的图卷积网络算法相比,所提算法分类准确率均有大于8%的提升;在DBLP数据集上,与多层感知器相比分类准确率提升4.83%,与图卷积网络相比分类准确率提升0.91%。  相似文献   

7.
多标签图像分类是多标签数据分类问题中的研究热点.针对目前多标签图像分类方法只学习图像的视觉表示特征,忽略了图像标签之间的相关信息以及标签语义与图像特征的对应关系等问题,提出了一种基于多头图注意力网络与图模型的多标签图像分类模型(ML-M-GAT).该模型利用标签共现关系与标签属性信息构建图模型,使用多头注意力机制学习标签的注意力权重,并利用标签权重将标签语义特征与图像特征进行融合,从而将标签相关性与标签语义信息融入到多标签图像分类模型中.为验证本文所提模型的有效性,在公开数据集VOC-2007和COCO-2014上进行实验,实验结果表明, ML-M-GAT模型在两个数据集上的平均均值精度(mAP)分别为94%和82.2%,均优于CNN-RNN、ResNet101、MLIR、MIC-FLC模型,比ResNet101模型分别提高了4.2%和3.9%.因此,本文所提的ML-M-GAT模型能够利用图像标签信息提高多标签图像分类性能.  相似文献   

8.
微博用户利用标签信息表征其兴趣及属性,通过分析微博用户标签特点以及现有微博推荐方法的局限性,提出一种改进的基于多标签语义关联关系的微博兴趣建模方法。为了解决现有加标方法忽略了语义关联及多标签间关联的问题,首先通过计算标签对在微博用户集合中的共现频率得到标签对语义内联关系;其次构建由标签对连接词组成的路径,通过共享熵进一步计算标签对语义外联关系;最后将两者结合得到标签对语义关联关系矩阵,由此来对用户 标签矩阵进行更新,得到基于多标签语义关联关系的微博用户兴趣模型。以新浪微博公开API抓取的大量微博信息作为实验数据,进行了一系列的实验和分析,结果表明本文构建的用户兴趣模型具有较好的性能。  相似文献   

9.
张星  於志文  梁韵基  郭斌 《计算机科学》2014,41(4):215-218,229
发现在线社交网络中的社群结构有助于深入研究和分析信息传播规律,同时在社会推荐、群体特征发现等应用领域具有重要的意义。但是现有的社群结构发掘方法多忽略了用户之间的社会属性,导致获取的社群结构难以反映细粒度的结构特征。文中将用户的社会属性引入到社群结构发掘算法中。为了衡量用户的社会交互属性,提出了用户交互相似度模型。基于用户交互相似度模型,提出了一种面向在线社交网络的细粒度社群发掘方法。该算法可以有效衡量用户之间的社会属性,通过层次聚类的手段获得不同粒度的社群,并过滤无关数据。为了验证算法的有效性,以社交网站人人网的用户交互记录为数据集,比较了与其他社区挖掘算法的性能差异。实验结果表明,该方法发掘出的细粒度社群具有较高的准确性,在发现社群之间的不同话题上有着较好的应用。  相似文献   

10.
跨项目社会推荐是一种将社交关系整合到推荐系统中的方法。社会化推荐中包含用户-项目交互图和社交网络图,用户是连接这两个图的桥梁,其表示学习对提升社会化推荐的性能至关重要。然而,现有方法主要使用用户或项目的静态属性和社交网络中的显式朋友关系来进行表示学习,用户和项目交互的时序信息及隐式朋友关系未得到充分利用。因此,在社会化推荐中,如何有效利用时序信息和社交信息成为重要的研究课题之一。文中通过建模用户的隐式朋友和项目的社交属性,提出了一种新颖的基于高阶和时序特征的图神经网络社会化推荐算法(Graph Neural Networks Social Recommendation Based on High-order and Temporal Features)模型,简称HTGSR。HTGSR首先利用门控递归单元对基于项目的用户表征进行建模,以反映用户的近期动态偏好,并定义一个高阶建模单元来提取用户的高阶连通特征,挖掘用户的隐式朋友信息;其次利用注意力机制获取基于社交关系的用户表征;然后提出不同的项目社交网络的构建方式,并利用注意力机制来获取项目表征;最后将用户和项目的潜在表征输入到多层感知机,...  相似文献   

11.

Heterogeneous information networks, which consist of multi-typed vertices representing objects and multi-typed edges representing relations between objects, are ubiquitous in the real world. In this paper, we study the problem of entity matching for heterogeneous information networks based on distributed network embedding and multi-layer perceptron with a highway network, and we propose a new method named DEM short for Deep Entity Matching. In contrast to the traditional entity matching methods, DEM utilizes the multi-layer perceptron with a highway network to explore the hidden relations to improve the performance of matching. Importantly, we incorporate DEM with the network embedding methodology, enabling highly efficient computing in a vectorized manner. DEM’s generic modeling of both the network structure and the entity attributes enables it to model various heterogeneous information networks flexibly. To illustrate its functionality, we apply the DEM algorithm to two real-world entity matching applications: user linkage under the social network analysis scenario that predicts the same or matched users in different social platforms and record linkage that predicts the same or matched records in different citation networks. Extensive experiments on real-world datasets demonstrate DEM’s effectiveness and rationality.

  相似文献   

12.
肺结节的良恶性分类对于肺癌的早期发现及诊断具有重要意义。然而实际应用中,标记的图像数量较少,且获取标记将耗费大量的人力,在这种情况下,使用半监督学习算法是有效提高分类性能的一个思路。作为一种经典的半监督学习算法,传统的半监督FCM在未标记样本与标记样本分布不平衡情况下不能充分利用标记信息。针对此问题,本文提出了一种基于分布先验的半监督FCM算法。首先计算样本的先验分布概率,基于获得的先验概率,给样本赋予权重,并将其融入到半监督FCM聚类中,从而强化少量的标记样本在聚类过程中的指导作用。文中在LIDC数据库上进行了相应的实验,实验结果证明,相比较传统的半监督FCM算法,提出的算法能够取得更好的肺结节分类性能。  相似文献   

13.
The performance of many supervised and unsupervised learning algorithms is very sensitive to the choice of an appropriate distance metric. Previous work in metric learning and adaptation has mostly been focused on classification tasks by making use of class label information. In standard clustering tasks, however, class label information is not available. In order to adapt the metric to improve the clustering results, some background knowledge or side information is needed. One useful type of side information is in the form of pairwise similarity or dissimilarity information. Recently, some novel methods (e.g., the parametric method proposed by Xing et al.) for learning global metrics based on pairwise side information have been shown to demonstrate promising results. In this paper, we propose a nonparametric method, called relaxational metric adaptation (RMA), for the same metric adaptation problem. While RMA is local in the sense that it allows locally adaptive metrics, it is also global because even patterns not in the vicinity can have long-range effects on the metric adaptation process. Experimental results for semi-supervised clustering based on both simulated and real-world data sets show that RMA outperforms Xing et al.'s method under most situations. Besides applying RMA to semi-supervised learning, we have also used it to improve the performance of content-based image retrieval systems through metric adaptation. Experimental results based on two real-world image databases show that RMA significantly outperforms other methods in improving the image retrieval performance.  相似文献   

14.
针对现有粗糙集属性约简方法中存在的连续数据处理时的信息丢失、粒化策略引入不一致信息、参数寻优困难等问题,提出一种适用于连续型数据、基于类别可区分度的非单调性启发式属性约简算法。首先以各样本的标签为依据对论域进行划分,同一标签的样本组合成一个簇,定义每个簇的类间可区分度和类内可区分度;其次,以最大化类间可区分度、最小化类内可区分度为约简原则,定义了一种新的属性重要性判别准则以确定最优约简集,从而提高后续分类器的分类性能。在十一个UCI数据集上与其他六种属性约简算法进行对比实验。结果表明,与六种算法相比,所提算法获得的约简集平均维度减小了1.16,平均分类精度提高了3.42%,其表现出更好的约简性能。  相似文献   

15.
现有的网络表征方法及其相关变体的侧重点在于保存网络的拓扑结构或使重构误差最小,忽略隐变量的数据分布问题.基于此种情况,文中提出基于对抗图卷积的网络表征学习框架(AGCN),使网络模型不仅可以组合图的结构信息和节点的属性信息,提高网络表征学习性能,而且可以学习数据分布.与此同时,在AGCN的基础上提出端到端的多任务学习框架(MTL),在一个学习阶段可以同时进行链接预测和节点分类任务.实验表明,MTL性能较优.  相似文献   

16.
多标签分类已在很多领域得到了实际的应用。针对多标签分类中存在标签相关性问题,提出一种获取标签相关信息的多标签分类新方法,记为LRI_MLC。该方法主要是通过引入一个概率模型来实现,即对建立的最优化子问题采用交替最大化法进行求解,并给出了求解推到过程,自动地获得标签的相关信息,以达到较好的多标签分类效果。在四个多标签数据集上的实验结果表明,提出的方法得到了较好的分类预测评价值以及其他几种衡量指标值,优于现有经典的多标签分类方法。  相似文献   

17.
For classification problems, in practice, real-world data may suffer from two types of noise, attribute noise and class noise. It is the key for improving recognition performance to remove as much of their adverse effects as possible. In this paper, a formalism algorithm is proposed for classification problems with class noise, which is more challenging than those with attribute noise. The proposed formalism algorithm is based on evidential reasoning theory which is a powerful tool to deal with uncertain information in multiple attribute decision analysis and many other areas. Thus, it may be more effective alternative to handle noisy label information. And then a specific algorithm—Evidential Reasoning based Classification algorithm (ERC) is derived to recognize human faces under class noise conditions. The proposed ERC algorithm is extensively evaluated on five publicly available face databases with class noise and yields good performance.  相似文献   

18.
由于标签空间过大,标签分布不平衡问题在多标签数据集中广泛存在,解决该问题在一定程度上可以提高多标签学习的分类性能。通过标签相关性提升分类性能是解决该问题的一种最常见的有效策略,众多学者进行了大量研究,然而这些研究更多地是采用基于正相关性策略提升性能。在实际问题中,除了正相关性外,标签的负相关性也可能存在,如果在考虑正相关性的同时,兼顾负相关性,无疑能够进一步改善分类器的性能。基于此,提出了一种基于负相关性增强的不平衡多标签学习算法——MLNCE,旨在解决多标签不平衡问题的同时,兼顾标签间的正负相关性,从而提高多标签分类器的分类性能。首先利用标签密度信息改造标签空间;然后在密度标签空间中探究标签真实的正反相关性信息,并添加到分类器目标函数中;最后利用加速梯度下降法求解输出权重以得到预测结果。在11个多标签标准数据集上与其他6种多标签学习算法进行对比实验,结果表明MLNCE算法可以有效提高分类精度。  相似文献   

19.
黄琴    钱文彬    王映龙  吴兵龙 《智能系统学报》2019,14(5):929-938
在多标记学习中,特征选择是提升多标记学习分类性能的有效手段。针对多标记特征选择算法计算复杂度较大且未考虑到现实应用中数据的获取往往需要花费代价,本文提出了一种面向代价敏感数据的多标记特征选择算法。该算法利用信息熵分析特征与标记之间的相关性,重新定义了一种基于测试代价的特征重要度准则,并根据服从正态分布的特征重要度和特征代价的标准差,给出一种合理的阈值选择方法,同时通过阈值剔除冗余和不相关特征,得到低总代价的特征子集。通过在多标记数据的实验对比和分析,表明该方法的有效性和可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号