首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 93 毫秒
1.
针对非负矩阵分解(NMF)半监督社区发现方法随机选择先验约束,导致提升相同性能需要更多约束信息的问题,提出一种基于迭代框架的主动链接选择半监督社区发现算法——ALS_GNMF。在迭代框架下,首先,主动选择不确定性高且对社区划分指导性强的链接对作为先验信息;其次,为主动选择的链接对增加must-link约束,增强社区间连接,生成先验矩阵;同时,增加cannot-link约束,减弱社区间连接,修改邻接矩阵;最后,将先验矩阵作为正则项,加入基于NMF的最优化目标函数,并融合网络拓扑结构信息,以期用较少的先验信息,达到较高的社区发现准确性和鲁棒性。实验结果表明,ALS_GNMF算法在真实网络及人工网络上,相同的先验比例下,性能比未采用迭代框架和主动策略的NMF半监督社区发现方法有更大的提升,且在结构不清晰的网络中表现稳定。  相似文献   

2.
经典的无监督聚类算法快速、简单且可以直接对大规模数据集进行划分,但是由于网络结构较为复杂,划分的准确度并不高。为此,提出一种基于主动学习的纠错式半监督社区发现算法ESCD(error correction semi-supervised community detection algorithm),将传统的K-means算法进行分步计算,并且在聚类的过程中加入成对约束。根据先验信息保留正确的划分,纠正错误的划分来改变网络的连接关系,使网络具有更明显的块结构,当节点与聚类中心的距离不再变化时划分结束。实验结果表明,与现有的社区发现算法相比,ESCD算法具有更高的精度,且所需的监督信息远远小于其他半监督算法。  相似文献   

3.
柴变芳  吕峰  李文斌  王垚 《计算机应用》2018,38(11):3139-3143
基于迭代框架的主动半监督聚类框架(IASSCF)是一个流行的半监督聚类框架。该框架存在两个问题:其一,初始先验信息较少导致迭代初期聚类效果不佳,进而影响后续聚类结果;其二,每次迭代只选择信息量最大的一个样本标记,导致运行速度慢、性能提升慢。针对这两个问题,设计了一种基于主动学习先验的半监督K-means聚类算法。该方法包含初始化阶段和迭代阶段。初始化阶段主动选择代表性较高的节点集合,并基于代表节点集合构建各类的先验节点集合和约束先验集合。迭代阶段,每次迭代包含三步:1)基于当前约束先验集合,利用约束半监督聚类算法PCK-means对数据进行聚类;2)依据当前聚类结果,主动选择每个簇中最具价值信息的未标注样本点;3)利用选择样本点扩充先验节点集合及约束集合。迭代此过程至达到收敛阈值。实验结果表明,与基于原IASSCF框架的半监督K-means聚类算法相比,所提算法运行速度更快,性能更优。  相似文献   

4.
在复杂网络重叠社区发现方法的研究中,提高算法准确度的方法之一是利用额外的背景信息(例如来自领域专家的)作为约束的来源来指导社区检测过程。本文研究探索半监督策略的潜力,用以改善在网络中寻找重叠的社区的准确性。在进程的初始化阶段和子社区扩展过程中引入必须链接和不可能链接的约束,提出一种使用有限数量的成对约束、结合贪心策略来寻找重叠社区的方法PC-GCE(Pairwise Constrained Greedy Clique Expansion)。对模拟网络数据与当前无约束的局部扩展重叠社区发现算法(GCE)进行对比实验,结果表明PC-GCE方法在发现重叠社区的性能上优于无约束的算法,并且随着成对约束数量的增加,发现重叠社区的性能越好。  相似文献   

5.
一种基于因子图模型的半监督社区发现方法   总被引:3,自引:0,他引:3  
社区发现是社交网络分析中一个重要的研究方向.当前大部分的研究都聚焦在自动社区发现问题,但是在具有数据缺失或噪声的网络中,自动社区发现算法的性能会随着噪声数据的增加而迅速下降.通过在社区发现中融合先验信息,进行半监督的社区发现,有望为解决上述挑战提供一条可行的途径.本文基于因子图模型,通过融入先验信息到一个统一的概率框架中,提出了一种基于因子图模型的半监督社区发现方法,研究具有用户引导情况下的社交网络社区发现问题.在三个真实的社交网络数据(Zachary社会关系网、海豚社会网和DBLP协作网)上进行实验,证明通过融入先验信息可以有效地提高社区发现的精度,且将我们的方法与一种最新的半监督社区发现方法(半监督Spin-Glass模型)进行对比,在三个数据集中F-measure平均提升了6.34%、16.36%和12.13%.  相似文献   

6.
为抑制噪声数据对分类结果的影响,将噪声处理算法与高斯随机域算法相结合,提出一种带噪声系数的高斯随机域学习算法;针对样本集不平衡性数据分类问题,考虑主动学习在样本不平衡问题中的应用,将主动学习与图半监督算法相结合,提出一种鲁棒性强的主动学习图半监督分类算法。利用基于样本划分的主动学习方法,对正类的近邻样本集中样本与特定类样本形成的新样本集做总体散度排序,筛选出能使新样本集中总体散度最小的样本,代替正类的近邻样本集中所有样本,形成平衡类。在UCI标准数据集上的实验结果表明,与标准的图半监督算法相比,该算法的分类精度更高、泛化能力更强。  相似文献   

7.
李延超  肖甫  陈志  李博 《软件学报》2020,31(12):3808-3822
主动学习从大量无标记样本中挑选样本交给专家标记.现有的批抽样主动学习算法主要受3个限制:(1)一些主动学习方法基于单选择准则或对数据、模型设定假设,这类方法很难找到既有不确定性又有代表性的未标记样本;(2)现有批抽样主动学习方法的性能很大程度上依赖于样本之间相似性度量的准确性,例如预定义函数或差异性衡量;(3)噪声标签问题一直影响批抽样主动学习算法的性能.提出一种基于深度学习批抽样的主动学习方法.通过深度神经网络生成标记和未标记样本的学习表示和采用标签循环模式,使得标记样本与未标记样本建立联系,再回到相同标签的标记样本.这样同时考虑了样本的不确定性和代表性,并且算法对噪声标签具有鲁棒性.在提出的批抽样主动学习方法中,算法使用的子模块函数确保选择的样本集合具有多样性.此外,自适应参数的优化,使得主动学习算法可以自动平衡样本的不确定性和代表性.将提出的主动学习方法应用到半监督分类和半监督聚类中,实验结果表明,所提出的主动学习方法的性能优于现有的一些先进的方法.  相似文献   

8.
为了解决半监督聚类先验知识少、聚类偏差大的问题,提出了基于成对约束的主动半监督聚类算法.引入主动学习算法,增加约束集的信息量以使聚类效果更好;利用该约束集建立投影矩阵映射数据到低维空间,便于计算并提高聚类效果.算法中提出闭包替代思想,试图简化样本空间,以期获得降低聚类偏差的可能.由于聚类算法的实施对象是低维数据,成对约束集信息量大,聚类的时间效率以及性能均可保证.实验结果表明,采用主动学习的半监督聚类算法聚类效果提升显著,高效合理.  相似文献   

9.
针对多标签传播重叠社区发现算法(COPRA)存在的社区划分结果准确性低和鲁棒性差的问题,提出一种基于成对约束的多标签传播重叠社区发现方法 (PCMLPA)。以主动查找、扩展的方式引入成对约束指导社区发现,提高社区划分结果的准确性。在标签传播的过程中,根据节点影响力大小确定节点更新顺序,根据节点的相似性度量确定邻居节点的遍历顺序,解决COPRA鲁棒性差的问题。与其它基准算法的对比实验结果表明,PCMLPA方法鲁棒性强且社区划分结果具有更高的准确性。  相似文献   

10.
基于信息熵的主动学习半监督分类研究   总被引:1,自引:2,他引:1  
针对小规模训练样本不足以支持学习器对含有大量潜在不确定因素的未标样本集分类的问题,提出了一种基于信息熵的主动学习方法,引入信息熵的离散事件概率估计理论,通过对未标文档熵值的计算,结合二阶段学习策略,主动学习利用现有知识,结合实验样本环境,主动地选取最有可能的解决问题的样本并标注它们的类别,获得新的参数,重新训练分类器,选择最有利分类器性能的样本,迭代直到未标样本集为空。实验结果表明,该方法取得了较好的分类效果。  相似文献   

11.
针对传统高斯分布容易受到数据样本边缘值和离群点噪声的影响,改用t分布替代原有的高斯混合模型,并使用期望最大化(Expectation Maximization,EM)算法对网络流数据样本进行t分布混合模型的建模。为降低EM算法的迭代次数,对t分布混合模型进行了改进,用理论和实验验证了算法的有效性,并对网络多媒体业务流进行了分类研究。实验表明,提出的算法有较高的分类准确率,拟合的模型要优于传统的K-Means算法和传统的高斯混合模型的EM算法。  相似文献   

12.
音频取证中的插值检测是信号篡改检测的重要方面。因为信号的篡改经常伴随着重采样操作,而重采样后的插值信号会引入周期性信息。应用期望最大化(EM)算法能针对这种周期信息估计参数,从而检测出信号是否被篡改。为了使EM算法迭代效果更好,更适用于音频信号的插值检测问题,提出针对音频信号的特点,引入音频幅度直方图,排除短时静音和增加样本点数的方法。另外还提出了用频谱统计矩作为特征的方法,使统计分类稳定有效。最后通过音频取证中检测信号是否重采样的统计分类实验,表明整个检测流程能达到较高的准确率,并且在局部篡改实验中也同样有效。  相似文献   

13.
陶志勇  刘晓芳  王和章 《计算机应用》2018,38(12):3433-3437
针对高斯混合模型(GMM)聚类算法对初始值敏感且容易陷入局部极小值的问题,利用密度峰值(DP)算法全局搜索能力强的优势,对GMM算法的初始聚类中心进行优化,提出了一种融合DP的GMM聚类算法(DP-GMMC)。首先,基于DP算法寻找聚类中心,得到混合模型的初始参数;其次,采用最大期望(EM)算法迭代估计混合模型的参数;最后,根据贝叶斯后验概率准则实现数据点的聚类。在Iris数据集下,DP-GMMC聚类准确率可达到96.67%,与传统GMM算法相比提高了33.6个百分点,解决了对初始聚类中心依赖的问题。实验结果表明,DP-GMMC对低维数据集有较好的聚类效果。  相似文献   

14.
贝叶斯网络的学习可以分为结构学习和参数学习。期望最大化(EM)算法通常用于不完整数据的参数学习,但是由于EM算法计算相对复杂,存在收敛速度慢和容易局部最大化等问题,传统的EM算法难于处理大规模数据集。研究了EM算法的主要问题,采用划分数据块的方法将大规模数据集划分为小的样本集来处理,降低了EM算法的计算量,同时也提高了计算精度。实验证明,该改进的EM算法具有较高的性能。  相似文献   

15.
江国来  林耀荣 《计算机应用》2010,30(10):2698-2701
由于受环境、光照、人种等因素影响,不同图像中的肤色分布并不一样。在复杂背景情况下,采用固定的阈值边界模型进行肤色分割将导致较大的漏检或误检。基于YCbCr颜色空间,在固定阈值边界模型分割的基础上,运用简化的期望最大化(EM)算法计算出针对特定图像的自适应肤色高斯模型;然后综合考虑固定阈值边界模型以及自适应肤色高斯模型在不同颜色区域上划分的准确性,给出最终的肤色分割结果。实验结果表明,该方法相比固定阈值边界模型的分割方法,能同时降低误检率和漏检率,从而提高肤色识别的准确率。  相似文献   

16.
信息取证中图像重采样检测   总被引:5,自引:0,他引:5  
经过重采样后的数字图像,实质是原始图像信号和周期信号的叠加。通过期望最大化算法对两种信号进行聚类分析,便可以检测其中的重采样痕迹。通过对已有的模型进行改进,将原始信号分布代替均匀分布并增加了先验概率的迭代,使得分布情况更符合实际。同时,通过增加小补偿量的方法避免EM算法可能遇到的奇异点。实验证实该算法可以检测出对于未压缩图像的缩小、放大和旋转及图像是否被JPEG压缩过。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号