共查询到18条相似文献,搜索用时 46 毫秒
1.
传统的聚类算法在以下两种情况下存在直接失效的风险:一是数据稀少或存在大量干扰数据;二是为了调控数据间的差异性;对数据集进行缩放。为了同时解决上述两个问题;提出了历史知识迁移准则与中心间距极大化准则;并将其运用到极大熵聚类算法中;称之为具备历史迁移能力的中心极大化聚类算法。算法有三大突出的优点:在当前数据稀少或存在污染时;算法有效利用了历史知识进行迁移学习;从而证明了较好的聚类有效性;在数据缩放到一定倍数时;传统聚类算法取得的类中心趋于一致;而算法利用类中心间距极大化准则;有效避免了类中心一致的问题;算法所利用的历史知识均不暴露历史源数据;因此算法具有良好的历史数据隐私保护效果。通过模拟数据集和真实数据集的实验;验证了算法的上述优点。 相似文献
2.
谢云轩 《计算技术与自动化》2022,(3):64-70
软大间隔聚类(Soft Large Margin Clustering)已被证明比其他诸如K-Means等诸多聚类算法具有更优的聚类性能与可解释性。然而作为单机聚类算法,仍有可扩展性的瓶颈,因此有人将其进行分布式改造。然而在进行分布式运算时,在迭代过程中存在节点之间相互通信的过程。如果某些节点存在隐私数据,那么数据集中的敏感信息在通信过程中就可能泄漏。为此,本文将分布式软大间隔聚类算法(Distributed Sparse SLMC)结合隐私保护,通过插入高斯噪声来提供零集中差分隐私(Zero Concentrated Differential Privacy),发展出差分隐私软大间隔聚类算法。最后通过理论证明其隐私保护效用,通过实验验证其具有与非联邦算法相近的收敛速度与聚类性能。 相似文献
3.
BTS(Best Two Step)聚类算法是结合层次聚类和划分聚类算法的两步聚类算法。层次聚类算法类与类之间不可以对象交换,很容易造成聚类质量不高的结果。而划分聚类对于初始值的设定以及异常噪声数据都很敏感,所以我们研究提出了BTS算法,实验证明BTS算法可达到高质量的聚类效果。 相似文献
4.
5.
基于隐私保护的数据挖掘(PPDM)是社会发展需求的驱动,多项研究都表明,民众普遍对于隐私数据的滥用非常担忧,而且,很多国家和地区的法律都规定要对隐私数据提供保护,因此,出于社会及法律压力,必须在进行数据挖掘的同时提供防止隐私泄露的机制。主要针对数据挖掘中的聚类算法进行研究,提高隐私保护的强度和数据挖掘的精度。 相似文献
6.
针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。 相似文献
7.
大数据时代的数据挖掘技术在研究和应用等领域取得了较大发展,但大量敏感信息披露给用户带来了众多威胁和损失。因此,在聚类分析过程中如何保护数据隐私成为数据挖掘和数据隐私保护领域的热点问题。传统差分隐私保护k-means算法对其初始中心点的选择较为敏感,而且在聚簇个数k值的选择上存在一定的盲目性,降低了聚类结果的可用性。为了进一步提高差分隐私k-means聚类方法聚类结果的可用性,研究并提出一种新的基于差分隐私的DPk-means-up聚类算法,同时进行了理论分析和比较实验。理论分析表明,该算法满足ε-差分隐私,可适用于不同规模和不同维度的数据集。此外,实验结果表明,在相同隐私保护级别下,与其他差分隐私k-means聚类方法相比,所提算法有效提高了聚类的可用性。 相似文献
8.
提出了一种新的基于图划分的聚类算法——GAGPBCUK算法。该算法解决了谱聚类算法参数敏感和聚类结果不准确等问题。3组仿真实验结果表明,GAGPBCUK算法不仅在识别和学习数据集中的隐含聚类数方面具有很好的性能,而且能够得到比谱聚类算法(NJW算法)更加有效的聚类结果。 相似文献
9.
针对传统的划分聚类算法过度依赖初始聚类中心并容易陷入局部最优的问题,提出基于萤火虫算法的改进划分聚类算法。该算法将萤火虫个体对应于一组聚类中心的解,类簇的聚合度对应于萤火虫的亮度,通过萤火虫个体之间的相互吸引寻找聚类中心的最优解。在寻优过程中使用随机分布的萤火虫种群克服划分聚类过于依赖初始聚类中心的问题,采用自适应步长的策略加强算法寻找精确解的能力。为了避免在寻优过程中因为种群过于集中而导致算法陷入局部最优,引入小生境技术提高萤火虫的种群多样性。仿真实验结果表明,与传统聚类算法相比,该算法的聚类精度较高,稳定性较好。 相似文献
10.
集群资源模糊聚类划分模型 总被引:1,自引:0,他引:1
提出一种集群资源模糊聚类划分模型。对计算机集群中计算节点的CPU、内存、网络、I/O和网卡资源参数进行量化和规范化,运用模糊聚类技术,实现计算节点的聚类划分。引入任务资源需求向量和最低误差容忍向量,将计算机集群划分为若干个性能均衡的逻辑子群。测试结果表明,该模型能有效划分计算机集群,适用于云计算领域的资源调度。 相似文献
11.
随着网络安全问题受到越来越多的关注,在数据挖掘中做好隐私保护已成为当前的研究热点。如何在挖掘过程中不泄露私有信息或敏感数据,同时能得到比较准确的挖掘效果,是数据挖掘研究中的一个热点课题。本文从数据分布方式结合挖掘算法对当前几种关键的隐私保护方法进行分析,并给出算法的评估,最后提出隐私保护数据挖掘方法的未来研究方向。 相似文献
12.
13.
为加强隐私保护和提高数据可用性,提出一种可对混合属性数据表执行差分隐私的数据保护方法。该方法首先采用ICMD(insensitive clustering for mixed data)聚类算法对数据集进行聚类匿名,然后在此基础上进行-差分隐私保护。ICMD聚类算法对数据表中的分类属性和数值属性采用不同方法计算距离和质心,并引入全序函数以满足执行差分隐私的要求。通过聚类,实现了将查询敏感度由单条数据向组数据的分化,降低了信息损失和信息披露的风险。最后实验结果表明了该方法的有效性。 相似文献
14.
随着大数据不断发展,联邦学习已被广泛应用于各种各样的场景,从而方便人们的生产生活,但该技术给人们带来便利的同时也让用户面临着数据泄露的挑战,因此数据安全成为联邦学习研究的热点问题.通过介绍横向及纵向联邦学习的训练过程,并对该过程的潜在对手及其攻击原因进行研究,从而分类总结了现有的攻击手段,如投毒攻击、对抗攻击及模型逆推攻击等;在两种场景下分类介绍针对几种攻击手段的防御措施,如梯度稀疏化、恶意检测、秘密样本对齐、标签保护、加密共享和扰动共享等,这些方法不仅可以保证参与方的数据安全,也可以保证联合模型的准确率;最后根据对现有技术的研究,总结了现存方法存在的问题及未来的研究方向. 相似文献
15.
针对差分隐私保护下单一聚类算法准确性和安全性不足的问题,提出了一种基于差分隐私保护的Stacking集成聚类算法。使用Stacking集成多种异质聚类算法,将K-means聚类、Birch层次聚类、谱聚类和混合高斯聚类作为初级聚类算法,结合轮廓系数对初级聚类算法产生的聚类结果加权并入原始数据,将K-means算法作为次级聚类算法对扩展后的数据集进行聚类分析。其中,针对原始数据和初级聚类算法的聚类结果分别提出自适应的ε函数确定隐私预算,为不同敏感度的数据分配不同程度的Laplace噪声。理论分析和实验结果均表明,与单一聚类算法相比,该算法满足ε-差分隐私保护的同时有效提高了聚类准确性,实现了隐私保护与数据可用性的高度平衡。 相似文献
16.
17.
机器学习涉及一些隐含的敏感数据,当受到模型查询或模型检验等模型攻击时,可能会泄露用户隐私信息。针对上述问题,本文提出一种敏感数据隐私保护“师徒”模型PATE-T,为机器学习模型的训练数据提供强健的隐私保证。该方法以“黑盒”方式组合了由不相交敏感数据集训练得到的多个“师父”模型,这些模型直接依赖于敏感训练数据。“徒弟”由“师父”集合迁移学习得到,不能直接访问“师父”或基础参数,“徒弟”所在数据域与敏感训练数据域不同但相关。在差分隐私方面,攻击者可以查询“徒弟”,也可以检查其内部工作,但无法获取训练数据的隐私信息。实验表明,在数据集MNIST和SVHN上,本文提出的隐私保护模型达到了隐私/实用准确性的权衡,性能优越。 相似文献
18.
隐私保护问题已成为信息安全领域研究的重点方向。差分隐私从2006年提出至今一直受到理论界的推崇,而近年来在产业界众包模式下的本地差分隐私受到了极大关注。分析了本地差分隐私模型相对于经典差分隐私模型的演进与应用场景,从理论研究和工程实践角度,对本地差分隐私基础理论及其在数据收集与数据分析中的应用研究进行综述。在数据收集方面,介绍了本地差分隐私的主要研究和应用成果,并着重从差分隐私的角度对这些方法进行了分析比较。在数据分析方面,阐述了本地差分隐私在编码、解码以及在统计学角度的实现和分析方式,并从理论上对这些算法进行推导分析。最后,在对已有技术深入对比分析的基础上,总结出了本地差分隐私技术面临的挑战和研究方向。 相似文献